CiteSeerx é um motor de busca, biblioteca digital e repositório público para trabalhos científicos e acadêmicos com foco em computadores e ciência da informação.[1] É vagamente baseado no motor de busca e biblioteca digital anterior CiteSeer e é construído com uma nova infra-estrutura em software livre, SeerSuite, e novos algoritmos e suas implementações. Ele foi desenvolvido pelos pesquisadores Dr. Isaac Councill e Dr. C. Lee Giles no the College of Information Sciences and Technology, Universidade Estadual da Pensilvânia. Ele continua a apoiar os objetivos delineados pela CiteSeer de ativamente rastrear e colher documentos acadêmicos e científicos na web e usar um índice de citação para permitir a consulta por citações e classificação dos documentos pelo impacto das citações. Atualmente, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, e Shuyi Zheng estão ativamente envolvidos em seu desenvolvimento. Recentemente, um recurso de pesquisa em tabelas foi introduzido.[2]
O CiteSeerx continua a ser classificado como um dos repositórios mais importantes do mundo e foi classificado como número 1 em julho de 2010.[3] Ele tem atualmente mais de 1,5 milhões de documentos, com quase 1,5 milhões de autores únicos e 30 milhões de citações.
CiteSeerx partilha também o seu software, dados, bancos de dados e metadados com outros pesquisadores, atualmente por rsync.[4] Sua nova arquitetura modular de software livre (disponível no SourceForge) é construída no Apache Solr e outros Apaches e ferramentas de código aberto que permitem que ele seja um teste para novos algoritmos em documentos de coleta, classificação, indexação e extração de informações.
Ver também
Referências
Ligações externas