GenBank e os seus colaboradores reciben secuencias producidas en laboratorios de todo o mundo de máis de 100.000 organismos vivos distintos, cuxo número crece constantemente. Esta base de datos fundárona en 1982 Walter Goad e o Los Alamos National Laboratory. GenBank converteuse nunha importante base de datos para a investigación no eido da bioloxía e está tendo un crecemento nos últimos anos a unha taxa exponencial, duplicándose aproximadamente cada 18 meses.[1][2]
A entrega 242.0, realizada en febreiro de 2021, contiña uns 12 billóns de bases nucleotídicas en máis de 2 mil millóns de secuencias.[3] GenBank vaise construíndo cos envíos de datos dos máis diversos laboratorios e polos envíos dos centros de secuenciación de ADN a grande escala.
Envío de datos
Soamente se poden enviar a GenBank secuencias orixinais. O envío directo a GenBank faise usando BankIt, que é unha forma baseada en páxina web, ou o programa de envío autónomo Sequin. Unha vez recibido o envío da secuencia, o equipo de GenBank examina a orixinalidade dos datos e asignalle un número de acceso á secuencia e realiza comprobacións para asegurarse da súa calidade. Os envíos de datos son despois pasados á base de datos pública, onde as entradas pódense obter por Entrez ou pódense descargar por FTP. Os envíos voluminosos de datos de EST (marcadores de secuenca expresada ou Expressed Sequence Tags), STS (Sequence-tagged sites), GSS (Genome Survey Sequence) e HTGS (High-Throughput Genome Sequence) son enviados normalmente por centros de secuenciación a grande escala. Os grupo de envíos directos de GenBank tamén procesa secuencias xenómicas microbianas completas.
Na metade da década de 1980, a compañía The Intelligenetics bioinformatics da Universidade Stanford xestionou o proxecto de GenBank en colaboración co LANL.[5] Como era un dos primeiros proxectos comunitarios de bioinformática en Internet, o proxecto GenBank fundou os grupos de noticias BIOSCI/Bionet para promover as comunicacións de acceso aberto entre biocientíficos. Durante os anos 1989 a 1992, o proxecto GenBank pasou ao NCBI (National Center for Biotechnology Information) acabado de crear.[6]
Crecemento
As notas de entrega de GenBank para a entrega 162.0 (de outubro de 2007) dicían que "desde 1982 ata agora, o número de bases en GenBank duplicouse aproximadamente cada 18 meses".[3][7] En 2019 a entrega de GenBank 232.0 tiña 213.383.758 loci, 329.835.282.370 bases, de 213.383.758 secuencias.[3]
A base de datos GenBank inclúe conxuntos de datos adicionais que se constrúen mecanicamente a partir da colección principal de datos de secuencias, que, por tanto, están excluídos desta cifra.
As bases de datos públicas nas que se poden facer buscas usando a ferramenta NCBI BLAST (National Center for Biotechnology Information Basic Local Alignment Search Tool), non teñen secuencias revisadas por pares de cepas tipo nin secuencias de cepas non tipo. Por outra parte, aínda que as bases de datos comerciais potencialmente conteñen datos de secuencias filtradas de alta calidade, hai un número limitado de secuencias de referencia.
Un artigo publicado na revista Journal of Clinical Microbiology[9] avaliou os resultados da secuenciación do xene do ARNr de 16S analizados con GenBank en conxunción con outras bases de datos dispoñibles baseadas en páxina web de acceso libre de calidade contolada, como as bases de datos EzTaxon-e[10] e a BIBI.[11] Os resultados mostraron que as análises realizadas usando GenBank combinada con EzTaxon-e (kappa = 0.79) eran máis discriminativas que usando GenBank (kappa = 0.66) ou outra base de datos en solitario.
↑Hanson, Todd (2000-11-21). "Walter Goad, GenBank founder, dies". Newsbulletin: obituary. Los Alamos National Laboratory. Arquivado dende o orixinal o 07 de novembro de 2008. Consultado o 26 de setembro de 2021.