Els mecanismes o processos de predicció de gens ( general Prediction en anglès, o també general finding, literalment descobriment de gens) són aquells que, dins l'àrea de la biologia computacional, s'utilitzen per a la identificació algorísmica de trossos de seqüència, usualment ADNgenòmic, i que són biològicament funcionals. Això, especialment, inclou els gens codificants de proteïnes, però també podria incloure altres elements funcionals com ara gens ARN i seqüències reguladores. La identificació de gens és un dels primers i més importants passos per entendre el genoma d'una espècie un cop ha estat seqüenciat.
Antecedents
El 1986, i davant l'avanç en la seqüenciació del material genètic d'organismes més senzills, el Departament d'Energia dels EUA anunciar la iniciativa que es coneixeria com a Projecte Genoma Humà i que impulsaria de manera molt important els avenços en la genòmica i especialitats vinculades (tant de l'àmbit biològic com del tecnològic) que hem registrat en els últims anys.[1] Aquest projecte potenciava un procés començat uns deu anys abans amb les primeres seqüenciacions del genoma d'organismes elementals, i el seu objectiu era el coneixement de la seqüència completa de nucleòtids del conjunt de l'ADN de l'ésser humà. Va ser culminat el 2003, i en el seu èxit va tenir molt a veure la bioinformàtica en general i les aplicacions d'alineament de seqüències biològiques en particular.[2] Però, tant de forma paral·lela al procés de seqüenciació completa de l'ADN, com després del punt final del projecte (marcat per l'obtenció de la seqüència d'alta qualitat completada l'abril de 2003), una tasca tan important com la identificació de l'estructura íntima de l'ADN es duia a terme tant sobre el genoma humà com sobre el d'altres organismes: la identificació dels gens responsables de la codificació per a la producció de proteïna si que, entre altres objectius (que ja no es circumscrivien a una bàsica classificació de material genètic en organismes inferiors), podia suposar la identificació precisa de les causes de multitud de malalties i l'obtenció de coneixement fonamental per tractar-les.[1] És en aquest camp particular (encara que no exclusiu) on els mètodes de descobriment automàtic de gens han tingut, i segueixen tenint, una aplicació directa i transcendent. Tanmateix, cal ressenyar que en qualsevol tasca de predicció i anàlisi automatitzat de gens, les referències definitives són les disposades pels biòlegs experts en l'àrea, que han de confirmar, validar i completar el descobriment automàtic i l'anotació última dels gens.
En les seves primeres etapes, la predicció de gens es basava en una laboriosa experimentació sobre cèl·lules i organismes vius. L'anàlisi estadística dels ràtios de recombinació homòloga de multitud de gens diferents podria determinar la seva ordre en un determinat cromosoma, i la informació obtinguda de tals experiments es combinaria per crear un mapa genètic, especificant la localització aproximada relativa entre gens coneguts. A poc a poc, i en un període d'aproximadament vint anys, el coneixement que s'anava acumulant sobre vinculacions gèniques per homologia, d'una banda, i la identificació de determinades característiques comunes (senyals funcionals, patrons, periodicitats) en les seqüències codificants, de l'altra, permetre (juntament amb els avenços i generalització dels sistemes de tractament de la informació) anar perfeccionant l'anàlisi automatitzat d'un determinat genoma. Avui, amb una exhaustiva seqüència del genoma, a més de potents recursos computacionals a disposició de la comunitat investigadora, la predicció de gens ha estat redefinida, en gran part, com un problema computacional.
En l'actualitat, la determinació de si una seqüència és funcional s'ha de distingir de la determinació de la funció del gen o del seu producte. Aquesta última encara necessita experimentació in vivo a través del silenciament gènic i altres experiments, encara que les fronteres de la investigació bioinformàtica estan fent cada vegada més possible la predicció de la funció d'un gen basant-se únicament en la seva seqüència.
Aproximacions extrínseques
En sistemes de predicció de gens basats en evidències, en el genoma objectiu es busquen seqüències que siguin similars a l'evidència externa, que pren la forma d'una seqüència coneguda d'un ARN missatger (ARNm) o producte proteic. Donada una seqüència d'ARNm, és trivial derivar una única seqüència genòmica d'ADN des de la qual hagi hagut de ser transcrita. Donada una seqüència de proteïna, es pot derivar per traducció inversa del codi genètic una família de possibles seqüències d'ADN codificant. Quan les seqüències d'ADN candidates han estat determinades, és un problema algorítmic relativament senzill el buscar eficientment un genoma objectiu per les coincidències, totals o parcials, exactes o inexactes. BLAST és un sistema àmpliament utilitzat per a aquest propòsit.
Un alt grau de similitud amb un ARN missatger conegut, o amb un producte proteic, és una forta evidència que una regió del genoma en qüestió és un gen codificant de proteïna. No obstant això, aplicar aquesta aproximació sistemàticament requereix una exhaustiva seqüenciació d'ARNm i productes proteics. No només això resulta car, sinó que en organismes complexos només un subconjunt de tots els gens del genoma de l'organisme s'expressen en un determinat moment, el que significa que l'evidència extrínseca per a molts gens no està accessible fàcilment en qualsevol cultiu d'una única cèl·lula. Així, per recollir aquesta evidència per la majoria o per a tots els gens en un organisme complex, s'han d'estudiar diversos centenars o milers de tipus de cèl·lules diferents, el que representa en si dificultats afegides. Alguns gens humans, per exemple, podrien només expressar durant el seu desenvolupament com embrió o fetus, el que dificultaria el seu estudi per raons ètiques.
Malgrat aquestes dificultats, s'han generat unes exhaustives bases de dades de transcripcions i seqüències de proteïnes tant per a l'ésser humà com per altres organismes model importants en biologia, com els ratolins o el llevat. Per exemple la base de dades RefSeq conté transcripcions i seqüències proteiques de moltes espècies diferents, i el sistema Ensembl projecta intensivament aquesta evidència l'ésser humà ja bastants altres genomes. No obstant això, és probable que ambdues bases de dades estiguin incompletes, i que continguin petites, però significatives, quantitats de dades errònies.
Aproximacions ab initio
Donat la despesa i la dificultat inherents a l'obtenció de proves extrínseques per a molts gens, és també necessari recórrer a la predicció de gens ab initio, en la qual es busca, sistemàticament i de forma exclusiva en la seqüència genòmica d'ADN, certs signes reveladors de gens codificants de proteïnes. Aquests signes poden ser categoritzats, en línies generals, bé com a senyals (seqüències específiques que indiquen la presència propera d'un gen), bé com contingut (propietats estadístiques de la mateixa seqüència codificant). El terme predicció de l'expressió "predicció de gens ab initio " queda precisament caracteritzat com a tal, ja que l'evidència externa és generalment necessària per establir de forma concloent que un suposat gen és funcional.
En els genomes dels organismes procariotes, els gens tenen seqüències promotores (senyals) específiques i relativament ben conegudes, com la caixa Pribnow ( Pribnow box ) i els llocs d'unió dels factors de transcripció, que són fàcilment identificables de forma sistemàtica. A més, la seqüència codificant per una proteïna es presenta com un marc obert de lectura (open reading frame, ORF) contigu, que típicament mesura diversos centenars o milers de parells de bases. Les estadístiques dels codons d'aturada són tals que trobar un marc obert de lectura d'aquesta longitud és pràcticament un signe informatiu: ja que 3 dels 64 possibles codons en el codi genètic són codons d'aturada, podria esperar un codó d'aturada, aproximadament, per cada 20-25 codons, o 60-75 parells de bases, en una seqüència aleatòria. A més, l'ADN codificant té certes periodicitats i altres propietats estadístiques que són fàcils de detectar en una seqüència d'aquesta longitud. Aquestes característiques converteixen la predicció de gens en procariotes en fàcil en, i els sistemes ben dissenyats són capaços d'aconseguir alts nivells de precisió.
La predicció de gens en organismes eucariotes, especialment en organismes tan complexos com l'ésser humà, és considerablement més desafiador per diverses raons. Primer, el promotor i altres senyals reguladors en aquests genomes són més complicats i menys compresos que en els procariotes, fent-los més complicats de reconèixer fidedignament. Dos exemples clàssics de senyals identificats pels descobridors de gens eucariotes són les illes CpG i els llocs d'unió per a una cua poli-A.
Segon, els mecanismes de splicing ( empalmament, i també ayuste, en alguna literatura en castellà) emprat per les cèl·lules eucariotes suposen que una determinada seqüència codificant (a proteïnes) en el genoma és dividida en diverses parts (exon s), separades per seqüències no codificants (Intron s). (Els llocs d'entroncament són, en si mateixos, un altre senyal per a la identificació estan dissenyats sovint els descobridors de gens eucariotes.) Un gen codificant en els humans pot dividir-se en una dotzena d'exons, cada un d'ells menor de dos-cents parells de bases de longitud, i alguns tan curts com vint o trenta parells. És, per tant, molt més difícil detectar periodicitats o altres propietats conegudes de l'ADN codificant en els eucariotes.
Els predictors avançats de gens per genomes tant procariotes com eucariotes, usen típicament complexos models probabilístics, com els models ocults de Markov, per combinar informació aconseguida d'una varietat de diferents mesures de senyal i contingut. El sistema Glimmer és un identificador de gens àmpliament usat i molt precís per organismes procariotes. GeneMark és una altra aproximació popular. Els predictors de gens ab initio, en comparació, han aconseguit només èxits limitats. Exemples notables d'aquests són els programes GENSCAN i geneid. Uns pocs programes, com CONTRAST usen aproximacions d'aprenentatge automàtic, com màquines de suport vectorial, per a una eficaç predicció de gens.
Altres senyals
Entre els senyals utilitzats per a la predicció de gens estan les estadístiques resultants de l'anàlisi estadística de subvencions seqüències com k-mers (n-programas de seqüències d'àcids nucleics o aminoàcids), la transformada de Fourier d'un ADN pseudo-numèricament codificat, els paràmetres d'una Z-corba (corba tridimensional relacionada bi-unívocament amb una determinada seqüència d'ADN), i certes característiques del seu recorregut.[3]
S'ha suggerit que altres senyals, a part d'aquelles directament detectables en les seqüències, podrien millorar la predicció de gens. Per exemple, s'ha informat sobre el paper de l'estructura secundària en la identificació de motius reguladors.[4] També s'ha suggerit que la predicció de l'estructura secundària de l'ARN ajuda a la predicció dels llocs d'unió.[5][6][7][8]
Aproximacions per Genòmica Comparativa
Segons es van seqüenciant els genomes complets de moltes espècies diferents, trobem en l'enfocament per genòmica comparativa una prometedora adreça en la investigació actual sobre predicció de gens. Aquesta es basa en el principi que les forces de la selecció natural causen que els gens i altres elements funcionals experimentin les mutacions a un ritme menor que l'experimentat a la resta del genoma, ja que les mutacions en els elements funcionals afecten de forma negativa a l'organisme amb major probabilitat que les mutacions en qualsevol altra part. Així, els gens poden ser detectats comparant els genomes d'espècies vinculades per detectar aquesta pressió evolutiva per a la conservació. Aquesta aproximació es va aplicar inicialment sobre els genomes del ratolí i l'ésser humà, usant programes com ara SLAM, SGP i Twinscan/N-SCAN.
La predicció de gens comparativa pot usar-se, també, per projectar anotacions d'alta qualitat d'un genoma a un altre. Com a exemples notables es troben Projector, GeneWise i GeneMapper. Aquestes tècniques juguen ara un paper central en l'anotació de tots els genomes.
↑Hiller M, Pudimat R, Busch A, Backofen R Using RNA secondary structures to guide sequence motif finding towards single-Stranded regions. 34, 2006, p. e117. Entrez PubMed16987907.
↑Patterson DJ, Yasuhara K, Ruzzo WL. Pre-mRNA secondary structure Prediction aids Splice site Prediction, 2002, p. 223-234. Entrez PubMed11928478.
↑Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H Importance of RNA secondary structure information for Yeast donor and acceptor Splice site Predictions by neural networks. 30, 2006, p. 50-57. Entrez PubMed16386465.
↑Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M. Impact of RNA structure on the Prediction of donor and acceptor Splice sites. 7, 2006, p. 297. Entrez PubMed16772025.