U genomici, izučavanje genomskih asocijacija (engl. GWA studija, GWAS, u nastavku korišćeni izrazi), poznata i kao studija asocijacije čitavih genoma (engl. WGA ili WGAS), je ispitivanje mnoštva zajedničkih genetičkih varijanti ljudi da bi se utvrdilo da li je neka od varijanti vezana za datu osobinu. GWAS je tipično usredsređena na asocijacije između jednonukleotidnih polimorfizama (engl. Single-nucleotide polymorphism, SNP-ova) i bolesti kod ljudi, ali se može primeniti i na druge organizme i druge genetičke varijante. Studije se zasnivaju na brzom skeniranju markera u DNK molekulu ili čitavom genomu u cilju nalaženja genetičkih varijanti koje su povezane sa nekom složenom bolešću poput astme, dijabetesa, mentalnih bolesti, bolesti srca itd.[1]
Te studije upoređuju DNK participanata (učesnika): ljudi sa bolešću i srodne zdrave ljude (kontrole), ili i dodatno ljude sa različitim fenotipovima za određenu osobinu. Ovakav pristup se naziva i prvo-fenotip zbog toga što su učesnici (ispitanici) klasifikovani prvo na osnovu kliničke manifestacije, što je suprotno od pristupa prvo-genotip. Svaka osoba daje uzorak DNK iz kog se čitaju milioni genetičkih varijanti koristeći SNP čipove. Ako je jedan tip varijante (jedan alel) frekventniji kod ljudi sa bolešću, za SNP se kaže da je „asociran“ (povezan) sa bolešću. Asocirani SNP-ovi obeležavaju region ljudskog genoma koji utiče na rizik pojave bolesti. U kontrastu sa metodama koje specifično testiraju jedan ili nekoliko genetičkih regiona, GWA studije istražuju celokupan genom, te ovaj pristup nije zavistan od prethodnih pretpostavki o relevantnim regionima. GWA studije identifikuju SNP-ove i druge varijante DNK koje su asocirane s bolešću, međutim one nisu dovoljne za određivanje gena uzročnika bolesti, ali se uprkos tome dobijene informacije mogu koristiti za uspešnije otkrivanje, lečenje ili prevenciju bolesti.[1][2][3][4]
Prva GWA studija je bila objavljena 2002. godine i bavila se infarktom miokarda.[5] Dizajn ovog eksperimenta je primenjen i 2005. godine u studiji koja se bavila straživanjem starosne degeneracije makule. Nađena su dva SNP-a koja su imala znatno promenjenu alelsku frekvenciju u poređenju sa kontrolama (zdravim ljudima).[6] Od 2017. godine urađeno je preko 3000 studija genomskih asocijacija tokom kojih je ispitano preko 1800 bolesti i osobina, a pronađeno je na hiljade SNP asocijacija.[7] Nekoliko GWA studija je bilo kritikovano zbog izostavljanja važnih koraka kontrole kvaliteta, iz kog razloga su postale neupotrebljive, međutim moderne publikacije obraćaju pažnju na taj problem.
Pozadina studija
Bilo koja dva posmatrana genoma se mogu razlikovati na mnogo načina, pa tako postoje male varijacije u pojedinačnim nukleotidima (SNP), ali i mnogo veće varijacije poput insercija, delecija ili varijacija u broju kopija. Sve ove varijacije mogu dovesti do razlika u osobinama individua (fenotipa), što može biti rizik od bolesti ili neka fizička osobina poput visine.[8]
Pre izučavanja genomskih asocijacija, primarni metod istraživanja bila je studija genetičkog nasleđivanja u porodici koji se pokazao korisnim za poremećaje na nivou jednog gena.[8][9][10] Međutim, kada su u pitanju česte i složene bolesti, pokazalo se da je teško reprodukovati rezultate ovakvih studija, pa je predložena alternativa u vidu studija genomskih asocijacija za koju se nakon ranih statističkih proračuna smatralo da je bolja od studija nasleđivanja kada je u pitanju otkrivanje slabih genetičkih efekata.[8][10][11] Studija genomskih asocijacija ispituje da li se neka alelska varijanta nalazi češće nego što je očekivano kod osoba sa fenotipom od interesa (npr. neko oboljenje).
Da bi ovakve studije bile moguće i uspešne, bilo je potrebno da se razviju određeni faktori i projekti. Pojava biobanaka, odnosno baza/repozitorijuma ljudskog genetičkog materijala je smanjila troškove i poteškoće u vezi prikupljanja bioloških uzoraka potrebnih za proučavanje.[12] Važan preduslov je bio i razvoj metoda za genotipizaciju svih varijacija u pojedinačnim nukleotidima pomoću genotipskih nizova, kao i međunarodni projekat HapMap kojim je od 2003. godine identifikovana većina uobičajenih SNP-ova koji se koriste u GWA studijama.[13]
Metode
Najčešći pristup studija izučavanja genomskih asocijacija je takozvani slučaj-kontrola pristup u kom se porede dve velike grupe individua - kontrolna grupa i grupa nosilaca neke bolesti, promene osobine itd. Naredni korak je genotipizacija predstavnika obe grupe za većinu poznatih varijacija u pojedinačnim nukleotidima (SNP-ova), a tačan broj zavisi od tehnologije genotipizacije koja se koristi, ali je to okvirno milion i više.[15] Zatim se za svaki od SNP-ova determiniše da li se frekvencija alela značajno menja između dve grupe ispitanika[16] i tada je osnovna jedinica koja determiniše veličinu efekta odnos dva parametra. Ta dva parametra bi u GWAS studijama predstavljala verovatnoću da pojedinci imaju specifični alel i verovatnoća da pojedinici nemaju taj isti alel.
Na primer, možemo uzeti da postoje dva alela obeležena slovima T i C. Broj ispitanika koji imaju alel T je obeležen sa A, a broj ispitanika kontolne grupe koji imaju alel T je obeležen sa B. Broj ispitanika za neki slučaj/osobinu koji imaju alel C je predstavljen X znakom, a kontrolna grupa sa znakom Y. U ovom slučaju bi odnos za alel T bio računat kao AːB podeljeno sa XːY, odnosno matematički prikazano na sledeći načinː (A/B)/(X/Y).
Odnos je veći od 1 kada je frekvencija/učestalost nekog alela u grupi ispitanika značajno veća od učestalosti u kontrolnoj grupi ispitanika, a odnos je manji od 1 u obrnutom slučaju. Ukoliko se odnos značajno razlikuje od vrednosti 1, to pokazuje da je dati SNP povezan sa oboljenjem.[16]p-vrednost za značaj odnosa verovatnoća se računa pomoću χ2 testa (hi-kvadratni test). Pošto se u studiji izučavanja genomskih asocijacija koristi veliki broj varijanti, praksa je da se zahteva da vrednost p bude niža od 5 × 10−8 kako bi se varijanta smatrala značajnom. Nakon izračunavanja odnosa i p-vrednosti za sve SNP-ove pravi se Menhetn plot. Ovaj plot prikazuje negativni logaritamp-vrednosti u funkciji genomske lokacije. Na plotu se SNP-ovi sa najznačajnijom asocijacijom ističu u vidu većeg broja tačaka zbog haploblok strukture.[15]
Naječešća alternativa GWAS studijama je analiza kvantitavnih fenotipskih podataka, a često se koriste i metode alternativne statistike.[16] Izračunavanje se vrši pomoću bioinformatičkihsoftvera poput SNPTEST i PLINK koji sadrže i podršku za mnoge od alternativnih statistika.[17][18] Ono što je poseban izazov kada su u pitanju analize genomskih asocijacija (naročito statistički izazovno) je činjenica da se ove metode fokusiraju na efekat pojedinačnih SNP-ova, a dešava se da se upravo u osnovi razvoja neke bolesti nalaze kompleksne interakcije između dva ili više SNP-a. Kako bi se dobili što informativniji rezultati, istraživači pokušavaju da rezultate dobijene GWAS metodama povežu sa drugim biološkim podacima poput mreža interakcija protein-protein itd.[19][20]
Ključni korak u većini analiza genomskih asocijacija je imputacija genotipova na male varijacije u pojedinačnim nukleotidima[21] što povećava broj SNP-ova koji mogu da se koriste za metode asocijacije, jačinu studije i olakšava meta-analizu GWAS studija u različitim kohortama.
Kako bi se u studijama izbegli lažno pozitivni rezultati, potrebno je uzeti u obzir i promenljive (varijable) koje mogu dovesti do promene u rezultatima. Na primer, pol i starost bi bili primer takvih promenljivih, a osim njih mnoge genetičke varijante su vezane za istorijske i geografske populacije u kojima su varijante prvi put i nastale.[22] Zbog svega navedenog je bitno da se u obzir uzmu i geografsko i etičko poreklo ispitanika.
Rezultati
Ideja je bila da se naprave katalozi svih SNP-ova koji su identifikovani ili se koriste u GWAS studijama, a od 2009. godine je veliki broj SNP-ova (nekoliko hiljada) povezan sa određenim bolestima.[23][24]
Prvo izučavanje genomskih asocijacija je sprovedeno 2005. godine. U istraživanju je poređeno 50 kontrola (ljudi koji su zdravi) sa 96 pacijenata koji su imali starosnu degeneraciju makule (oka).[25] Rezultat istraživanja je identifikacija dva SNP-a koji su smešteni u genu koji kodira komplement faktor H i koji su imali značajno izmenjenu frekvenciju alela kod pacijenata u odnosu na kontrolnu grupu. Prve studije ovakve vrste su dalje podstakle funkcionalna istraživanja ka terapijskoj manipulaciji sistemom komplementa kod bolesti starosne degeneracije makule.[26]
Još jedna jako važna studija je bila studija koju su izvršili članovi grupe Wellcome Trust Case Control Consortium (WTCCC, konzorcijum 50 istraživačkih grupa u Ujedinjenom Kraljvstvu koji se bave istraživanjima iz oblasti humane genetike) 2007. godine. Ova studija se bavila proučavanjem sedam bolesti među kojima su dijabetes tipa 1 i 2, reumatoidni artritis, Kronova bolest, hipertenzija i bipolarni poremećaj sa po 2000 uzoraka (obolelih osoba), a ukupno 14.000 pacijenata i 3000 kontrolnih uzoraka.[17] Rezultat ove studije je otkrivanje velikog broja novih gena koji se nalaze u osnovi navedenih bolesti.[17][27]
Nakon prvih značajnijih GWA studija, došlo je do pojave dva trenda.[28] Prvi trend je povećanje broja uzoraka koji se koriste u ispitivanjima. Tako je na primer u 2018. godini broj uzoraka bio preko 1 miliona, poput 1,3 miliona ispitanika u studiji nesanice (insomnije)[29] i 1,1 miliona ispitanika u GWA studijama nivoa obrazovanja.[30] U osnovi ovog trenda se nalazi potreba za pouzdanijim proučavanjem i detektovanjem SNP-ova koji imaju manji odnos verovatnoće i koji imaju nižu frekvenciju alela. Drugi trend je upotreba usko definisanih fenotipova, npr. lipidi u krvi, proinsulin i slični drugi biomarkeri.[31][32]
Glavna tačka debata oko GWA studija jeste to da većina varijacija SNP-a pronađenih tokom GWA studija jesu povezani sa rizikom nekog oboljenja, ali u maloj meri i da imaju malu prediktivnu vrednost (ne mogu se pouzdano koristiti za predikciju bolesti).
Klinička primena
Neki od izazova budućih uspešnih GWA studija je primena rezultata ovih studija u razvoju lekova i puteva dijagnostike bolesti, kao i isticanje bitne uloge genetičkih varijacija u održavanju zdravlja.[33] Nekoliko studija se bavilo upotrebom markera SNP kao sredstva za poboljšanje tačnosti predikcija oboljenja, međutim samo neke od njih su rezultirale povećanjem tačnosti prilikom korišćenja GWA studija i SNP-ova kao markera[34], ali neke studije i do rezultata da njihovo korišćenje dovodi do manjih efekata na predikciju.[35] Problem je mala veličina uočenih efekata koji dovode do lošeg razdvajanja obolelih ispitanika i kontrole, a samim tim i do malog napretka i poboljšanja tačnosti predikcija bolesti.
Jedan od uspeha GWA studija je povezan sa identifikovanjem genetičke varijante koja je povezana sa odgovorom na tretman sa anti-hepatitis C virusom. Glavna otkrića dovela su do razvoja personalizovane medicine koja je omogućila prilagođavanje/određivanje terapije i dijagnoze pacijenata na osnovu genotipa.[36] Tako su GWA studije pokazale da SNP-ovi koji se nalaze u blizini ljudskog gena IL28B koji kodira interferon lambda 3, mogu biti povezani sa razlikama u odgovoru na terapiju i lečenje.
Tokom godina došlo je do povećanog interesovanja za povezanost SNP-ova i ekspresije gena u blizini, takozvane studije ekspresije lokusa kvantitativnih svojstava (engl. eQTL).[37] GWAS studije identifikuju samo rizične SNP-ove, ali ne i rizične gene, a sama specifikacija gena bi bio značajan korak ka personalizovanoj terapiji. Da bi se napravio napredak, velike GWA studije do 2011. godine su uključivale i studije ekspresije lokusa kvantitativnih svojstava.[38][39][40] Značajan lokus koji je otkriven na ovaj način je lokus SORT1 za koji je uz pomoć funkcionalnih analiza otkriveno da ima važnu ulogu kada su u pitanju kardiovaskularne bolesti.[31][41][42]
Primene u poljoprivredi
Faze rasta biljaka i prinos
GWA studije su važan alat sa velikom količinom podataka o fenotipizaciji i genotipizaciji i imaju veliki uticaj u oplemenjivanju biljaka. Na primer, studijom prolećne pšenice otkrivena je snažna korelacija između prinosa zrna i biomase, broja zrna po klasju itd.[43]
Biljni patogeni
Biljnipatogeni su velika pretnja po zdravlje i biodiverzitet biljaka, pa je jako korisno otkrivanje određenih varijanti/sorti koje su prirodno otporne na patogen, a u tome veliku ulugu imaju upravo GWAS studije. Potrebno je i predvideti koji aleli su asocirani/povezani sa rezistencijom/otpornošću.[44]
Limiti
GWA studije se takođe suočavaju sa nekoliko problema i ograničenja poput nedostatka dobro definisanih kontrolnih grupa i slučajeva (ispitanika), kontrole stratifikacije populacije, nedovoljne veličine uzorka, itd. Uglavnom su to problemi koji se uspešno mogu rešiti pravilnom kontrolom kvaliteta i podešavanjem studije. Dobar preduslov za dobijanje velikog broja lažno pozitivnih rezultata je upravo masivan broj izvedenih statističkih testova tokom GWA studija.[3] Pored ovakvih rešivih problema, tu su i primeri kada su studije dovele i do pogrešnih rezultata ili zaključaka. Primer za to je visokoprofitna GWA studija koja se bavila proučavanjem osoba sa dugim životnim vekom u cilju pronalaženja SNP-ova koji su povezani sa dugovečnošću.[45] Zbog neslaganja između tipa genotipskog niza u grupi ispitanika i kontrolnoj grupi, nekoliko SNP-ova je bilo lažno povezano sa dugovečnošću.[46] Studija je naknadno povučena[47], ali je kasnije ipak objavljen modifikovani rad.[48]
^Manolio, T. A.; Guttmacher, Alan E.; Manolio, Teri A. (2010). „Genomewide association studies and assessment of the risk of disease”. New England Journal of Medicine. 363 (2): 166—76. PMID20647212. doi:10.1056/NEJMra0905980.
^Greely, Henry T. (2007). „The Uneasy Ethical and Legal Underpinnings of Large-Scale Genomic Biobanks”. Annual Review of Genomics and Human Genetics. 8: 343—364. PMID17550341. doi:10.1146/annurev.genom.7.080505.115721.
^Ayati, Marzieh; Koyutürk, Mehmet (2015). „Assessing the collective disease association of multiple genomic loci”. Proceedings of the 6th ACM Conference on Bioinformatics, Computational Biology and Health Informatics. стр. 376—385. ISBN978-1-4503-3853-0. S2CID5942777. doi:10.1145/2808719.2808758..
^Marchini, Jonathan; Howie, Bryan (2010). „Genotype imputation for genome-wide association studies”. Nature Reviews Genetics. 11 (7): 499—511. PMID20517342. S2CID1465707. doi:10.1038/nrg2796..
^Haines, Jonathan L.; Hauser, Michael A.; Schmidt, Silke; Scott, William K.; Olson, Lana M.; Gallins, Paul; Spencer, Kylee L.; Kwan, Shu Ying; Noureddine, Maher; Gilbert, John R.; Schnetz-Boutaud, Nathalie; Agarwal, Anita; Postel, Eric A.; Pericak-Vance, Margaret A. (2005). „Complement Factor H Variant Increases the Risk of Age-Related Macular Degeneration”. Science. 308 (5720): 419—421. Bibcode:2005Sci...308..419H. PMID15761120. S2CID32716116. doi:10.1126/science.1110359..
^Dubé, Joseph B.; Johansen, Christopher T.; Hegele, Robert A. (2011). „Sortilin: An unusual suspect in cholesterol metabolism”. BioEssays. 33 (6): 430—437. PMID21462369. doi:10.1002/bies.201100003.
^Bauer, Robert C.; Stylianou, Ioannis M.; Rader, Daniel J. (2011). „Functional validation of new pathways in lipoprotein metabolism identified by human genetics”. Current Opinion in Lipidology. 22 (2): 123—128. PMID21311327. S2CID24020035. doi:10.1097/MOL.0b013e32834469b3.
^Visscher, P. M.; Goddard, M. E.; Derks, E. M.; Wray, N. R. (2012). „Evidence-based psychiatric genetics, AKA the false dichotomy between common and rare variant hypotheses”. Molecular Psychiatry. 17 (5): 474—485. PMID21670730. S2CID6556062. doi:10.1038/mp.2011.65..