Ljudski genom sastoji se od tri milijarde baznih parova, što kodira približno 20.000–25.000 gena. Međutim, sam genom je od male koristi, osim ako se ne mogu utvrditi lokacije i odnosi pojedinih gena. Jedna od mogućnosti je ručna anotacija, pri čemu tim naučnika pokušava locirati gene koristeći eksperimentalne podatke iz naučnih časopisa i javnih baza podataka. Ipak, ovo je spor, mukotrpan zadatak. Alternativa, poznata kao automatizirana anotacija, je upotreba moći računara da izvrši kompleks obrazaca podudaranja proteina sa DNK.
U projektu Ensembl, podaci o sekvenci unose se u sistem anotacija gena (zbirka softverskih "cjevovoda" napisanih u Perlu) koji stvara skup predviđenih lokacija gena i sprema ih u bazu podataka MySQL za naknadnu analizu i prikaz. Ensembl čini ove podatke slobodno dostupnim svjetskoj istraživačkoj zajednici. Svi podaci i kodovi proizvedeni u projektu Ensembl dostupni su za preuzimanje,[4] and there is also a publicly accessible database server allowing remote access. In addition, the Ensembl website provides computer-generated visual displays of much of the data.
Ključno za koncept Ensembla je sposobnost automatskog generiranja grafičkih prikaza poravnanja gena i drugih genomskih podataka prema referentnom genomu. Oni su prikazani kao podaci, a pojedinačni tragovi se mogu okretati, omogućavajući korisniku da prilagodi prikaz u skladu sa svojim istraživačkim interesima. Interfejs takođe omogućava korisniku da zumira regiju ili se kreće duž genoma u bilo kom smjeru.
Ostali prikazi daju podatke na različitim razinama razlučivosti, od cijelih kariotipova pa sve do tekstovnih prikaza sekvenci DNK i aminokiselina ili predstavljaju druge tipove prikaza, kao što su stablima slični genski (homolozi) u nizu vrsta. Grafiku dopunjuju tabelarni prikazi, a u mnogim slučajevima podaci se mogu izvesti direktno sa stranice u raznim standardnim formatima datoteka, kao što je FASTA.
Vanjski proizvedeni podaci mogu se također dodati na prikaz, prenošenjem odgovarajuće datoteke u jedan od podržanih formata, kao što su BAM, BED ili PSL.
Grafika se generira pomoću skupa prilagođenih Perlovih modula, zasnovanih na GD, standardnoj Perl biblioteci grafičkih prikaza.
Alternativni načini pristupa
Pored svoje web stranice, Ensembl nudi REST API i Perl API[5] (Interfejs za programiranje aplikacija), koji modelira biološke objekte poput gena i proteina, omogućavajući pisanje jednostavnih skripta za dobijanje podataka od interesa. Isti API interno koristi web interfejs za prikaz podataka. Podijeljen je u odjeljke poput osnovnog API-ja, API-a compara (za uporedne genomske podatke), API-ja varijacije (za pristup SNP-ima, SNV-ima, CNV-ima ...) i funkcionalnom genomičkom API-ju (za pristup regulatornim podacima).
Web stranica Ensembl pruža opsežne informacije na linku
kako instalirati i koristiti API.
Ovaj softver može se koristiti za pristup javnoj bazi podataka MySQL, izbjegavajući potrebu za preuzimanjem ogromnih skupova podataka. Korisnici čak mogu odabrati i preuzimanje podataka iz MySQL-a, pomoću direktnih SQL upita, ali to zahtijeva opsežno znanje o postojećoj shemi baze podataka.
Veliki skupovi podataka mogu se preuzeti pomoću alata za rudarenje podataka BioMart. Pruža web interfejs za preuzimanje skupova podataka pomoću složenih upita.
Na kraju, postoji FTP server koji se može koristiti za preuzimanje cijelih MySQL baza podataka, kao i nekih odabranih skupova podataka u drugim formatima.
Postojeće vrste
Anotirani genomi uključuju najpotpunije sekvencirane kičmenjake i odabrane modelne organizme. Svi su oni eukarioti, nema prokariota. Od 2008., uključuje: