Οντολογία Γονιδίων (Gene Ontology-GO,[1]) είναι μια οντολογία που περιέχει πληροφορίες σχετικά με γονίδια, τις λειτουργίες και τις σχέσεις μεταξύ τους με ένα δομημένο τρόπο. Τα δύο κύρια συστατικά της GO είναι η οντολογία αυτή καθ’αυτή (Ontology) που περιέχει τους όρους (terms) που περιγράφουν την λειτουργία των γονιδίων (gene function) και οι αντίστοιχες υποσημειώσεις (annotations). Στην τελευταία έκδοση (2019) είναι καταχωρημένοι 44.945 όροι (GO terms), 6.408.283 GO annotations, ενώ αφορούν 1.155.213 γονιδιακά προϊόντα 4.467 ειδών.[2][3]
Εισαγωγικά Στοιχεία
Το GO (gene ontology) αποτελεί το κύημα της μεγαλύτερης προσπάθειας στο πεδίο της βιοπληροφορικής μέχρι στιγμής, όσον αφορά σε βάσεις δεδομένων γονιδιακής πληροφορίας, που σχεδιάστηκε με απώτερο σκοπό την αποσαφήνιση σύνθετων βιολογικών ερωτημάτων. Πρόκειται για μια αυτοτελή βιοπληροφορική πλατφόρμα που προσπαθεί να συσχετίσει εννοιολογικά, διάφορα επιμέρους βιολογικά στοιχεία, χρησιμοποιώντας κωδικοποιημένο λεξιλόγιο. Η μεγαλύτερη δυσκολία που καλούνται να αντιμετωπίσουν οι χρήστες του είναι η επισκόπηση της ευστάθειας τόσο των υπαρχόντων δεδομένων, όσο και των προστιθέμενων, καθώς επίσης και η ανάγκη της συνεχούς αναδιάρθρωσης και επαναξιολόγησης των υποσημειώσεων (annotations) ούτως ώστε να ικανοποιούν τα κριτήρια της σωστής λειτουργίας της πλατφόρμας.[4] Η ανάγκη αυτή γίνεται ακόμη πιο επιτακτική αν αναλογιστεί κανείς ότι η αύξηση του όγκου των διάφορων βιολογικών δεδομένων συμβαίνει με τρόπο ιλιγγιώδη, αλλά και απρόβλεπτο. Με το πέρασμα του χρόνου έχουν αναπτυχθεί πιο ευαίσθητοι αλγόριθμοι για τον έλεγχο της ποιότητας των επιμέρους στοιχείων των δεδομένων που καταχωρούνται.[5]
Η μεγάλη καινοτομία του GO έγκειται στη χρήση ειδικού λεξιλογίου, το οποίο επιτρέπει τόσο την εξειδικευμένη πλοήγηση στις βάσεις δεδομένων που φιλοξενεί, αλλά και την άνθιση ενός πληθωρικού πληροφοριακά συστήματος δικτύου, που δίνει τη δυνατότητα στους βιολόγους να οπτικοποιήσουν και να ποσοτικοποιήσουν πληθώρα διαφορετικών κυτταρικών διεργασιών. Το μεγάλο πλεονέκτημα της GO σε σχέση με τα προϋπάρχοντα προγράμματα βιοπληροφορικής είναι το φιλικό στο χρήστη και παράλληλα παραγωγικό λεξιλόγιο που θα τον διευκολύνει. Μια επίσης καίρια εξέλιξη είναι η δημιουργία λεξιλογίου που συνδέει διαφορετικά είδη οργανισμών μεταξύ τους, επιτρέποντας τη συσχέτιση των κοινών βιολογικών όρων που συναντώνται στους οργανισμούς αυτούς. [5][3]
Ιστορικά Στοιχεία
Η σύλληψη του Gene Ontology σαν ιδέα, έλαβε χώρα το 1998, όταν ένα σύνολο επιστημόνων της βιολογίας με διαφορετικά υπόβαθρα και ενδιαφέροντα, αποφάσισαν πως η σύνδεση των επιμέρους ερευνών τους με ένα σύστημα εύστοχων βιοπληροφορικών συνδέσεων θα μπορούσε να αποτελέσει το εκμαγείο για μια ευρέως χρησιμοποιούμενη εφαρμογή στο χώρο της γενετικής και όχι μόνο. Οι ερευνητές παρέθεσαν μια σειρά στοιχείων και επιχειρημάτων για να υποστηρίξουν την ιδέα τους αυτή, με κεντρικό άξονα την ανάγκη εκσυγχρονισμού της ταχέως αναπτυσσόμενης βιολογίας από την εποχή που οι Watson και Crick ανακάλυψαν τη δομή του DNA. Ο επικεφαλής αυτού του εγχειρήματος ήταν ο βιολόγος Michael Ashburner.[6] Η ιδέα αρχικά περιελάμβανε προοπτικές μόνο για οργανισμούς μοντέλα, των οποίων το γονιδίωμα είχε αλληλουχηθεί πλήρως, ενώ δε θα διέθετε καθόλου προκαρυωτικούς οργανισμούς κατά το πρώτο στάδιο λειτουργίας. Στο παρελθόν είχε γίνει παρόμοια απόπειρα κατηγοριοποίησης των λειτουργιών διαφορετικών ευκαρυωτικών ενζύμων, ποτέ όμως δεν είχε επιχειρηθεί ένα τόσο μεγάλο πόνημα σαν αυτήν την προσπάθεια. Η ιδέα του Ashburner ήταν η εξής: ένα σύστημα βιοπληροφορικής το οποίο θα χρησιμοποιούσε ευέλικτο και κατανοητό λεξιλόγιο που θα συνδέει διαφορετικούς οργανισμούς μοντέλα με την αναζήτηση στοιχείων γι' αυτά μέσω της αναγνώρισης ειδικών υποσημειώσεων (annotations).[5] Έτσι αρχικά συμπεριλήφθηκαν ο οργανισμοί Drosophila melanogaster (φρουτόμυγα), Mus musculus (ποντίκι) και Saccharomyces cerevisiae (ζύμη).
Η ιδέα παρουσιάστηκε για πρώτη φορά τον Ιούλιο της ίδιας χρονιάς από τον Ashburner στο "Διεθνές Συμβούλιο Έξυπνων Συστημάτων Μοριακής Βιολογίας" που διεξήχθη στο Montreal του Καναδά (ISBM) και υπερθεμάτιζε την ανάγκη για ανάπτυξη ενός προγράμματος έξυπνου λεξιλογίου με ιεραρχικό χαρακτήρα, το οποίο θα προάγει τη βελτίωση της βιολογικής έρευνας. Αρχικά, θεωρήθηκε αφελής σαν ιδέα και αποπέμφθηκε από το συμβούλιο.[6] Λίγο αργότερα όμως με τη συμβολή και άλλων τριών επιστημόνων, των Steve Chervitz, Judith Blake και Suzanna E Lewis, και με ορισμένες μικρές τροποποιήσεις στο αρχικό πλάνο, η ιδέα τελικά έγινε δεκτή. Έξι χρόνια αργότερα, οι βάσεις δεδομένων και οι αντίστοιχες υποσημειώσεις, αυξήθηκαν κατά εκατό φορές περίπου, ενώ κατέστη δυνατή και η ενσωμάτωση δεδομένων για προκαρυώτες. Πλέον η GO διαθέτει από το 2004 τη γνωστή μορφή που έχει και σήμερα με τροποποιήσεις ανά τακτά χρονικά διαστήματα. Το 2007 έγινε η εισαγωγή ενός σετ αυστηρότερων κριτηρίων στην εισαγωγή υποσημειώσεων (annotations) και δεδομένων [6][5] με αποτέλεσμα να υπάρχουν δύο μορφές της GO το "filtered" και το "unfiltered" ανάλογα με το βαθμό "φιλτραρίσματος" και την ανοχή σε μικρές αποκλίσεις των δεδομένων από τα πραγματικά.
Προβλήματα
Ωστόσο η GO δεν αποτελεί πανάκεια καθώς αντιμετωπίζει μια σειρά προβλημάτων και ασταθειών που συνεπάγονται του μεταβλητού χαρακτήρα της. Πιο ενδελεχώς, όπως αναφέρθηκε το βασικό ζήτημα που έχει να αντιμετωπίσει το σύστημα είναι η αθρόα εισαγωγή νέων δεδομένων καθώς επίσης και η διατήρηση και διεύρυνση του ήδη υπάρχοντος λεξιλογίου ούτως ώστε να πληρούνται τα στοιχεία ποιότητας και ακεραιότητας των υπηρεσιών που προσφέρει. Αυτά τα προβλήματα χαρακτηρίζονται ως μεταβολές οντολογίας (ontology shifts) και συνοψίζονται στις εξής κατηγορίες:
1) Μεταβολές οντολογίας που σχετίζονται με την εισαγωγή νέων δεδομένων, το οποίο ίσως και να είναι το πιο σημαντικό από όλα τα είδη λόγω του τεράστιου όγκου νέων δεδομένων που πρέπει να αξιολογηθούν για την εγκυρότητα τους.
2) Μεταβολές οντολογίας που αφορούν στην ανάπτυξη νέου λεξιλογίου, ειδικά σε περίπτωση εισαγωγής δεδομένων από νέους ερευνητικούς κλάδους, καθώς επίσης και την επανεξέταση του ήδη υπάρχοντος με στόχο την ομαλότερη πλοήγηση στο σύστημα.
3) Μεταβολές οντολογίας που σχετίζονται με διαφορετική ερμηνεία των διάφορων όρων. Ειδικότερα, ένα μακροχρόνιο πρόβλημα της GO, είναι η πρακτικά αδύνατη πλήρης σύγκλιση μιας ενιαίας και καθολικής ερμηνείας των διαφορετικών στοιχείων που περιλαμβάνει, με αποτέλεσμα τα δεδομένα που καταχωρούνται από τους διάφορους ερευνητές να αντιμετωπίζονται και να ονομάζονται κατά τρόπο μοναδικό κάθε φορά. Απόρροια αυτού, είναι η πολλαπλή αναντιστοιχεία των ίδιων δεδομένων σε περισσότερες από μια κατηγορίες ανάλογα με τον ερευνητή που τα καταχώρησε στο πρόγραμμα. Αυτό δημιουργεί τελικά σύγχυση στη συνοχή των γενετικών βάσεων.
4) Μεταβολές οντολογίας που αφορούν στις σχέσεις που συνδέουν τα δεδομένα. Πολλές φορές ύστερα από την προσθήκη νέων δεδομένων είναι αναγκαία η επανεξέταση τόσο της μεταξύ τους σχέσης όσο και της σχέσης τους με τα προϋπάρχοντα δεδομένα, και κατ’ επέκταση ο σχεδιασμός νέων, όποτε αυτό καθίσταται αναγκαίο.
Οντολογία (Ontology)
Η Οντολογία (Ontology) στην GO περιλαμβάνει τους όρους (GO terms/GO concept/GO classes) που χρησιμοποιούνται για τον ορισμό των λειτουργιών των γονιδίων (“gene function”) και την περιγραφή του τρόπου με τον οποίο συσχετίζονται οι λειτουργίες αυτές (“relations”).[7] Πρόκειται για ένα κωδικοποιημένο λεξιλόγιο που δημιουργείται για να αποδώσει τη βιολογική πληροφορία με ένα δομημένο τρόπο.[7][8]
Όροι (Terms)
Κάθε όρος (term) έχει ένα όνομα και μια GO ταυτότητα (ένας 7ψηφιος κωδικός από αριθμούς που ξεκινά πάντα με “GO: ”). Με τον κωδικό δίνονται επίσης πληροφορίες για την οντολογία της GO στην οποία ανήκουν και ένα μικρό κείμενο που περιγράφει τι αφορά ο όρος με τη σχετική βιβλιογραφία και τις σχέσεις με άλλους όρους. Επίσης, μπορεί να δίνονται προαιρετικά, στοιχεία για εναλλακτικές ταυτότητες όταν προκύπτουν ταυτόσημοι όροι, συνώνυμα και αν αυτά είναι ακριβή, σχετικά, περιέχουν ή περιέχονται στον αρχικό όρο, αναφορές από άλλες βάσεις για παρόμοια στοιχεία, σχόλια και αν πρόκειται για όρο που έχει αφαιρεθεί (“Obsolete” tag).[9][2] Οι όροι είναι ορισμοί ή αξιώματα που συσχετίζουν τον καινούργιο όρο με άλλους όρους της GO (ή άλλες βάσεις δεδομένων) ώστε να διατηρείται μια λογική συνέχεια.[10]
Όροι που συσχετίζονται μπορούν να αναπαρασταθούν ως ένας γράφος[8], όπου όροι είναι οι κόμβοι και οι σχέσεις μεταξύ τους αναπαρίστανται με κατευθυνόμενες ακμές. Κάθε κόμβος μπορεί να συνδέεται με πολλούς υψηλότερους σε ιεραρχία («γονικούς») κόμβους και αντίστοιχα με πολλούς χαμηλότερης ιεραρχίας και προκύπτει τελικά μια ιδιαίτερα πολύπλοκη και όχι μια απλή ιεραρχική δομή.[11]
Αξιώματα (Axioms)
Τα αξιώματα (axioms) χρησιμοποιούνται για τον ορισμό των σχέσεων μεταξύ των όρων μιας οντολογίας. Βοηθούν στην διατήρηση μιας πολύπλοκης αλλά λογικής δομής στην GO, καθώς χρησιμοποιούνται για τον ορισμό νέων όρων και τον έλεγχο για τις σχέσεις τους με άλλους όρους της Οντολογίας. Υπάρχουν επίσης αξιώματα, τα οποία συνδέουν την GO με άλλες εξωτερικές οντολογίες ΟΒΟ (Open Biological Ontologies).[7]
Υποσύνολα (GO subsets/slims)
Τα υποσύνολα (GO subsets/slims) είναι σύνολα όρων που παρέχουν μια σύνοψη των λειτουργιών, των θέσεων και ρόλων κάποιων συνόλων γονιδίων. Κάθε υποσύνολο μπορεί να αφορά ένα μόνο είδος ή ορισμένα τμήματα της οντολογίας και συνήθως περιέχει μόνο όρους υψηλής ιεραρχίας. Επίσης, υπάρχει ένα υποσύνολο που περιέχει και σημάνει όρους που δεν πρέπει να τους αποδοθεί annotation και ένα με όρους που δεν πρέπει να χρησιμοποιηθούν καθόλου. Δύο ακόμα υποσύνολα είναι το Generic GO slim και το υποσύνολο Alliance of Genome Resources (https://www.alliancegenome.org/). Άλλα υποσύνολα αφορούν επιστημονικές ομάδες που χρησιμοποιούν την GO.[2]
Σύνδεση με Εξωτερικές Οντολογίες
Η Οντολογία Γονιδίων αλληλοτροφοδοτείται με άλλες εξωτερικές οντολογίες είτε με φόρτωση υπό-οντολογιών για τον ορισμό όρων, είτε με εισαγωγή αναφορών για διασταύρωση πληροφοριών από άλλες πηγές. Βάσει της δομής των εξωτερικών οντολογιών, δημιουργούνται αυτόματα επιπρόσθετες σχέσεις μεταξύ όρων[12] που αφορούν ανατομικές δομές, κυτταρικούς τύπους, χημικά συστατικά και ομαδοποιήσεις με πληροφορίες ταξινόμησης. Κάποιες από αυτές είναι: Uberon[13], Protein Ontology[14], Plant Ontology[15], ChEBI[16], Relations Ontology[17], NCBI Taxonomy[18], Sequence Ontology[19], Ontology of Biological Attributes (http://ww.obofoundry.org/ontology/oba.html[νεκρός σύνδεσμος]), Fungal Anatomy Ontology (http://www.obofoundry.org/ontology/fao.html), Phenotypic Quality Ontology (http://obofoundry.org/ontology/pato.html), and Common Anatomy Reference Ontology (http://www.obofoundry.org/ontology/caro.html). Επίσης, κάποιες εξωτερικές πηγές που χρησιμοποιεί η GO για διασταύρωση πληροφοριών και όρων είναι: Reactome[20], The Annotated Reactions Database (Rhea)[21], Enzyme Commission (EC; http://www.sbcs.qmul.ac.uk/iubmb/enzyme/), IntAct, Complex Portal[22] and MetaCyc[23].[2]
Αναπαράσταση Σχέσεων μεταξύ των Όρων
Οι βασικές συμβάσεις που χρησιμοποιούνται για την περιγραφή των σχέσεων είναι:
Οι κόμβοι που αναπαριστούν όρους.
Οι «γονικοί κόμβοι» είναι κόμβοι πιο κοντά στη βάση του γράφου και οι πιο εξειδικευμένοι κόμβοι που υπάρχουν τοποθετούνται προς την κορυφή του γράφου.
Η κορυφή του βέλους δείχνει την κατεύθυνση της σχέσης
Διακεκομμένες γραμμές δείχνουν πως η σχέση προέκυψε από τα δεδομένα αλλά δεν έχει καταχωρηθεί στην οντολογία.[9][2]
Οι βασικές σχέσεις ανάμεσα σε δύο τυχαίους όρους Α, Β είναι:
«είναι» (“is a”): αν ο όρος A είναι Β (“A is B”) σημαίνει πως ο όρος Α είναι ένας υπότυπος του Β, π.χ. η δράση οξειδάσης είναι μια καταλυτική δράση.
«ανήκει» (“part of”): αν ο όρος Α ανήκει στο Β (“Α part of Β”) σημαίνει πως ο Α όρος υπάρχει, είναι μέρος του Β και εφόσον υπάρχει ο Α θα υπάρχει και ο Β. Ενώ αν υπάρχει ο Β δεν θα υπάρχει απαραίτητα και ο Α.
«περιέχει» (“has part”): αν ο όρος Α περιέχει τον όρο Β (“A has part B”) σημαίνει πως ο Α περιέχει το Β και αν ο Α υπάρχει θα υπάρχει απαραίτητα και ο Β ενώ δεν ισχύει το αντίστροφο με βεβαιότητα.
«ρυθμίζει» (“regulates”): η σχέση αυτή αναφέρεται σε διαδικασίες Α, Β όπου αν η Α ρυθμίζει την Β (“A regulates B”) τότε σημαίνει πως αν συμβαίνουν και οι 2 διαδικασίες η Α πάντα θα ρυθμίζει τη Β αλλά η Β δεν θα ρυθμίζεται πάντα αποκλειστικά από την Α. Η διαδικασία –στόχος μπορεί να είναι ένα μονοπάτι, μια τιμή pH ή και ένα μέγεθος.[9][2]
Λειτουργία Γονιδίων (Gene Function)
Η Οντολογία Γονιδίων αναφέρεται στη «λειτουργία γονιδίων» ("gene function") δεδομένου ότι τα γονίδια είναι η μοναδική πηγή πληροφορίας για τις διαδικασίες που λαμβάνουν χώρα σε μοριακό και κυτταρικό επίπεδο, αλλά με τη φράση αυτή εννοείται η λειτουργία που εκτελούν τα προϊόντα που κωδικοποιούνται από τα αναφερόμενα γονιδία (πρωτεΐνες ή μη κωδικά RNA) και όχι τα γονίδια αυτά καθ’ αυτά.[11]
Για την περιγραφή της ακολουθεί το πρότυπο της μοριακής βιολογίας («molecular biology paradigm»), σύμφωνα με το οποίο, το γονίδιο κωδικοποιεί ένα γονιδιακό προϊόν που εκτελεί μια λειτουργία σε μοριακό επίπεδο (μοριακή λειτουργία), σε μια συγκεκριμένη θέση του κυττάρου (cellular component), συνεισφέροντας τελικά σε ένα γενικότερο βιολογικό σκοπό (biological process) που περιλαμβάνει πολλές διαδικασίες μοριακού επιπέδου.[9]
Γι αυτό, η λειτουργία των γονιδίων προσεγγίζεται σε 3 επίπεδα:
Μοριακή λειτουργία (Molecular Function)
Κυτταρικός Εντοπισμός (Cellular Component)
Βιολογική διαδικασία (Biological Process)
Μοριακή λειτουργία (Molecular Function)
Η διαδικασία που εκτελεί ένα μακρομόριο μέσω φυσικών αλληλεπιδράσεων με άλλες μοριακές οντότητες. Σχετίζεται με τη βιοχημεία (πρόσδεση ή κατάλυση μιας αντίδρασης) ή αναφέρεται στο γενικό ρόλο του μορίου ως μέρος ενός ευρύτερου συστήματος ή διαδικασίας (π.χ. πρωτεΐνες-υποδοχείς). [11]
Κυτταρικός Εντοπισμός (Cellular Component)
Η θέση στο κύτταρο όπου εντοπίζεται ένα μακρομόριο που εκτελεί μια συγκεκριμένη μοριακή λειτουργία. Πιθανές θέσεις είναι είτε κοντά σε κυτταρικές δομές (π.χ. πλασματική μεμβράνη) ή κυτταρικά διαμερίσματα (π.χ. μιτοχόνδρια), είτε τα σταθερά μακρομοριακά σύμπλοκα στα οποία συμμετέχουν (π.χ. ριβοσώματα). [11]
Βιολογική διαδικασία (Biological Process)
Είναι οι σημαντικές, γενετικά προγραμματισμένες λειτουργίες του οργανισμού που τις καθορίζει το αποτέλεσμα που επιφέρουν (π.χ. κυτταρική διαίρεση). Η διεξαγωγή καθεμιάς από αυτές απαιτεί την πραγματοποίηση πολλών μοριακών διαδικασιών που υπόκεινται σε αυστηρό έλεγχο και χρονική διευθέτηση. Τα γονιδιακά προϊόντα μπορεί να συμμετέχουν άμεσα στη διαδικασία ή να την επηρεάζουν έμμεσα μέσω ελέγχου ή συμμετοχής σε άλλη προαπαιτούμενη διαδικασία. [11]
Κάθε μια από αυτές τις κατηγορίες αποτελεί μια διαφορετική οντολογία. [11] Οι οντολογίες αυτές είναι απαραίτητες, μοιράζονται τα ίδια αναγνωριστικά και μία καλώς ορισμένη σύνταξη.
Ανανέωση Περιεχομένου
Υπάρχει συνεχής ανανέωση της βάσης με διορθώσεις, διαγραφές ή/και εισαγωγή όρων και σχέσεων ώστε να συμβαδίζει πάντα με τα νέα πειραματικά δεδομένα. Οι όροι δεν διαγράφονται από την οντολογία αλλά αλλάζει η κατάστασή τους σε «κρυφή» (“obsolete”) και οι ακμές (σχέσεις) αφαιρούνται. [24]
GO Annotations
Οι υποσημειώσεις (GO annotations) συνιστούν μια σχέση μεταξύ γονιδίου και ενός όρου GO, με στοιχεία υπό τη μορφή ενός «αποδεικτικού κώδικα GO» από δημοσιευμένα άρθρα ή μιας δημοσιευμένης αναφοράς ή μιας περιγραφής της μεθοδολογίας που χρησιμοποιήθηκε για τη δημιουργία του σχολιασμού. Ωστόσο, όλες οι υποσημειώσεις GO εν τέλει υποστηρίζονται από την επιστημονική βιβλιογραφία άμεσα ή έμμεσα. Οι αποδεικτικοί κώδικες GO περιγράφουν τη διαφορά ενός θεωρητικού annotation με την πραγματική πειραματική απόδειξη, τα οποία εξετάζονται από εμπειρογνώμονα βιολόγο - προγραμματιστή δεδομένων.
Πειραματικά υποστηριζόμενα Annotations
Οι αποδεικτικοί κώδικες EXPerimental (EXP) δείχνουν ότι υπάρχουν στοιχεία από ένα πείραμα που υποστηρίζουν άμεσα το annotation του γονιδίου. Για παράδειγμα, μια συσχέτιση μεταξύ ενός γονιδιακού προϊόντος και του υποκυτταρικού εντοπισμού του, όπως προσδιορίζεται από τον ανοσοφθορισμό, θα υποστηρίζεται από τον αποδεικτικό κώδικα Inferred from Direct Assay (IDA) και από έναν υπότυπο των στοιχείων EXP. Οι υποσημειώσεις με άμεσες πειραματικές αποδείξεις δημιουργούνται από τους βιολόγους και από τους διδακτορικούς υποψηφίους εξειδικευμένους σε προγράμματα υπολογιστών, οι οποίοι διαβάζουν βιβλία που έχουν αξιολογηθεί από ομότιμους και δημιουργούν GO annotations, όπως δικαιολογούνται από τα στοιχεία που παρουσιάζονται σε αυτά τα άρθρα.
Επιπροσθέτως, για την εξασφάλιση της συνοχής και της ποιότητας στις πρακτικές εξειδίκευσης των εμπειρογνωμόνων, οι προγραμματιστές βιολογίας της GOC (όπως αναφέρεται παρακάτω) συναντούνται τακτικά για να συζητήσουν τα ζητήματα επιμέλειας και να συμμετάσχουν σε ασκήσεις που αφορούν το σχολιασμό γονιδίων. Κατά τη διάρκεια αυτών των ασκήσεων, πολλαπλές ομάδες επιμελητών σχολιάζουν ένα ενιαίο έγγραφο, το οποίο οδηγεί σε διευκρινίσεις σχετικά με τη χρήση όρων οντολογίας και κώδικες αποδεικτικών στοιχείων GO και αναπτύσσει βέλτιστες πρακτικές μεταξύ των κατανεμημένων ομάδων GO. Για παράδειγμα, η διευκρίνιση του τρόπου με τον οποίο τα αποτελέσματα του πειράματος μόλυνσης και λειτουργικής συμπλήρωσης θα μπορούσαν να σημειωθούν, εξασφαλίζουν ότι η πληροφορία βασίζεται σε λειτουργικές γενετικές αλληλεπιδράσεις έναντι του φαινοτύπου, επομένως καταγράφεται στη βάση δεδομένων GO.
Συνεχίζοντας, προσφάτως τα microRNAs εισχώρησαν στις υποσημειώσεις (GO annotations)[25] καθώς η ρύθμιση των μικροοργανισμών των αναπτυξιακών και κυτταρικών διεργασιών ήταν ένα νέο πεδίο μελέτης. Συνεπώς, οι ερευνητές έπρεπε να βασίζονται στα λειτουργικά annotations των microRNA-στόχων ως υποκατάστατο, διότι δεν υπήρχαν άμεσα annotation των ίδιων των microRNAs. Σε διαβούλευση με τους εμπειρογνώμονες στον τομέα της έρευνας microRNA, δόθηκε σημαντική προσπάθεια για την αποκατάσταση αυτής της κατάστασης. Δημιουργήθηκαν οδηγίες για τις υποσημειώσεις microRNA και ακολουθώντας αυτές τις οδηγίες, δημιουργήσαμε annotations για πάνω από 300 ανθρώπινα microRNAs, 70 στο Drosophila melanogaster, και σχεδόν 200 στο Arabidopsis thaliana.
Τα annotations δέσμευσης πρωτεϊνών είναι χρήσιμα μόνο αν περιλαμβάνουν τον συγκεκριμένο δεσμευτή πρωτεϊνών. Με την προσθήκη της βάσης δεδομένων IntAct [26] ως φορέα σχολιασμού GO, ο αριθμός των συγκεκριμένων annotation δέσμευσης πρωτεϊνών έχει αυξηθεί δραματικά. Μόνο τα annotations υψηλής πιστότητας ενσωματώνονται στο GO από το IntAct. Σε συνδυασμό με annotations από πειράματα μικρής κλίμακας που έχουν συμβάλει στην GO από πολλούς διαφορετικούς παρόχους , τα annotations IntAct βοηθούν να καταστεί η βάση γνώσεων του GO ένας χρήσιμος πόρος για δεδομένα δικτύου αλληλεπίδρασης πρωτεϊνών υψηλής εμπιστοσύνης.
Επιπροσθέτως, για τη δημιουργία δικτύων αλληλεπίδρασης πρωτεϊνών, οι χρήστες πρέπει να χρησιμοποιήσουν το πεδίο 'with' των Αρχείων Σύνδεσης GO (GAF), το οποίο περιέχει το αναγνωριστικό του δεσμευτή αλληλεπίδρασης. Ζητούμε από τους χρήστες να γνωρίζουν τα annotations που δηλώνουν ότι μια συγκεκριμένη γκάμα έχει αποκτήσει τη λειτουργία. Η απαρίθμηση NOT γενικά δημιουργείται όταν ένα γονιδιακό προϊόν με συγκεκριμένη περιοχή ή ένωση γονιδιακής οικογένειας αναμένεται ότι έχει κάποια δραστηριότητα, αλλά όπου υπάρχουν ρητά πειραματικά δεδομένα δείχνει ότι το γονιδιακό προϊόν ΔΕΝ έχει αυτή τη δραστηριότητα. Τα annotations είναι σχετικά σπάνια βάση των γνώσεων (επί του παρόντος υπάρχουν περίπου 3300 από αυτές, βασισμένες σε πειραματικά δεδομένα). Ωστόσο, πιστεύεται ότι μπορεί να είναι ιδιαίτερα χρήσιμες σε ορισμένες εφαρμογές, όπως η αξιολόγηση της λειτουργικότητας της ακρίβειας της διαδικασίας. Τα annotations αυτά έχουν τον χαρακτηρισμό «ΝΟΤ» στο πεδίο προσδιορισμού GAF.
Φυλογενετικά υποστηριζόμενα Αnnotations
Οι Φυλογενετικές αρχές, αναδημιουργώντας εξελικτικά γεγονότα για να συναγάγουν σχέσεις μεταξύ των γονιδίων[27], παρέχουν έναν ισχυρό τρόπο απόκτησης γνώσεων σχετικά με τη γονιδιακή λειτουργία. Εν συντομία, αναπτύχθηκε λογισμικό (PAINT, Φυλογενετικό Εργαλείο Σχολιασμού Συμπερασμάτων) με το οποίο ένας προγραμματιστής βιολογικών δεδομένων μπορεί να δει όλα τα πειραματικά annotations για γονίδια σε μια οικογένεια γονιδίων και να χρησιμοποιήσει αυτές τις πληροφορίες για να συναγάγει annotations για μη χαρακτηρισμένα μέλη της οικογένειας[28]. Ο προγραμματιστής βιολόγος έπειτα δημιουργεί ένα σαφές μοντέλο κέρδους και απώλειας γονιδιακής λειτουργίας σε συγκεκριμένους κλάδους σε ένα φυλογενετικό δέντρο της οικογένειας. Αυτό το πρότυπο χρησιμοποιείται για να συναχθούν νέα annotations (δεν υπάρχει αλληλεπικάλυψη με πειραματικές υποσημειώσεις) για γονίδια στην οικογένεια.
Φυλογενετικά annotations σημειώνονται από τους κώδικες αποδεικτικών στοιχείων IBA (Inferred from Biological Ancestry). Κάθε συνήθης υποσημείωση μπορεί να εντοπιστεί στους άμεσα πειραματικά annotations που χρησιμοποιήθηκαν ως βάση για αυτόν τον ισχυρισμό. Το πρόγραμμα Phylogenetic Commenting GO είναι πλέον η μεγαλύτερη πηγή χειρωνακτικά σχολιασμένων παρατηρήσεων στη βάση δεδομένων GO και έχει αυξήσει σημαντικά τον αριθμό annotations ακόμη και σε οργανισμούς που έχουν μελετηθεί καλά πειραματικά .
Υπολογιστικά υποστηριζόμενα Αnnotations
Εν κατακλείδι, αυτά που απομακρύνονται από τα άμεσα πειραματικά ευρήματα, αποτελούν τους ηλεκτρονικούς κώδικες αποδεικτικών στοιχείων (IEA), οι οποίοι δεν εξετάζονται μεμονωμένα (αν και γενικά υπάρχει εκτεταμένη χειρωνακτική ανασκόπηση ενός δείγματος). Τα annotations που υποστηρίζονται από τον IEA βασίζονται τελικά είτε στην ομολογία είτε και σε άλλες πειραματικές πληροφορίες ή πληροφορίες αλληλουχίας, αλλά γενικά δεν μπορούν να ανιχνευθούν στην πειραματική πηγή. Τρεις μέθοδοι αποτελούν το μεγαλύτερο μέρος αυτών των υποσημειώσεων. Η πρώτη και πιο ολοκληρωμένη μέθοδος είναι η InterPro2GO[29] , η οποία βασίζεται στην επιμελημένη συσχέτιση ενός όρου GO με ένα γενικευμένο μοντέλο αλληλουχίας («χαρακτηριστική υπογραφή») μιας ομάδας ομόλογων πρωτεϊνών. Οι αλληλουχίες πρωτεϊνών με στατιστικά σημαντική αντιστοιχία με σε μια υπογραφή ανατίθενται οι όροι GO που σχετίζονται με την υπογραφή, μια μορφή ομολογίας. Μια δεύτερη μέθοδος είναι η υπολογιστική μετατροπή των ελεγχόμενων όρων της UniProt (κυρίως οι αριθμοί της ενζυμικής ομάδας που περιγράφουν τις ενζυμικές δραστηριότητες και οι λέξεις-κλειδιά UniProt που περιγράφουν τις υποκυτταρικές θέσεις), στους σχετικούς όρους GO. Τέλος, τα annotations γίνονται με βάση τα ορθόλογα 1:1 που συνάγονται από τα γονιδιακά δέντρα, μια προσέγγιση που μεταφέρει αυτόματα τις παρατηρήσεις που βρέθηκαν πειραματικά σε ένα γονίδιο, σε ορθόλογα 1:1 στην ίδια ταξινομική κατηγορία.
Από τα Αnnotations στα Βιολογικά Μοντέλα (LEGO)
Η δομή των υποσημειώσεων GO είναι αρκετά απλή, μια κατάσταση που αποτελείται από ένα γονίδιο και έναν όρο GO (με τα αποδεικτικά στοιχεία αυτής της σύνδεσης, όπως περιγράφεται παραπάνω).
Επειδή η γονιδιακή λειτουργία είναι περίπλοκη και σχετίζεται με μεγαλύτερα συστήματα και βιολογικά «προγράμματα» που εκτελούνται από πολλαπλά γονίδια, ένα τυπικό annotation GO αντιπροσωπεύει δικαίως μια απλή πτυχή αυτής της λειτουργίας. Προηγουμένως αναφέραμε μια απλή επέκταση[30] στο μοντέλο GO annotation, που ονομάζεται «επέκταση υποσημείωσης» η οποία επιτρέπει στους βιολογικούς προγραμματιστές να καταγράψουν πρόσθετες πληροφορίες χρησιμοποιώντας καθορισμένες σχέσεις και οντότητες ώστε να τροποποιήσουν τον επιλεγμένο όρο GO. Ωστόσο, προκειμένου να καταστεί δυνατή μια πιο ολοκληρωμένη και ακριβής αναφορά σχετικά με τη λειτουργία των γονιδίων και τον τρόπο με τον οποίο τα πολλαπλά γονίδια μπορεί να λειτουργήσουν μαζί, έχουμε αναπτύξει ένα «γραμματικό κώδικα» για να συνδυαστούν παραδοσιακοί GO annotations σε μια ακόμα πλήρως ολοκληρωμένη αναπαράσταση της σχέσης γονιδιακών λειτουργιών μεταξύ τους και σε μεγαλύτερες βιολογικές διεργασίες. Το ονομάζουμε αυτό νέες μορφοποιημένες εκφράσεις χρησιμοποιώντας τη γονιδιακή οντολογία ή το LEGO. Μια αρχική ανακοίνωση μπορεί να βρεθεί στην ηλεκτρονική διεύθυνση https://web.archive.org/web/20171128150511/http://www.geneontology.org/article/gaf-gpad-and-lego
Ο τυποποιημένος όρος LEGO, εν συντομία, ορίζει πόσο διαφορετικοί είναι οι GO annotations και τον τρόπο που μπορούν να συνδυαστούν σε ένα μεγαλύτερο 'μοντέλο' γονιδίου και συστήματος. Είναι σημαντικό ότι το μοντέλο μπορεί και αποσυντίθενται υπολογιστικά σε GO annotations, έτσι ώστε όλες οι τρέχουσες εφαρμογές σχολιασμών GO, όπως η ανάλυση εμπλουτισμού, να εξακολουθήσουν να υποστηρίζονται. Εντούτοις, ενθαρρύνουμε τους προγραμματιστές των εργαλείων ανάλυσης με βάση το δίκτυο να κατεβάσουν τo γνήσιο πρόγραμμα του OWL (Ontology Language Web) για κάθε μοντέλο LEGO το οποίο καθορίζει πώς συνδέονται οι λειτουργίες των διαφόρων γονιδιακών προϊόντων δικτύων. Οι χρήστες ενδέχεται επίσης να ενδιαφέρονται για την περιήγηση και την προβολή δημοσιευμένων μοντέλων, τα οποία διατίθενται στην ηλεκτρονική διεύθυνση: http://noctua.berkeleybop.org
Επομένως, αναπτύχθηκε μια πλατφόρμα λογισμικού για τη δημιουργία και επεξεργασία μοντέλων LEGO, τα οποία ονομάζονται Noctua. Τα Noctua επιτρέπουν το συνεργατικό σχολιασμό των μοντέλων LEGO μέσω διαδικτύου. Επί του παρόντος, η κινεζική κυβέρνηση βρίσκεται στη διαδικασία μετάβασης Noctua (http://noctua.berkeleybop.org) ως κύριο εργαλείο GO.
Αρκετοί πάροχοι σχολιασμού GO χρησιμοποιούν ήδη το λογισμικό Noctua για να δημιουργήσουν μοντέλα LEGO και οι ειδικοί της GOC αναμένουν ότι ο αριθμός και η χρησιμότητα τέτοιων μοντέλων θα αυξηθούν ραγδαία κατά την προσεχή περίοδο. Έχουν πραγματοποιηθεί 5 εργαστήρια σχολιασμού κατά το παρελθόν για την εισαγωγή βιοπρογραμματιστών στο εργαλείο σχολιασμού Noctua και τις αρχές του OWL-based LEGO curation.
GO Annotations σε πειράματα υψηλής απόδοσης
Τα δεδομένα από πειράματα υψηλής απόδοσης συλλέγονται γενικά με τρόπο ελεύθερο υποθέσεων και κατά συνέπεια δεν παρέχουν γενικά τόσο ισχυρή ένδειξη γονιδιακής λειτουργίας όσο πειράματα μικρής κλίμακας μοριακής βιολογίας που υποστηρίζουν επί του παρόντος τα περισσότερα από τα πειραματικα GO annotations . Επιπλέον, τα πειράματα υψηλής απόδοσης μπορούν να υποβληθούν σε σχετικά υψηλά ψευδώς θετικά ποσοστά. Συνεπώς, οι χρήστες ενδέχεται να θέλουν να φιλτράρουν αυτές τις πειραματικές υποσημειώσεις σε ορισμένες εφαρμογές του GO. Για να γίνει αυτό δυνατό, ξεκινώντας από το 2018, σε συνεργασία με την Οντολογία[31][32], το GO προσέθεσε αρκετούς νέους κώδικες αποδεικτικών στοιχείων για να περιγράψει πειράματα υψηλής απόδοσης: «ECO: 0006056 αποδείξεις υψηλής απόδοσης (HDA), «ECO: 0007001 τεκμηρίωση φαινοτύπου μετάλλαξης υψηλής απόδοσης που χρησιμοποιείται σε χειροκίνητη διαπίστωση» (HMP), «ECO: 0007003 υψηλό (HGI) και «ECO: 0007007 αποδεικτικά στοιχεία υψηλής απόδοσης και έκφρασης που χρησιμοποιούνται σε χειροκίνητους ισχυρισμούς» (HEP). Για να συνοδεύσουμε τους νέους κώδικες αποδεικτικών στοιχείων, έχουν δημιουργηθεί κατευθυντήριες γραμμές annotations για να βοηθηθεί η αναγνώριση και την επεξεργασία των συνόλων δεδομένων υψηλής απόδοσης που πληρούν τα κριτήρια GO annotations . Τα μέλη της κοινοπραξίας έχουν αναθεωρήσει έγγραφα με περισσότερους από 40 σχολιασμούς χρησιμοποιώντας έναν ενιαίο κωδικό τεκμηρίωσης και έχουν ενημερώσει τους κωδικούς αποδεικτικών στοιχείων ή έχουν αφαιρέσει τα annotations, εάν χρειάζεται. Υπάρχουν επί του παρόντος πάνω από 31.000 annotations που περιέχουν κωδικούς αποδεικτικών στοιχείων HTP από 140 ερευνητικά άρθρα, που αντιπροσωπεύουν <5% των πειραματικών GO annotations. Ο προσδιορισμός των annotations που προέρχονται από πειράματα υψηλής απόδοσης επιτρέπει στους χρήστες να επιλέξουν να αποκλείσουν αυτά από τις αναλύσεις τους, εάν ανησυχούν ότι οι υποσημειώσεις αυτές μπορεί να οδηγήσουν σε αυξημένη προκατάληψη στην ανάλυση δεδομένων. Αυτό είναι πιθανόν να είναι ιδιαίτερα σημαντικό, όπως συμβαίνει συχνά, όταν το GO χρησιμοποιείται για την ερμηνεία τύπων δεδομένων παρόμοια με εκείνα στα οποία βασίζονται τα annotations.
Έπειτα από ένα πείραμα γονιδιακής έκφρασης που διεξάγεται με τη χρήση των oμικών τεχνολογιών, προκύπτει η ανάγκη ομαδοποίησης των γονιδίων που εκφράζονται με παρόμοιο τρόπο σε διαφορετικές καταστάσεις σε υποσύνολα. Γονίδια των οποίων τα επίπεδα έκφρασης μεταβάλλονται σημαντικά μεταξύ δύο ή περισσότερων συνθηκών ονομάζονται “διαφορικά εκφραζόμενα” (differentially expressed genes, DEG). Οι όροι (terms) των γονιδιακών οντολογιών περιγράφουν λειτουργίες των γονιδίων και συναντώνται με διαφορετική συχνότητα σε διαφορετικές συνθήκες. Έτσι, η υπεργεωμετρική κατανομή χρησιμοποιείται για να καθορίσει εάν ένα όρος παρουσιάζεται με μεγαλύτερο ποσοστό από αυτό που ανταποκρίνεται στην πραγματικότητα (over represented).[33]
Για τα διαφορικά εκφραζόμενα γονίδια διενεργούμε ανάλυση εμπλουτισμού. Για την πραγματοποίηση μιας λειτουργικής ανάλυσης εμπλουτισμού χρησιμοποιούμε το “Fisher’s Exact Test” ή αλλιώς το τεστ της “υπεργεωμετρικής κατανομής”. Έτσι έχουμε:
Mια ομάδα γονιδίων ενδιαφέροντος (DEG), που αποτελούν τα υπό μελέτη γονίδια (study set)
Μια ομάδα με τον συνολικό πληθυσμό των γονιδίων που θα λάβουμε υπόψη στην ανάλυση (population set), στα οποία συμπεριλαμβάνονται και τα υπό μελέτη γονίδια.
Tα GO annotations, που συσχετίζουν τον συνολικό πληθυσμό των γονιδίων με όρους GO.
Tην οντολογία GO, μαζί με την περιγραφή των όρων GO και τις μεταξύ τους σχέσεις.
Για κάθε όρο GO, χρειαζόμαστε τη συχνότητα k των υπό μελέτη γονιδίων n (study set) που σχετίζονται με τον όρο αυτό, και τη συχνότητα Κ των γονιδίων στον συνολικό πληθυσμό N (population set) που σχετίζονται με τον ίδιο όρο. Ακολούθως, ελέγχουμε πόσο πιθανό είναι να ανακτήσουμε τουλάχιστον k γονίδια που σχετίζονται με τον όρο, αν n γονίδια λαμβάνονται τυχαία από τον πληθυσμό, δεδομένης της συχνότητας Κ και του μεγέθους N του πληθυσμού.[34]
Η υπεργεωμετρική κατανομή λοιπόν, χρησιμοποιείται για να προσομοιάσουμε τυχαία γεγονότα επιλογής ενός δείγματος αντικειμένων χωρίς επανάθεση. Έτσι, κάθε τυχαία επιλογή, στην οποία κάθε στοιχείο του συνόλου έχει ίσες πιθανότητες να διαλεχτεί, επηρεάζει τον αριθμό των στοιχείων ενός είδους που απομένουν στον συνολικό πληθυσμό, αφού τα στοιχεία δεν αντικαθίστανται. Οπότε κάθε επιλογή είναι εξαρτώμενη από την προηγούμενη. Ωστόσο, η σειρά διάταξης των στοιχείων και η σειρά επιλογής τους δε λαμβάνεται υπόψη και δεν έχει νόημα όταν γίνεται λόγος για διαφορικά εκφραζόμενα γονίδια. [35]
Mία ακόμα σημαντική έννοια στη διαδικασία της υπεργεωμετρικής κατανομής είναι αυτή της αθροιστικής (cumulative) πιθανότητας, που χρησιμοποιείται για την εκτίμηση της τυχαιότητας μιας διαδικασίας δειγματοληψίας χωρίς επανάθεση. H πιθανότητα να πάρουμε nt ή περισσότερα γονίδια που εμφανίζονται ως annotations στο t σε ένα δείγμα n γονιδίων που προέρχεται τυχαία από έναν μεγαλύτερο πληθυσμό γονιδίων μπορεί να υπολογιστεί από την αθροιστική υπεργεωμετρική κατανομή.
Για κάθε λειτουργία που εξετάζουμε μπορούμε να υπολογίσουμε τόσο το βαθμό στον οποίο αυτή είναι εμπλουτισμένη σε γονίδια που είναι διαφορικά εκφραζόμενα , όσο και το κατά πόσο αυτός ο εμπλουτισμός είναι στατιστικά σημαντικός.[35]
Consortium
To Gene Ontology Consortium (GOC), είναι μια κοινοπραξία με διεπιστημονικό χαρακτήρα που αναπτύσσεται συνεχώς προσπαθώντας να γεφυρώσει τις επιστήμες της Βιολογίας, της Ιατρικής και της Πληροφορικής. Στόχος της είναι η δημιουργία ενός εμπεριστατωμένου υπολογιστικού μοντέλου που θα αφορά τη βιολογική γνώση. Το μοντέλο αυτό θα υποστηρίζει την ανάλυση και την ερμηνεία του ολοένα αυξανόμενου αποθέματος δεδομένων μοριακής βιοϊατρικής. Η προσπάθεια αυτή βασίζεται στη συνεχή αξιολόγηση της εκάστοτε κατανόησης για τα βιολογικά συστήματα και συνεχώς ενδυναμώνεται μέσω της συνεισφοράς μεγάλου αριθμού βιολόγων και προγραμματιστών λογισμικού. [7]
Το εργαστήριο Cherry ήταν ένα από τα ιδρυτικά μέλη της Γονιδιακής Οντολογίας σε συνεργασία με τους FlyBase και MGI. To GOC δημιούργησε ένα συγκεκριμένο πρότυπο γλώσσας για να περιγράψει τη λειτουργία των πρωτεϊνών και του RNA. Η κοινοπραξία αυτή εστιάζει την προσοχή της στην ανάπτυξη διαδικασιών ανάλυσης, συνοχής και αναπαραγωγιμότητας των GO annotations. Η SGD (Saccharomyces Genome Database), ως μέλος του GOC, διερευνά συνεχώς νέους τρόπους σάρωσης της υπάρχουσας βιβλιογραφίας για να καθορίσει την αναπαραγωγιμότητα ενός συγκεκριμένου αποτελέσματος, αφού η αναπαραγωγιμότητα είναι το πραγματικό μέτρο αξιολόγησης ενός επιστημονικού αποτελέσματος. H χρήση της λοιπόν ως μέτρο αξιολόγησης των GO annotations θα οδηγήσει στη δημιουργία υψηλής αξίας συνόλων δεδομένων.[36] Ένα από τα μελλοντικά σχέδια του GOC περιλαμβάνει τη σύσταση μιας πύλης Εκπαίδευσης στην ιστοσελίδα του GO, που θα περιλαμβάνει διδακτικό υλικό με τη μορφή παρουσίασης και διαδραστικών βίντεο για την διευκόλυνση της κατανόησης και της χρήσης των πηγών GO. Η χρηματοδότηση του πρότζεκτ παρέχεται από το Εθνικό Ίδρυμα Υγείας και το Εθνικό Ίδρυμα Έρευνας του Ανθρώπινου γονιδιώματος των ΗΠΑ (National Institutes of Health, National Human Genome Research Institute), μέσω της επιχορήγησης U24 HG02273, που απονεμήθηκε στο γκρουπ των ερευνητών που δημιουργήθηκε από τους Judith A. Blake, J. Michael Cherry, Suzanna E. Lewis, Paul W. Sternberg, and Paul D. [37]
Εργαλεία-Tools
To κοινόχρηστο λεξιλόγιο είναι σημαντικό βήμα για την ενοποίηση των βιολογικών βάσεων δεδομένων. Καθώς όμως η γνώση αλλάζει, αλλάζει και η χρήση αυτών των λεξιλογίων. Για να αποφευχθεί το πρόβλημα της ασυνεχούς, αντιφατικής ή ασύμφωνης εκπροσώπησης δεδομένων, το GOC συνεχώς βελτιώνει τα εργαλεία του, τις πηγές και τις πολιτικές του, εξασφαλίζοντας τη συνοχή των annotations, και ότι αυτές αντικατοπτρίζουν την υπάρχουσα κατάσταση της βιολογικής γνώσης. Υπάρχει ένα μεγάλος αριθμός εργαλείων διαθέσιμων είτε online είτε ύστερα από λήψη από το διαδίκτυο, τα οποία χρησιμοποιούν δεδομένα που παρέχονται από το GO πρότζεκτ. Μερικά από αυτά αναπτύσσονται και υποστηρίζονται από το GOC, ενώ άλλα είναι αποτέλεσμα δουλειάς συνεργαζόμενων ομάδων. [38]
Ακολούθως παρουσιάζονται τα κυριότερα από αυτά:
AmiGO 2 (http://amigo.geneontology.org/amigo): Με την τελευταία αναβάθμιση έχουν προστεθεί στο AmiGO 2 νέα χαρακτηριστικά και έχουν γίνει βελτιώσεις προκειμένου να αυξηθεί η χρηστικότητά του. Έτσι, διαθέτει πλέον διαδραστικό πρόγραμμα περιήγησης για τις οντολογίες και τα annotations. Αυτό επιτρέπει στους χρήστες να περιηγηθούν στη δομή της γονιδιακής οντολογίας ξεκινώντας από πιο γενικές και καταλήγοντας σε πιο ειδικές κλάσεις και να ανακτούν φιλτραρισμένα annotations από οποιοδήποτε κλάδο/τμήμα της οντολογίας. Επιπλέον, ενώ η προηγούμενη εκδοχή αυτού του εργαλείου είχε τον περιορισμό των 10,000 γραμμών στις λήψεις, η τωρινή επιτρέπει τη λήψη έως και 100,000 γραμμών, επιτρέποντας έτσι και την ελεύθερη αναζήτηση κειμένου. [38]
Αναζήτηση PubMed ID (https://www.ncbi.nlm.nih.gov/books/NBK3805/): Το GOC πλέον έχει ενσωματώσει την αναζήτηση PubMed ID, η οποία δημιουργεί μια σελίδα για κάθε άρθρο της PubMed που χρησιμοποιήθηκε σαν στοιχείο για να υποστηρίξει τα GO annotations. Η σελίδα περιλαμβάνει σε μια λίστα όλα τα GO annotations που δημιουργήθηκαν με βάση τα πειραματικά δεδομένα του εν λόγω άρθρου. Οι σελίδες της PubMed είναι προσβάσιμες από αναζητήσεις annotation διαφόρων γονιδίων στην ιστοσελίδα GO. Tα GO annotations αποτελούν ουσιαστικά μία “υψηλού επιπέδου” περίληψη των ευρημάτων του άρθρου σε αντιστοιχία πάντα με τις γονιδιακές τους λειτουργίες. Έτσι και οι συγγραφείς του εκάστοτε άρθρου θα βρουν αυτές τις σελίδες ιδιαίτερα χρήσιμες για να αξιολογήσουν την παρουσίαση της δουλειάς τους μέσω της βάσης γνώσεων της GO, και κυρίως να κάνουν εποικοδομητική κριτική για την βελτίωση αυτής της παρουσίασης. Για το εν λόγω εργαλείο έγινε συνεργασία με την ομάδα της NCBI LinkOut. [7]
PANTHER (http://www.pantherdb.org/): To εργαλείο που πραγματοποιεί ανάλυση εμπλουτισμού σε μια ομάδα γονιδίων στην αρχική σελίδα της GO, συνδέεται πλέον με την ιστοσελίδα PANTHER. Αυτό επιτρέπει στους χρήστες να εκμεταλλευτούν τα εργαλεία απεικόνισης της σελίδα αυτής, δίνοντας την επιλογή της ιεραρχικής θέασης που οργανώνει τα αποτελέσματα της ανάλυσης εμπλουτισμού χρησιμοποιώντας της σχέσεις της GO. Αυτό έχει ως αποτέλεσμα συγγενικοί όροι να εμφανίζονται μαζί, διευκολύνοντας έτσι την ερμηνεία των βιολογικών αποτελεσμάτων που προκύπτουν από την ανάλυση εμπλουτισμού. Τα GO annotations στο PANTHER ανανεώνονται κάθε μήνα.[7]
SYSCILIA Consortium (http://syscilia.org/): Αφορά τη βελτίωση της παρουσίασης των ακτινωτών υποδομών σε κλάδους που αφορούν τον κυτταρικό εντοπισμό (cellular component), με μελλοντικό στόχο τη βελτίωση και των κλάδων που αφορούν τις βιολογικές διαδικασίες.
MOD & GOA: Tα δύο αυτά εργαλεία της UniProt παρέχουν το μεγαλύτερο μέρος των annotations που διαθέτει το GOC. Oι ομάδες MOD και GOA ενσωματώνουν χειροκίνητα annotations βάσει βιβλιογραφίας και είναι υπεύθυνες για την δημιουργία annotations σχετικά με τον άνθρωπο, την αγελάδα, το σκύλο και την κότα. Πολλές ερευνητικές ομάδες χρησιμοποιούν το Protein2GO που αναπτύχθηκε από την ομάδα GOA. Το Protein2GO επεξεργάζεται κυρίως πρωτεϊνικές ακολουθίες, αλλά έχει επεκταθεί για να συμπεριλάβει RNA και μακρομοριακά σύμπλοκα. Η GOA παρέχει πρόσβαση στο 98% του συνολικού αριθμού των ειδών με διαθέσιμα annotations από τις βάσεις δεδομένων InterPro, Ensembl και UniProt. [39]
Matrix tool(http://amigo.geneontology.org/matrix#order):Πρόκειται για εργαλείο που επιτρέπει στους χρήστες να ελέγξουν αλληλοεπικαλύψεις (overlaps) μεταξύ ομάδων γονιδίων που έχουν προκύψει ως annotations σε διαφορετικές κλάσεις GO.[7]
SimCT — web-based tool to display relationships between biological objects annotated to an ontology, in the form of a clustering tree.
SerbGO — a GO tool to compare the capabilities of different programs to show their common features and their differences and to find which tools, if any, have some specific user-required capabilities for GO analysis.
Domain-centric Gene Ontology — database of domain-centric ontologies on functions, phenotypes, diseases and more.
Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!