Предсказа́ние фу́нкции белка́ — определение биологической роли белка и значения в контексте клетки. Предсказание функций проводится для плохо изученных белков или для гипотетических белков, предсказанных на основе данных геномных последовательностей. Источником информации для предсказания могут служить гомологиянуклеотидных последовательностей, профили экспрессии генов, доменная структура белков, интеллектуальный анализ текстов публикаций, филогенетические и фенотипические профили, белок-белковые взаимодействия.
В целом, функцию можно рассматривать как «всё, что происходит с белком или с его помощью». Проект «Генная Онтология» предложил полезную классификацию функций, в основе которого лежит список (словарь) четко сформулированных терминов, разделенных на три основные категории – молекулярные функции, биологические процессы и клеточные компоненты[2]. Из этой базы данных можно по названию белка или его идентификационному номеру найти присвоенные ему термины «Генной Онтологии» или аннотации, сделанные на основе расчётных или экспериментальных данных.
Несмотря на то что на сегодняшний день для экспериментального доказательства функций белка используются такие современные методы, как анализ микрочипов, РНК-интерференция и двугибридный анализ, технологии секвенирования продвинулись настолько, что темпы экспериментально доказательной характеристики открытых белков сильно отстают от темпов открытия новых последовательностей[3]. Поэтому аннотирование новых белковых последовательностей будет в основном осуществляться путём предсказания на основе вычислительных методов, так как таким образом можно осуществлять характеристику последовательностей гораздо быстрее и одновременно по нескольким генам/белкам. Первые методики предсказания функций были основаны на сходстве гомологичных белков с известными функциями (так называемое предсказание функций, основанное на гомологии). Дальнейшее развитие методов привело к появлению предсказаний на основе геномного контекста и на основе структуры белковой молекулы, что позволило расширить спектр получаемых данных и комбинировать методики, основанные на разных типах данных, для получения наиболее полной картины роли белка[3]. Ценность и производительность вычислительного предсказания функции генов подчеркивает тот факт, что по состоянию на 2010 год 98 % аннотаций Генной Онтологии были сделаны на основе автоматического извлечения из других баз аннотаций и только 0,6 % — на основе экспериментальных данных[4].
Белки, имеющие сходные последовательности, как правило, являются гомологичными[5] и, стало быть, имеют сходную функцию. Поэтому в недавно секвенированных геномах белки обычно аннотируют по аналогии с последовательностями схожих белков из других геномов. Однако не всегда близкородственные белки выполняют одну и ту же функцию[6], например, дрожжевые белки Gal1 и Gal3 являются паралогами с 73 % и 92 % сходства, приобретшие в ходе эволюции очень разные функции: так, Gal1 является галактокиназой, а Gal3 — индуктором транскрипции[7]. К сожалению, нет четкого порога степени сходства по последовательности для безопасного предсказания функций; многие белки с одинаковой функцией имеют едва обнаруживаемые сходства, тогда как встречаются очень схожие по последовательности, но совершенно разные по функциям.
Методы, основанные на мотивах последовательностей
Развитие таких баз данных белковых доменов, как Pfam[8] позволяет находить в искомой последовательности уже известные домены для предположения возможных функций. В ресурсе dcGO[англ.][9] содержатся аннотации как к отдельным доменам, так и супра-доменам (т.е. комбинациям из двух или более последовательно расположенных доменов), что позволяет сделать предсказание более приближенным к реальности. Также, внутри самих белковых доменах содержатся более короткие характерные последовательности, связанные с определенными функциями (так называемые мотивы)[10], наличие которых в искомом белке можно определить поиском в базах данных мотивов, таких как PROSITE[англ.][11]. Мотивы также могут быть использованы для предсказания внутриклеточной локализации белка: наличие особых коротких сигнальных пептидов предопределяет, в какие органеллы белок будет транспортирован после синтеза, и было разработано множество ресурсов для определения таких сигнальных последовательностей[12], например, SignalP, который обновлялся несколько раз по мере развития методов[13]. Таким образом, некоторые особенности функции белков можно предсказать без сравнения с полноразмерными гомологичными последовательностями.
Методы, основанные на структуре белка
Поскольку 3D-структура белка, как правило, является более консервативной, чем белковая последовательность, сходство структур может указывать на сходство и функций белков. Было разработано много программ для поиска похожих укладок внутри базы данных белковых структур (Protein Data Bank)[14], например, FATCAT[15], CE[16], DeepAlign[17]. В случае, когда для искомой белковой последовательности нет решенной структуры, сначала составляют вероятную трехмерную модель последовательности, на основе которой в дальнейшем делается предсказание функции белка; так работает, например, сервер по предсказанию функции белка RaptorX. Во многих случаях вместо структуры всего белка, поиск ведется по структурам отдельных мотивов, содержащим, например, сайт связывания лиганда или активный сайтфермента. Для аннотации последних в новых белковых последовательностях была разработана база данных Catalytic Site Atlas[18].
Методы, основанные на геномном контексте
Многие из недавно появившихся методов прогнозирования основаны не на сравнении последовательностей или структуры, как описанные ранее, а на корреляции между новыми генами/белками и уже аннотированными: для каждого гена составляется филогенетический профиль (по наличию или отсутствию в различных геномах), которые затем сравнивают для установления функциональных связей (предполагается, что гены с одинаковыми профилями функциональны связаны друг с другом)[19]. В то время, как методы на основе гомологии часто используются для установления молекулярных функций, предсказание на основе геномного контекста может быть использовано для предположения биологического процесса, в котором участвует белок. Например, белки, участвующие в одном и том же пути передачи сигнала, имеют общий для всех видов геномный контекст.
Слияние генов
Когда два (или более) гена, кодирующие разные белки в одном организме, в процессе эволюции объединяются в один ген в другом организме, говорят, что произошло слияние генов (соответственно, при обратном процессе — разделение генов)[20]. Это явление было использовано при поиске гомологов для всех белковых последовательностей E. coli, когда обнаружилось, что более 6000 пар негомологичных друг другу последовательностей E. coli имеют общую гомологию с единичными генами в других геномах, что указывает на потенциальное взаимодействие между белками в каждой из пар, которое нельзя предсказать, отталкиваясь от одной лишь гомологии.
Колокализация/коэкспрессия
У прокариот в процессе эволюции часто сохраняются кластеры сближенных друг к другу генов, которые, как правило, кодируют белки, взаимодействующие между собой или входящих в один оперон. Поэтому, для предсказания функционального сходства между белками, по крайней мере, у прокариот, может быть использована близость расположения генов на хромосоме (метод, основанный на соседстве генов)[21]. Также в некоторых эукариотических геномах, включая Homo sapiens, для отдельных биологических путей было отмечено близкое расположение входящих в них генов[22], что с развитием методик может оказаться полезным при изучении белковых взаимодействий в эукариотах.
Гены, участвующие в одинаковых процессах, также часто транскрибируются совместно, поэтому можно предположить по ко-экспрессии с известными белками о сходной функции неаннотированного белка. На основании этого факта разрабатывают так называемые алгоритмы «вины в соучастии» (англ.guilt by association), которые используют для анализа больших объемов данных последовательностей и идентификации неизвестных белков по сходству с паттернами экспрессии уже известных генов[23][24]. В исследованиях «вины в соучастии» часто сравнивают группу генов-кандидатов с неизвестной функцией с целевой группой (например, с генами, четко ассоциированными с определенным заболеванием) и на основе собранных данных (например, ко-экспрессия генов, белок-белковые взаимодействия или филогенетические профили) классифицируют гены-кандидаты по степени сходства к целевой группе. К примеру, так как многие белки являются мультифункциональными, кодирующие их гены могут принадлежать одновременно сразу нескольким целевым группам, поэтому, такие гены будут чаще выявляться в исследованиях «вины в соучастии», и такие предсказания не являются специфичными.
Одной из проблем, связанных с предсказанием функции белка, является обнаружение активного сайта, осложненное тем, что некоторые активные сайты не формируются до тех пор, пока белок не претерпевает конформационные изменения, вызванные связыванием малых молекул, например, молекул растворителя. Большинство белковых структур были получены методом рентгеноструктурного анализа, для которого требуется кристаллы чистого белка, в результате, в существующих трёхмерных моделях белков нельзя проследить конформационные изменения, необходимые для формирования активных сайтов. Вычислительная топография растворителя использует так называемые зонды (небольшие органические молекулы), которые в процессе компьютерной симуляции «перемещаются» по поверхности белка в поисках мест потенциального связывания и последующей кластеризации. Как правило, применяются несколько различных зондов с целью получения как можно большего числа различных конформационных структур «белок-зонд». Полученные структуры оценивают по средней свободной энергии. После множественных симуляций различными зондами место, где формируется наибольшее число кластеров, отождествляют с активным центром белка[27].
Этот метод представляет собой компьютерную адаптацию «мокрой» методики из статьи 1996 года. При наложении структур белка, полученных при растворении в различных органических растворителях, было обнаружено, что молекулы растворителя чаще всего скапливаются в активном центре белка. Эта работа была сделана с целью убрать оставшиеся молекулы воды, которые проявляются на картах электронной плотности, полученные рентгеноструктурным анализом: взаимодействуя с белком, они имеют тенденцию скапливаться в полярных областях белка. Это привело к идее промывать очищенный кристалл белка в различные растворители (такие как этанол, изопропанол) с целью установить в каком месте кластеризуются молекулы растворителя. Растворители можно выбирать из расчета с какими молекулами может взаимодействовать белок (например, выбор этанола в качестве зонда может отождествлять взаимодействие белка с серином, выбор изопропанола — с треонином, и т.д.). Очень важно, чтобы кристалл белка сохранял свою третичную структуру в каждом растворителе. После того, как процедуру промывания провели с несколькими растворителями, получают данные, на основе которых можно предположить потенциальные активные сайты белка[28].
↑Finn R. D., Mistry J., Tate J., Coggill P., Heger A., Pollington J. E., Gavin O. L., Gunasekaran P., Ceric G., Forslund K., Holm L., Sonnhammer E. L., Eddy S. R., Bateman A.The Pfam protein families database. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D211–222. — doi:10.1093/nar/gkp985. — PMID19920124. [исправить]