Великим напрямком досліджень біоінформатики є отримання високоякісних послідовностей геномів з фрагментів послідовностей, отриманих за допомогою традиційних методів секвенування ДНК та конструювання сигнальних мереж за даними ДНК-мікрочипів. В останньому випадку біоінформатика нерідко перетинається з системною біологією.
Відтоді, як в 1977 році був секвенованийгеномфагуφ-X-174, послідовності ДНК все більшого числа організмів були розшифровані і збережені в базах даних. Ці дані використовуються для визначення послідовностей білків і регуляторних ділянок. Порівняння генів в рамках одного або різних видів може продемонструвати схожість функцій білків або відношення між видами (таким чином, можуть бути складені філогенетичні дерева).
Із зростанням кількості даних вже давно стало неможливим вручну аналізувати послідовності. В наші дні для пошуку по геномах тисяч організмів, що складаються з мільярдів пар основ, використовуються комп'ютерні програми. Програми можуть однозначно зіставити («вирівняти») схожі послідовності ДНК в геномах різних видів, часто такі послідовності несуть схожі функції, а відмінності виникають в результаті дрібних мутацій, таких як заміни окремих нуклеотидів, вставки нуклеотидів і їхнє «випадання» (делецій).
Один з варіантів такого вирівнювання застосовується при самому процесі секвенування. Так звана техніка «дробового секвенування» (яка, наприклад, використовувалася Інститутом генетичних досліджень[en] або TIGR для секвенування першого бактеріального геному Haemophilus influenzae) замість повної послідовності нуклеотидів дає послідовності коротких фрагментів ДНК (кожен завдовжки близько 600–800 нуклеотидів). Кінці фрагментів накладаються один на одного і, суміщені належним чином, дають повний геном. Такий метод швидко дає результати секвенування, але збірка фрагментів може бути досить складним завданням для великих геномів. У проєкті з розшифрування геному людини збірка зайняла декілька місяців часу суперкомп'ютерів. Зараз цей метод застосовується для практично всіх геномів, і алгоритми збірки геномів є однією з щонайгостріших проблем біоінформатики на сьогоднішній момент.
Іншим прикладом застосування комп'ютерного аналізу послідовностей є автоматичний пошук генів[en] і регуляторних послідовностей в геномі. Не все нуклеотиди в геномі використовуються для завдання послідовностей білків. Наприклад, в геномах еукаріотів існують великі сегменти некодуючої ДНК, які явно не кодують білки, а їхня функціональна роль в багатьох випадках невідома. Розробка алгоритмів виявлення ділянок геному, що кодують білки, є важливим завданням сучасної біоінформатики.
Біоінформатика допомагає зв'язати геномні та протеомні проєкти, наприклад, допомагаючи у використанні послідовності ДНК для ідентифікації білків.
У контексті геноміки анотація — процес маркування генів і інших об'єктів в послідовності ДНК. Перша програмна система анотації геномів була створена в 1995 році Оуеном Вайтом (Owen White), що працював в команді, яка секвенувала і проаналізувала перший декодований геном вільноживучого організму, бактерії Haemophilus influenzae. Доктор Вайт побудував систему знаходження генів, тРНК і інших об'єктів в геномі, і зробив перші позначення функцій цих генів. Більшість сучасних систем працюють схожим чином, але ці програми постійно розвиваються і поліпшуються.
Обчислювальна еволюційна біологія
Еволюційна біологія досліджує походження і появу видів, також як їхній розвиток з часом. Інформатика допомагає еволюційним біологам в декількох аспектах:
вивчення еволюції великого числа організмів, вимірюючи зміни в їхній ДНК, а не тільки в будові або фізіології
Біорізноманіття екосистеми може бути визначено як повна генетична сукупність певного середовища, що складається зі всіх видів, що мешкають в ньому, чи це біофільм в покинутій шахті, крапля морської води, жменя землі або вся біосфера планети Земля. Для збору видових назв, описів, ареалу розповсюдження і генетичній інформації використовуються бази даних. Спеціалізоване програмне забезпечення застосовується для пошуку, візуалізації та аналізу інформації, і, що важливіше, її доступності іншим людям. Комп'ютерні симуляції моделюють такі речі, як популяційна динаміка, або обчислюють загальне генетичне здоров'я культури в агрономії. Один з найважливіших потенціалів цієї області полягає в аналізі послідовностей ДНК організмів або повних геномів цілих вимираючих видів, дозволяючи запам'ятати результати генетичного експерименту природи в комп'ютері й можливо використовувати знову в майбутньому, навіть якщо ці види повністю вимруть.
Аналіз експресії генів
Експресія багатьох генів може досліджуватися за допомогою вимірювання рівнів багатьох мРНК з використанням методів ДНК-мікрочипів, експресії міток послідовностей[en] (EST), серійного аналізу експресії генів[en] (SAGE) або інших варіантів мультиплексної гібридизації in-situ[en]. Всі ці методи надзвичайно сприятливі до шуму і схильні до упередженості в отриманих значеннях, тому важлива область досліджень в біоінформатиці займається розробкою статистичних інструментів для розділення сигналу і шуму в генетичних дослідженнях. Ці дослідження часто використовуються для виявлення генів, залучених у хвороби: наприклад, дані мікрочипів раковихепітеліальних клітин порівнюють з нормальними для визначення підвищуючої та понижчуючої регуляції генів.
Типи даних у біоінформатиці
Біоінформатика має справу з різноманітними типами біологічних даних, кожен з яких пропонує унікальне розуміння складності живих організмів. Ці типи даних необхідні для розуміння генетики, біології та суміжних галузей. Ось кілька відомих типів даних у біоінформатиці:
Оміксіні технології
«Оміксні технології» — це набори передових, високопродуктивних методологій, які використовуються для аналізу широкого діапазону біологічних молекул та їх взаємодії з метою розуміння структури, функції та динаміки біологічних систем на різних рівнях.[2] Поєднуючи ці «-оми», вчені можуть аналізувати складні біологічні великі дані, щоб знаходити нові асоціації між біологічними об’єктами, точно визначати відповідні біомаркери захворювань і фізіологічних процесів.[3][4] Роблячи це, мультиоміка об’єднує різноманітні дані омік, щоб знайти узгоджено відповідний зв’язок або асоціацію генотип-фенотип-довкілля.[5] Термін «мультіоміка» відображає взаємозв’язок і складну взаємодію між різними типами біологічних даних. Біологічні процеси керуються каскадом подій, які починаються з генома та призводять до функціональних білків і метаболітів, які опосередковують клітинні процеси. Уздовж цього континууму існують різні точки регулювання та зворотного зв’язку, які найкраще зрозуміти, якщо розглядати їх разом.[6]
Збірка геномів: реконструкція повних геномів із фрагментованих послідовностей ДНК. Удосконалення алгоритмів і обчислювальних методів підвищили точність і ефективність складання геному.[7]
Порівняльна геноміка[en]: порівняння геномів різних видів для виявлення еволюційних зв’язків, збережених елементів і генетичних варіацій. Цей тип даних допомагає зрозуміти еволюцію видів і функціональних елементів у геномах.
Фармакогеномічні дані: дослідження того, як генетичні варіації впливають на індивідуальні реакції на ліки. Цей тип даних використовується в персоналізованій медицині та оцінці безпеки ліків.[8][9]
Дані модифікації гістонів —ChIP-Seq (Секвенування імунопреципітацією хроматину): визначення місць і моделей модифікацій гістонів (наприклад, ацетилювання, метилювання), пов’язаних з регуляцією генів. Секвенування ChIP поєднує імунопреципітацію хроматину з високопродуктивним секвенуванням.
Аналіз довгих некодуючих РНК (lncRNA): Дослідження функцій і регуляторних ролей довгих некодуючих РНК у експресії генів та епігенетичній регуляції.[13]
Повноепігеномне дослідження асоціацій[en] (EWAS) — Епігеномне профілювання метилювання ДНК: виявлення епігенетичних змін, пов’язаних із захворюваннями, ознаками та впливом навколишнього середовища, подібно до загальногеномних досліджень асоціацій (GWAS) для генетичних варіацій. (див.Епігеноміка)
Аналіз транскриптомів: аналіз усього набору транскриптів у клітині чи тканині, включаючи ідентифікацію нових транскриптів, варіантів сплайсингу та регуляторних РНК.[15] (див.Транскприптоміка)
Епітранскриптомні дані
Епітранскриптоміка — це дослідження епітранскриптому[en][16][17] — функціонально відповідних модифікацій транскриптому, які можуть впливати на стабільність, локалізацію та трансляцію РНК.[18][19] Це поле дозволяє досліджувати інший рівень регуляції генів, який впливає на численні клітинні процеси та потенційно сприяє хворобливим станам.[20]
Епітранскриптомне секвенування[en]: такі методи, як m6A-seq[26][27] і m5C-seq[28][29], використовуються для профілювання модифікацій РНК у транскриптомі. Ці дані допомагають ідентифікувати модифіковані ділянки РНК і зрозуміти їхню функціональну роль.
Протеомні дані
Мас-спектрометрія: вимірювання відношення маси до заряду білків і пептидів для ідентифікації та кількісного визначення білків у складних біологічних зразках. Дані протеоміки життєво важливі для розуміння функції білка та посттрансляційних модифікацій.
Передбачення структури білка: використання обчислювальних методів для прогнозування тривимірних структур білків. Цей тип даних допомагає у відкритті ліків, функціональному аналізі та розумінні взаємодії білків.[30]
Функціональна протеоміка: дослідження білок-білкових взаємодій, субклітинної локалізації та функцій білка в клітинних шляхах.[31][32] (див.Протеоміка)
Ліпідомні дані
Ліпідоміка — це широкомасштабне всебічний аналіз ліпідів у біологічних системах; дослідження шляхів і мереж клітинних ліпідів у біологічних системах.[33] Ліпідоміка використовує методи аналітичної хімії та мас-спектрометрії[34] для ідентифікації та кількісного визначення різноманітного профілю ліпідів у біологічних системах.[35][36]
Рідинна хроматографія-мас-спектрометрія (LC-MS): LC-MS є ключовим методом для ліпідоміки, що дозволяє дослідникам кількісно визначати та характеризувати молекули ліпідів. Ліпідомічні дані сприяють розумінню метаболізму ліпідів та їхньої ролі у здоров’ї та хворобах.[37][38]
Глікомні дані
Глікоміка — це комплексне дослідження всіх гліканових структур (вуглеводів) клітини, тканини або організму.[39] Глікоміка досліджує структуру та функції гліканів (цукрів, сахаридів) у біологічних системах, зокрема, завдяки мас-спектрометрії.[40][41][42]
Дані про структуру гліканів: глікоміка передбачає вивчення складних вуглеводів (гліканів), які містяться в глікопротеїнах і гліколіпідах. Дані містять інформацію про гліканові структури, зв’язки та модифікації.[43]
Мас-спектрометрія: методи мас-спектрометрії зазвичай використовуються для аналізу гліканів і білків, що зв'язують глікани. Дані, отримані в результаті профілювання гліканів, допомагають зрозуміти функцію гліканів і їх роль у захворюваннях.
Дані метаболоміки
Метаболоміка — це галузь біоінформатики, яка зосереджена на комплексному вивченні малих молекул (метаболітів) у біологічних системах. Ці метаболіти відіграють важливу роль у різних біохімічних процесах і дають змогу зрозуміти метаболічний стан організму. Метаболомічні дані охоплюють широкий спектр аналітичних методів і типів даних:
Ідентифікація метаболітів
Мас-спектрометрія: методи мас-спектрометрії, такі як рідинна хроматографія-мас-спектрометрія (LC-MS)[44] і газова хроматографія-мас-спектрометрія[en] (GC-MS)[45][46], використовуються для ідентифікації та кількісного визначення метаболітів.
ЯМР-спектроскопія: надає структурну інформацію про метаболіти та може використовуватися для кількісного визначення профілю метаболітів.[47][48]
Пікові інтенсивності: дані метаболоміки часто містять пікові інтенсивності або площі під піками в даних мас-спектрометрії.[49][50]
Дані метаболічних шляхів
Бази даних метаболічних шляхів: такі бази даних, як KEGG (Кіотська енциклопедія генів і геномів), MetaCyc[en][51] і MetaboAnalyst[en], надають інформацію про метаболічні шляхи, реакції та пов’язані ферменти. Метаболомічні дані можливо відобразити на цих шляхах, щоб зрозуміти зміни метаболічної мережі.
Бази даних метаболітів: анотація метаболітів часто передбачає зіставлення мас-спектрів або спектрів ЯМР із записами в базах даних метаболітів, таких як бібліотеки METLIN[en], Human Metabolome Database[en] (HMDB)[52] і баз даних NIST.[53]
Інші типи даних в метаболоміці
Дані часових рядів: Дані метаболоміки часових рядів передбачають вибірку протягом серії часових точок для вивчення динамічних змін рівнів метаболітів у відповідь на біологічні процеси або втручання.[54]
Багатовимірний статистичний аналіз: такі методи, як метод головних компонент[55][56] і частковий аналіз найменших квадратів-дискримінант (PLS-DA)[57][58], використовуються для аналізу метаболомічних даних з кількома змінними одночасно, визначення закономірностей і розрізнення груп зразків. (див. такожБагатовимірна статистика)
Дослідження асоціацій: метаболомічні дані використовуються в асоціативних дослідженнях для співвіднесення профілів метаболітів із клінічними або фенотипічними результатами, що полегшує виявлення біомаркерів і аналізує механізми.[59][60]
Метагеноміка — це дослідження генетичного матеріалу, отриманого безпосередньо зі зразків навколишнього середовища[62] чи мікробіому певного організму.[63] Це дозволяє охарактеризувати спільноти організмів, які не піддаються культивуванню звичайними мікробіологічними методами.[64] Метагеноміка дає уявлення про структуру та функції мікробних спільнот у різноманітних середовищах, у тому числі в організмі людини.[65]
Секвенування 16S рРНК: цей метод зазвичай використовується для профілювання бактеріальних спільнот.[66] Він генерує дані про різноманітність і чисельність таксонів бактерій у зразку.[67][68]
Метатранскриптоміка
Метатранскриптоміка — розділ транскриптоміки та мікробіоміки, який займається вивченням транскриптомів у мікробних спільнотах. Він пропонує розуміння активних функціональних елементів спільноти та може проілюструвати, як громади реагують на подразники навколишнього середовища. Метатранскриптоміка також може допомогти ідентифікувати гени, що експресуються окремими членами спільноти, досліджуючи функціональні ролі різних членів спільноти.[69][70]
Метапротеоміка
Метапротеоміка передбачає вивчення всього мікробного протеому в певний момент часу. Метапротеоміка надає функціональну інформацію про мікробні спільноти, що робить її ключовим інструментом для розуміння взаємодії мікробів і динаміки спільнот у їхньому природному середовищі існування. Такий підхід також допомагає з’ясувати функціональні ролі окремих членів і спільноти в цілому.[71][72][73]
Інтеграція даних мультиоміки є вирішальним кроком у дослідженнях мультиоміки, метою якого є надання повного уявлення про біологічні системи на різних молекулярних рівнях. Завдання класифікації методів інтеграції даних мультиоміки є складним через різноманітні методології з різними цілями. Однак їх можна широко класифікувати на основі їхніх базових статистичних стратегій, їхньої біологічної цілі та способу обробки кількох типів даних омік.[77]
Існує два загальні підходи до організації вхідних даних для подальшої їх інтеграції та аналізу: методи ансамблю даних і методи ансамблю моделі. Методи ансамблю даних об’єднують дані мультиоміки з різних молекулярних шарів в єдину матрицю як вхідні дані. Навпаки, методи ансамблю моделі аналізують кожні дані омік незалежно, а потім об’єднують результати для побудови інтегративного аналізу.[78][79][80][81] На основі цих двох методик організації даних класифікують наступні методи інтеграції даних[80]:
Методи на основі регресії/асоціації:
Послідовний аналіз
Методи на основі канонічного кореляційного аналізу (CCA) і співінерційного аналізу (CIA)
Методи на основі факторного аналізу
Методи на основі кластеризації:
Кластеризація на основі ядра
Метод кластеризації на основі матричної факторизації
Геномні, транскриптомні та інші оміксні дані: розуміння функції мозку передбачає аналіз профілів експресії генів, генетичних варіацій і транскриптомних даних, специфічних для нейронів або ділянок мозку. Ці дані допомагають розшифрувати молекулярні механізми, що лежать в основі нейропластичності, неврологічних захворювань і розвитку мозку.[85]
Дані нейронної активності: це охоплює дані із записів нейронної активності, включаючи потенціали дії, кальцієву візуалізацію[87] та оптогенетику[en][88]. Такі дані допомагають розгадати динаміку нейронів, шляхи передачі сигналів і реакцію нейронів на подразники.
Дані структурної біології
Структурна біологія досліджує інформацю про тривимірні структури біологічних макромолекул, таких як білки та нуклеїнові кислоти. Ці дані важливі для розуміння молекулярних взаємодій і дизайну ліків.
Філогенетичні дерева: відображення еволюційних зв'язків між видами або генами. Філогенетичний аналіз передбачає порівняння генетичних або молекулярних послідовностей для побудови еволюційних висновків.
Філогеноміка[en]: інтеграція геномних даних для реконструкції філогенетичних дерев і вивчення еволюції геному різних видів.[89][90][91]
Біоінформатика навколишнього середовища: аналіз екологічних і екологічних даних, включаючи інформацію про клімат, географію та середовище проживання, для вивчення впливу навколишнього середовища на біорізноманіття та екосистеми.[94][95][96]
Екологічна геноміка: інтеграція геноміки та даних про навколишнє середовище для розуміння генетичної основи адаптації організмів.[96][97]
Інтелектуальний аналіз тексту: вилучення інформації та знань із наукової літератури, патентів і текстових джерел, зокрема завдяки нейролінгвістичним моделям штучного інтелекту, накшталт, ChatGPT.[99] Інтелектуальний аналіз тексту допомагає керувати даними, переглядати літературу та знаходити нові знання та розуміння.[100][101]
Бази даних
Бази даних із біологічною інформацією необхідні для більшості біоінформатичних досліджень. Існує велика кількість таких баз, що містять усе від нуклеотидних послідовностей до опису видів і фенотипів. Багато із них перебувають у вільному доступі, інші закриті. Прикладом вільних баз даних з інформацією про нуклеотидні послідовності є GenBank, DDBJ та ENA[en] (European Nucleotide Archive), сформовані та підтримувані у рамках Міжнародної співпраці баз даних нуклеотидних послідовностей (International Nucleotide Sequence Database Collaboration)[102]. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ[103]. Інші бази даних більш специфічні, наприклад, присвячені окремому типу генів чи білків (таких як кінази), окремій хромосомі чи органелі або організму. В деяких базах зібрані послідовності об'єднані спільною ознакою, наприклад Pfam (Protein Family) містить кілька тисяч родин гомологічних білків[104].
Бази даних літератури містять бібліографічні дані статей присвячених біологічним дослідженням і посилання на повні тексти статей, одним із найважливіших таких сховищ є MEDLINE[104].
Леск А. Введение в биоинформатику = Introduction to Bioinformatics. — М. : Бином, 2013. — 318 с.
Хаубольд Б., Вие Т. Введение в вычислительную биологию: Эволюционный подход = Introduction To Computational Biology: An Evolutionary Approach. — Ижевск : РХД, 2011. — 456 с.
Хельтье Х.-Д., Зиппль В., Роньян Д., Фолькерс Г. Молекулярное моделирование: Теория и практика = Molecular Modeling: Basic Principles and Applications. — М. : Бином, 2012. — 319 с.
↑Emwas, Abdul-Hamid; Roy, Raja; McKay, Ryan T.; Tenori, Leonardo; Saccenti, Edoardo; Gowda, G. A. Nagana; Raftery, Daniel; Alahmari, Fatimah; Jaremko, Lukasz (2019-07). NMR Spectroscopy for Metabolomics Research. Metabolites(англ.). Т. 9, № 7. с. 123. doi:10.3390/metabo9070123. Процитовано 15 вересня 2023.{{cite news}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
↑Ruiz-Perez, Daniel; Guan, Haibin; Madhivanan, Purnima; Mathee, Kalai; Narasimhan, Giri (2020-12). So you think you can PLS-DA?. BMC Bioinformatics(англ.). Т. 21, № S1. doi:10.1186/s12859-019-3310-7. Процитовано 15 вересня 2023.{{cite news}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)