با پیشرفت تکنولوژی و افزایش چشمگیر دادههای زیستی، علاوه بر ذخیرهسازی و نگهداری، استخراج اطلاعات سودمند از این حجم از داده نیز چالش بزرگی را برای پژوهشگران به وجود آوردهاست. به این منظور، برای به دست آوردن دانش از دادههای زیستی از ابزارها و روشهای یادگیری ماشین استفاده میشود.[۱] یادگیری ماشین که زیرشاخهای از علوم رایانه است، دارای کاربردهای بسیاری در بیوانفورماتیک است. بیوانفورماتیک دانشی است که به جنبههای ریاضی و محاسباتی زیستشناسی برای فهم و پردازش دادههای زیستی میپردازد.[۲]
پیش از ظهور روشهای یادگیری ماشین در بیوانفورماتیک، الگوریتمهای بیوانفورماتیک به صورت دستنویس و غیرخودکار برنامهنویسی میشدند، که برای مسائلی مانند پیشبینی ساختار پروتئین بسیار دشوار بودهاست. روشهایی در یادگیری ماشین مانند یادگیری عمیق به الگوریتم این اجازه را میدهد که از روی ویژگیهای اولیهٔ دادهٔ ورودی ویژگیهایی پیچیدهتر را برای بهکارگیری در الگوریتم یادگیری بسازد. این نوع سیستمها با داشتن حجم بزرگی از داده برای یادگیری میتوانند پیشبینیهای کاملاً پیچیدهای را انجام دهند. در سالهای اخیر حجم دادههای زیستی به شدت افزایش یافتهاست، که این موضوع استفاده از سیستمهای گفته شده را برای پژوهشگران بیوانفورماتیک میسر میکند.[۲]
الگوریتم های یادگیری ماشین در بیوانفورماتیک را می توان برای پیش بینی، طبقه بندی و انتخاب ویژگی استفاده کرد. روش های دستیابی به این وظیفه متنوع است و بخش های گسترده ایی را در بر می گیرد. شناخته شده ترین آنها یادگیری ماشین و آمار است. هدف الگوریتم های طبقهبندی و پیشبینی، ساخت مدلهایی است که کلاسها یا مفاهیم را برای پیشبینی آینده توصیف و متمایز میکنند. تفاوت بین آنها به شرح زیر است:
الگوریتم های مربوط به طبقهبندی/تشخیص، یک کلاس طبقهبندی را خروجی میدهند، در حالی که الگوریتم های پیشبینی یک ویژگی با ارزش عددی را خروجی میدهد.
نوع الگوریتم یا فرآیندی که برای ساخت مدل های پیش بینی از داده ها با استفاده از قیاس ها، قوانین، شبکه های عصبی، احتمالات و/یا آمار استفاده می شود.
با توجه به رشد تصاعدی فناوریهای اطلاعات و مدلهای کاربردی از جمله هوش مصنوعی و دادهکاوی، علاوه بر دسترسی به مجموعههای دادهای جامعتر، تکنیکهای جدید و بهتری برای تجزیه و تحلیل اطلاعات بر اساس توانایی یادگیری آنها ایجاد شده است. چنین مدل هایی امکان دسترسی فراتری را فراهم می کنند.
روشی که ویژگی ها، اغلب بردارها در یک فضای چند بعدی، از داده های دامنه استخراج می شوند، جزء مهمی از سیستم های یادگیری است.[۲]
در ژنومیک، یک نمایش مرسوم از یک دنباله، استفاده از بردار فرکانس های ک تایی (k-mer) است، که برداری بعدی است که نهاده های آن تعداد وقوع هر زیر دنباله ای از طول را در یک دنباله معین می شمارند. از آنجایی که حتی برای مقداری به کوچکی ابعاد این بردارها بسیار بزرگ است (به عنوان مثال در این مورد از بعد
است)، تکنیک هایی مانند تحلیل مؤلفههای اصلی برای تصویر داده ها به فضای ابعاد پایین تر استفاده می شود و به این ترتیب، مجموعه کوچکتری از ویژگی ها از دنباله ها انتخاب می شود.
[۲]
طبقه بندی
در طبقه بندی، خروجی مدل یک متغیر گسسته است. یکی از نمونهها آن در بیوانفورماتیک، برچسبگذاری دادههای ژنومی جدید (مانند ژنوم باکتریهای غیرقابل کشت) بر اساس مدلی از دادههای از قبل برچسبگذاری شده است.
[۲]
مدل مارکوف پنهان
مدل های مارکوف پنهان (HMMs) دستهای از مدلهای آماری برای دادههای متوالی (اغلب مربوط به سیستمهایی که در طول زمان تکامل مییابند). یک HMM از دو شیء ریاضی تشکیل شده است: یک فرآیند وابسته به حالت مشاهده شده و یک فرآیند حالت مشاهده نشده (پنهان) . در یک HMM، فرآیند حالت مستقیماً مشاهده نمیشود - این یک متغیر "پنهان" (یا "مخفی") است - اما مشاهدات از یک فرآیند وابسته به حالت (یا فرآیند مشاهده) ساخته میشوند که مبتنی بر یک فرآیند حالت زیربنایی است (بنابراین می تواند به عنوان یک اندازه گیری پر سر و صدا از حالت های مورد علاقه سیستم در نظر گرفته شود).
[۴]
HMM ها را می توان در زمان پیوسته فرموله کرد.
.[۵][۶]
HMM ها را می توان برای پروفایل و تبدیل یک همترازسازی چند توالی به یک سیستم امتیازدهی برای جستجوی پایگاه های داده برای دنباله های همولوگ از راه دور استفاده کرد. [۷]
علاوه بر این، پدیده های اکولوژیکی را می توان با HMM ها توصیف کرد.
[۸]
شبکه عصبی پیچشی
شبکه عصبی پیچشی (CNN) کلاسی از شبکه عصبی عمیق است که معماری آن بر اساس وزنهای مشترک کرنل های کانولوشن یا فیلترهایی است که در امتداد ویژگیهای ورودی اسلاید میشوند و نقشههای ویژگی را ارائه میدهند.
[۹][۱۰]
CNN ها از الگوی سلسله مراتبی در داده ها بهره می برند و الگوهای پیچیده را را با استفاده از الگوهای کوچکتر و ساده تری که از طریق فیلترهایشان کشف می شوند، جمع آوری می کنند. بنابراین، آنها در مقیاس اتصال پذیری و پیچیدگی پایین تر هستند.
[نیازمند منبع]
جنگل تصادفی
جنگل های تصادفی (RF) با ساخت مجموعه ای از درخت های تصمیم عمل طبقه بندی را انجام میدهند و میانگین پیش بینی درختان را به عنوان خروجی اعلام میکنند.
[۱۱]
این نوع دیگری از تجمع بوت استرپ است (که مجموعه بزرگی از درختان تصمیم را جمع می کند) و می تواند برای طبقه بندی یا رگرسیون استفاده شود.
[۱۲][۱۳]
از آنجایی که جنگلهای تصادفی یک تخمین داخلی از خطای تعمیم را ارائه میدهند، ضرورتی به اعتبارسنجی متقابل نیست. علاوه بر این، مجاورتهایی تولید میکنند که میتوان از آنها برای انتساب به مقادیر گمشده و تجسم دادههای جدیداستفاده کرد.
[۱۴]
از نظر محاسباتی، جنگلهای تصادفی جذاب هستند، زیرا به طور طبیعی هم رگرسیون و هم طبقهبندی (چند کلاسی) را انجام میدهند، برای آموزش و پیشبینی نسبتاً سریع هستند، تنها به یک یا دو پارامتر تنظیم بستگی دارند، یک تخمین داخلی از خطای تعمیم دارند، میتوان از آنها استفاده به طور مستقیم برای مسائل با ابعاد بالا استفاده کرد، و به راحتی می تواند به صورت موازی اجرا شود. از نظر آماری، جنگلهای تصادفی برای ویژگیهای اضافی، مانند اندازهگیری اهمیت متغیر، وزندهی کلاسهای دیفرانسیل، انتساب مقدار گمشده، تجسم، تشخیص نقاط دورافتاده، و یادگیری بدون نظارت جذاب هستند.
[۱۴]
خوشه بندی
خوشهبندی - تقسیمبندی یک مجموعه داده به زیرمجموعههای مجزا، به طوری که دادههای هر زیرمجموعه تا حد امکان به یکدیگر نزدیک و تا حد امکان از دادههای هر زیرمجموعه دیگری، طبق برخی تابع فاصله یا شباهت تعریفشده، دورتر باشند - یک تکنیک رایج برای تجزیه و تحلیل داده های آماری است.
خوشهبندی برای بسیاری از تحقیقات بیوانفورماتیک که مبتنی بر دادهها هستند مهم میباشد و به عنوان یک روش محاسباتی قدرتمند عمل میکند که به موجب آن ابزارهای طبقهبندی سلسله مراتبی، مبتنی بر مرکز، مبتنی بر توزیع، مبتنی بر چگالی و طبقه بندی نقشه های خودسازمانده، مدتهاست که در یادگیری ماشین کلاسیک مورد مطالعه و استفاده قرار گرفته است. به طور ویژه، خوشه بندی به تجزیه و تحلیل داده های بدون ساختار و با ابعاد بالا در قالب توالی، عبارات، متون، تصاویر و غیره کمک می کند. خوشه بندی همچنین برای به دست آوردن بینش در مورد فرآیندهای بیولوژیکی در سطح ژنومیک استفاده می شود، به عنوان مثال. عملکردهای ژن، فرآیندهای سلولی، زیرشاخههای سلولی، تنظیم بیان ژن و فرآیندهای متابولیک.
[۱۵]
کاربردها
ژنومیک
ژنومیک شامل مطالعهٔ ژنوم موجودات زنده، که رشتهٔ دیانای کامل آنها است، میشود. با وجود اینکه دادههای ژنومیک به دلیل مشکلات فنی در توالییابی یک قطعه از دیانای در طول زمان ناقص بودهاست، تعداد رشتههای موجود به صورت نمایی در حال افزایش است. برخلاف افزایش نمایی این نوع از دادهٔ خام، تفسیر زیستی آن با سرعت بسیار کمتری انجام میشود. به این دلیل به روشهای یادگیری ماشین برای تشخیص محل ژنهایی که به پروتئین ترجمه میشوند، روی آورده میشود. این مسئله به مسألهٔ ژنیابی معروف است.
علاوه بر مسألهٔ ژنیابی، روشهای یادگیری ماشین در مسألهٔ همترازسازی چند توالی نیز استفاده میشود. در این مسئله، تعداد زیادی رشتهٔ دیانای یا اسید آمینه به منظور یافتن نواحی مشابه همترازسازی میشوند. این نواحی مشابه میتوانند نشاندهندهٔ اطلاعاتی در مورد پیشزمینهٔ تکاملی این رشتهها باشند.[۲]
پروتئومیک
پروتئینها که رشتههایی متشکل از اسید آمینهها هستند، بخش بزرگی از کارایی و عملکرد خود را از تاشدگی میگیرند که به آنها ساختاری سهبعدی میدهد. این ساختار شامل ۴ لایه که به آنها ساختار اول تا چهارم گفته میشود، میشود. ساختار اولیهٔ پروتئین نشاندهندهٔ توالی اسید آمینهها است و ساختار دوم آن شامل مارپیچهای آلفا و صفحات بتا میشود.
از آنجایی که ساختارهای سوم و چهارم وابستگی زیادی به ساختار دوم دارند، در زیرشاخهٔ پروتئومیک توجه زیادی به ساختار دوم میشود. به دست آوردن ساختار کامل و دقیق پروتئین فرایندی بسیار پیچیده و زمانگیر است. پیش از استفاده از روشهای یادگیری ماشین، پژوهشگران سیستمهای پیشبینی ساختار پروتئین را به صورت دستی پیادهسازی میکردند. امروزه روشهای یادگیری ماشین با به دست آوردن خودکار ویژگیهای داده به دقت ۸۴٪-۸۲ رسیدهاند. در حال حاضر الگوریتم سرآمد در حوضهٔ پیشبینی ساختار دوم از سیستمی به نام DeepCNF استفاده میکند که بر اساس مدل شبکهٔ عصبی مصنوعی، به دقت ۸۴٪ در دستهبندی اسید آمینههای یک رشتهٔ پروتئین به دستههای مارپیچ، صفحه و سیمپیچ رسیدهاست. از لحاظ تئوری، حداکثر دقت قابل دستیابی در این مسئله برابر ۹۰٪-۸۸ است.
روشهای یادگیری ماشین در مسئلههای دیگری مانند پیشبینی زنجیر جانبی و مدل کردن خمیدگیهای پروتئین نیز استفاده میشوند.[۲]
ریزآرایه
ریزآرایه یکی از انواع آزمایشگاه روی تراشه است که برای جمعآوری داده از مواد زیستی با مقدار بالا استفاده میشود. یادگیری ماشین میتواند در آنالیز این نوع داده کمک کند و در مواردی مانند مشخص کردن الگوهای بیان ژنها، دستهبندی و استنتاج از شبکههای ژنتیکی مورد استفاده قرار گیرد.
این تکنولوژی بهطور ویژه برای نظارت بر بیان ژنهای یک ژنوم به منظور تشخیص انواع مختلف سرطان استفاده میشود. یکی از مهمترین مسئلهها در این عرصه تشخیص ژنهایی است که بیان شدهاند. حجم بالای داده و وجود دادههای بیربط، این مسئله را سختتر میکند. روشهای دستهبندی در یادگیری ماشین مانند شبکهٔ تابع پایه شعاعی، یادگیری عمیق، دستهبندیکنندهٔ بیزی، درخت تصمیم و جنگل تصادفی در این مسئله استفاده میشوند.[۲]
زیستشناسی دستگاهها
زیستشناسی دستگاهها به بررسی رفتارهای شدید فعل و انفعالات پیچیده در بین اجزاء سادهٔ زیستی میپردازد. چنین اجزائی میتوانند شامل مولکولهایی مانند دیانای، آرانای، پروتئینها و متابولیتها شوند.
یادگیری ماشین در مدل کردن فعل و انفعالات پیچیده در سیستمهایی مانند شبکههای ژنتیکی، شبکههای انتقال سیگنال و مسیرهای متابولیکی به کار میآید. مدلهای گرافیکی احتمالاتی یکی از پرکاربردترین روشها در مدل کردن شبکههای ژنتیکی هستند. علاوه بر این از روش بهینهسازی زنجیره مارکوف نیز در مسئلههایی مانند تشخیص نواحی اتصال فاکتور رونویسی استفاده میشود. الگوریتمهای ژنتیکی که روشهایی بر اساس روند طبیعی تکامل هستند در مدل کردن شبکههای ژنتیکی و ساختارهای تنظیمکننده مورد استفاده قرار میگیرند.
کاربردهای دیگر یادگیری ماشین در زیستشناسی دستگاهها عبارتند از: پیشبینی عملکرد آنزیمها، آنالیز دادهٔ ریزآرایههای توان بالا و پیشبینی عملکرد پروتئین.[۲]
تکامل
در علم تکامل، به خصوص در بازسازی درخت تبارزایی نیز از روشهای یادگیری ماشین استفاده میشود. درخت تبارزایی درختی است که نشاندهندهٔ روابط تکاملی در میان انواع مختلف گونههای زیستی، بر اساس شباهت ژنتیکی آنها است. یک دسته از روشهای مورد استفاده برای یافتن گونههایی که از لحاط ژنتیکی به یکدیگر نزدیک هستند، روشهای خوشهبندی از جمله k-medoids ،k-means و DBSCAN هستند. در بین این روشها، DBSCAN دقت و سرعت بیشتری در خوشهبندی دادههای ژنتیکی دارد.[۱۷] علاوه بر این روشها، از روشهای یادگیری عمیق مانند شبکههای عصبی پیچشی نیز استفاده میشود.[۱۸]
متنکاوی
با افزایش تعداد نشریات زیستشناسی جستجو و جمعآوری اطلاعات در مورد موضوعی خاص به امری دشوار تبدیل شد. به این امر استخراج دانش گفته میشود. جمعآوری اطلاعات از تمامی منابع موجود در مورد دادههای زیستی بسیار مهم است چرا که این اطلاعات در ادامه میتوانند به تولید دانش زیستی جدید با استفاده الگوریتمهای یادگیری ماشین کمک کنند. برای استخراج دانش از گزارشهایی که به دست انسان تولید شدهاند، میتوان از روشهای پردازش زبان طبیعی استفاده کرد.[۲]
سایر کاربردها
یکی از زیرشاخههایی که روشهای یادگیری ماشین در آن نقش مهمی دارند آنالیز تصاویر زیستی است. در این زیرشاخه به طراحی روشهایی برای آنالیز محاسباتی تصاویر زیستی پرداخته میشود. به صورت مرسوم، آنالیز تصاویر زیستی به دست خود انسان انجام میشود. این روش کند و پرهزینه است و نتیجهٔ آن وابسته به شخصی است که تصاویر را آنالیز میکند. علاوه بر این، میکروسکوپهای خودکار مدرن قادر به تولید صدها تا هزاران تصویر در هر ساعت هستند، که آنالیز دستی این تصاویر را غیرممکن میکند. به همین دلیل از روشهای بینایی ماشین و تشخیص الگو در آنالیز تصاویر زیستی کمک گرفته میشود. یکی از بزرگترین زیرمجموعهها از تصاویر زیستی که به آنالیز خودکار نیاز دارد، تصاویر میکروسکوپهای فلئورسانس است. برای این گروه از تصاویر، مسئلههای بخشبندی سلولها، دستهبندی واکنشهای فنوتیپی و تصمیمات مربوط به واکنشهای مشتق از آن، بهطور معمول مطرح میشوند.[۲۰]
از زیرشاخههای دیگری که در آنها از روشهای یادگیری ماشین استفاده میشود میتوان به طراحی پرایمر، آنالیز دادههای طیفسنج جرمی و ترجمهٔ معکوس پروتئینها اشاره کرد.
↑Jackson CH, Sharples LD, Thompson SG, Duffy SW, Couto E (July 2003). "Multistate Markov models for disease progression with classification error". Journal of the Royal Statistical Society, Series D (The Statistician). 52 (2): 193–209. doi:10.1111/1467-9884.00351.
↑Zhang W, Itoh K, Tanida J, Ichioka Y (November 1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID20577468.
↑Ho TK (1995). Random Decision Forests. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
↑Dietterich T (2000). An Experimental Comparison of Three Methodsfor Constructing Ensembles of Decision Trees:Bagging, Boosting, and Randomization. Kluwer Academic Publishers. pp. 139–157.
↑Breiman L (2001). Random Forest (45 ed.). Machine Learning: Kluwer Academic Publisers. pp. 5–32.
↑ ۱۴٫۰۱۴٫۱Zhang C, Ma Y (2012). Ensemble machine learning: methods and applications. New York: Springer New York Dordrecht Heidelberg London. pp. 157–175. ISBN978-1-4419-9325-0.