تکنیکهای تحلیل ریزآرایه برای تفسیر دادههای تولید شده از آزمایشهای انجام شده بر روی ریزآرایههای دیانای، آرانای و پروتئین استفاده میشود. این آزمایشها به محققان اجازه میدهد تا در مورد میزان بیان تعداد زیادی ژن در یک آزمایش تحقیق کنند[۱]. چنین آزمایشهایی میتوانند حجم زیادی از دادهها را تولید کنند که به محققان اجازه میدهد تا وضعیت کلی سلول یا ارگانیسم را ارزیابی کنند. تحلیل حجم زیاد دادهها دشوار میباشد .
چندین نوع تحلیل زیرآرایه وجود دارد، که در ادامه معرفی خواهند شد. در تکنیک ایجاد دادههای خام, تغییر در هر کدام از گامها نتایج تحلیل و بررسی را تغییر میدهد، پروژه MAQC ایجاد شدهاست تا مجموعه استراتژیهای استاندارد برای تغییر گامها را شناسایی کند. شرکتهایی وجود دارد که از پروتکلهای پروژه MAQC استفاده میکنند تا تحلیل و بررسی کاملی را انجام دهد.[۲]
تکنیکها
خوشهبندی
خوشه بندی یک تکنیک داده کاوی(data mining) است که برای گروه بندی ژن هایی که دارای الگوهای بیان مشابه هستند استفاده می شود.خوشهبندی کی میانگین و خوشه بندی سلسله مراتبی ، به طور گسترده ای در تجزیه و تحلیل ریزآرایهها استفاده میشوند.
خوشهبندی کی میانگین
این الگوریتم ابتدا توسط استوارت لویید در سال ۱۹۵۷ به عنوان یک تکنیک برای مدولاسیون کد پالس پیشنهاد شد و تا سال ۱۹۸۲ خارج از آزمایشگاههای بل به انتشار نرسید. فورجی در سال ۱۹۶۵ الگوریتمی مشابه را منتشر کرد، به همین دلیل است که بعضی اوقات این الگوریتم، لویید فورجی هم نامیده میشود.[۳]
خوشه بندی کی میانگین, یک الگوریتم برای گروه بندی ژن ها (یا نمونه ها) بر اساس یک الگو, به k تا گروه مجزا میباشد. گروهبندی با به حداقل رساندن مجموع مربع مسافت بین داده و مرکز خوشه مربوطه انجام می شود. بنابراین هدف این نوع خوشه بندی, طبقه بندی داده ها بر اساس اصطلاحات مشابه است.
خوشهبندی سلسله مراتبی
خوشه بندی سلسله مراتبی یک روش آماری برای یافتن خوشه های نسبتاً همگن است. خوشه بندی سلسله مراتبی از دو مرحله جداگانه تشکیل شده است. در ابتدا ، یک ماتریس فاصله شامل تمام زوج فاصله های بین ژنها محاسبه می شود.از همبستگی پیرسون و همبستگی اسپیرمن اغلب به عنوان برآوردهای متفاوت استفاده می شود ، اما روش های دیگری مانند فاصله منهتن یا فاصله اقلیدسی نیز قابل استفاده است.
پس از محاسبه ماتریس فاصله اولیه ،این نوع خوشهبندی یا به طور مکرر نزدیکترین دو خوشهای را که از نقاط داده منفرد شروع می شوند,پیوند میدهد(رویکرد از پایین به بالا ، که نسبتاً متداول تر است) ، یا به طور مداوم با شروع از مجموعه کامل, خوشه ها را تقسیمبندی میکند (رویکرد از بالا به پایین). پس از هر مرحله ، یک ماتریس فاصله جدید بین خوشه های تازه شکل گرفته و سایر خوشه ها مجددا محاسبه می شود.[۴]
تشخیص الگو
سیستم های تجاری (مانند [۵]Ingenuity و [۶]Pathway studio) برای تجزیه و تحلیل شبکه های ژن, نمایش های بصری از ژن های متفاوت بیان شده را بر اساس علم امروز ایجاد می کنند. ابزارهای غیر تجاری (مانند FunRich ،GenMAPP و [۷]Moksiskaan) همچنین در سازماندهی و تجسم داده های شبکه ژنی(که از یک یا چند آزمایش ریزآرایه تهیه شدهاند) کمک می کنند. طیف گسترده ای از ابزارهای تحلیل ریزآرایهها از طریق Bioconductor (که به زبان برنامه نویسی R نوشته شده است) ، در دسترس هستند. ماژول [۸]SAM که اغلب به آن استناد می شود و سایر ابزارهای ریزآرایه ای [21] از طریق دانشگاه استنفورد, هاروارد و موسسه تکنولوژی ماساچوست در دسترس است.
ایجاد دادههای خام
در این گام دادههای خام با استفاده از نمونه برداری تولید میگردند و سپس دادهها به کامپیوتر منتقل میشوند. بیشتر تولیدکنندگان ریزآرایهها، نرمافزارهای تجاری تحلیل داده را نیز به همراه تجیهزات ریزآرایه ارائه میدهند.
تصحیح پس زمینه
بعد از بدست آوردن دادههای خام، خطاهای سیستماتیک از شناسایی و از دادهها حذف میشوند. با توجه به نوع آرایه، سیگنالهای مربوط به چسبیدن غیر اختصاصی فلوئورسازه را میتوان کم کرد تا نتایج بهتری را بدست آورد. یک روش شامل کم کردن متوسط شدت سیگنال در ناحیههای بین موقعیتها میباشد. ابزارهای مختلف برای تصحیح پس زمینه و بررسیهای بیشتر از TIGR قابل دسترس هستند.
کنترل کیفیت
کل آرایه میتواند شامل خطاهای واضحی باشد که با بررسی بصری، مقایسه دو به دو با آرایههای بدست آمده از آزمایشهای مشابه، یا با بررسی تنزل RNA قابل تشخیص باشد. نتایج میتوانند با حذف این آرایهها از بررسی و تحلیل ارتقا یابند.
فیلتر نقطه
شناسایی بصری مصنوعات محلی، مانند چاپ یا شستشوی خطاها، در اکثر موارد به حذف نقاط منحصربفرد ختم خواهد شد. این اقدام میتواند بر حسب کیفیت تولید آرایه مقدار قابل توجهی زمان طول بکشد. همچنین برخی از روشها همه نقاطی که شدت بیان از یک مقداری کمتر است را حذف میکنند.
تجمع و نرمال سازی
مقایسه دو آرایه مختلف بهطور کلی شامل انجام اقدامات برای حذف خطاهای سیستماتیک حاصل از تفاوت در روشها و شدت رنگ میباشد. نرمال سازی رنگها برای دو آرایه معمولاً توسط روش تجمع محلی انجام میشود. یک روش معمول برای تشخیص اینکه دادهها چقدر نرمال هستند، استفاده از نمودار MA از دادهها میباشد.
دادههای خام افی شامل بیست کاوش برای یک هدف RNA میباشد. نصف این تعداد برای نقاط عدم تطابق میباشد که بهطور دقیق با توالی هدف تطابق نمییابند. از لحاظ نظری این میتواند مقدار چسبیدن غیر اختصاصی را برای هدف مشخص کند. الگوریتم MAS5 از هر دو روش تطابق کامل و عدم تطابق کاوش استفاده میکند.
تحلیل و بررسی عاملها برای خلاصه سازی زیرآرایه ها(FARMS) یک روش مدل محور برای خلاصه سازی کاوشهایی با تطابق کامل میباشد. این روش بر اساس مدل بررسی بیزی عاملها با فرض نرمال بودن نویزها میباشد.
شناسایی تفاوت بیانهای معنادار
روشهای زیادی وجود دارد تا تشخیص داده شود کدام یک از آرایههای کاوش سطح معناداری از افزایش بیان یا کاهش بیان را نشان میدهد. سادهترین روش که با نام «معنادار» شناخته میشود، کاوشهایی را انتخاب میکند که بهطور میانگین با عامل دو بین گروهها تغییر کردهاند. روشهای پیشرفته تر معمولاً از آزمون تی استیودنت یا مکانیزمهای دیگری که هم سایز و هم تغییر را تحت تأثیر قرار میدهند را استفاده میکنند. گروه MAQC استفاده از بررسی میزان چند برابر شدن به همراه حذف برحسب مقدار p-value پیشنهاد میدهند.
منابع