یادگیری ماشین در بیوانفورماتیک

با پیشرفت تکنولوژی و افزایش چشمگیر داده‌های زیستی، علاوه بر ذخیره‌سازی و نگهداری، استخراج اطلاعات سودمند از این حجم از داده نیز چالش بزرگی را برای پژوهشگران به وجود آورده‌است. به این منظور، برای به دست آوردن دانش از داده‌های زیستی از ابزارها و روش‌های یادگیری ماشین استفاده می‌شود.^[۱] یادگیری ماشین که زیرشاخه‌ای از علوم رایانه است، دارای کاربردهای بسیاری در بیوانفورماتیک است. بیوانفورماتیک دانشی است که به جنبه‌های ریاضی و محاسباتی زیست‌شناسی برای فهم و پردازش داده‌های زیستی می‌پردازد.^[۲]

پیش از ظهور روش‌های یادگیری ماشین در بیوانفورماتیک، الگوریتم‌های بیوانفورماتیک به صورت دست‌نویس و غیرخودکار برنامه‌نویسی می‌شدند، که برای مسائلی مانند پیش‌بینی ساختار پروتئین بسیار دشوار بوده‌است. روش‌هایی در یادگیری ماشین مانند یادگیری عمیق به الگوریتم این اجازه را می‌دهد که از روی ویژگی‌های اولیهٔ دادهٔ ورودی ویژگی‌هایی پیچیده‌تر را برای به‌کارگیری در الگوریتم یادگیری بسازد. این نوع سیستم‌ها با داشتن حجم بزرگی از داده برای یادگیری می‌توانند پیش‌بینی‌های کاملاً پیچیده‌ای را انجام دهند. در سال‌های اخیر حجم داده‌های زیستی به شدت افزایش یافته‌است، که این موضوع استفاده از سیستم‌های گفته شده را برای پژوهشگران بیوانفورماتیک میسر می‌کند.^[۲]

یادگیری ماشین در شش شاخه از زیست‌شناسی مورد استفاده قرار می‌گیرد. این شاخه‌ها عبارتند از: ژنومیک، پروتئومیک، ریزآرایه، زیست‌شناسی دستگاه‌ها، تکامل و متن‌کاوی.

زیرشاخه‌هایی از بیوانفورماتیک که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود.^[۱]

وظایف

الگوریتم های یادگیری ماشین در بیوانفورماتیک را می توان برای پیش بینی، طبقه بندی و انتخاب ویژگی استفاده کرد. روش های دستیابی به این وظیفه متنوع است و بخش های گسترده ایی را در بر می گیرد. شناخته شده ترین آنها یادگیری ماشین و آمار است. هدف الگوریتم های طبقه‌بندی و پیش‌بینی، ساخت مدل‌هایی است که کلاس‌ها یا مفاهیم را برای پیش‌بینی آینده توصیف و متمایز می‌کنند. تفاوت بین آنها به شرح زیر است:

الگوریتم های مربوط به طبقه‌بندی/تشخیص، یک کلاس طبقه‌بندی را خروجی می‌دهند، در حالی که الگوریتم های پیش‌بینی یک ویژگی با ارزش عددی را خروجی می‌دهد.
نوع الگوریتم یا فرآیندی که برای ساخت مدل های پیش بینی از داده ها با استفاده از قیاس ها، قوانین، شبکه های عصبی، احتمالات و/یا آمار استفاده می شود.

با توجه به رشد تصاعدی فناوری‌های اطلاعات و مدل‌های کاربردی از جمله هوش مصنوعی و داده‌کاوی، علاوه بر دسترسی به مجموعه‌های داده‌ای جامع‌تر، تکنیک‌های جدید و بهتری برای تجزیه و تحلیل اطلاعات بر اساس توانایی یادگیری آن‌ها ایجاد شده است. چنین مدل هایی امکان دسترسی فراتری را فراهم می کنند.

رویکردهای یادگیری ماشینی

شبکه های عصبی مصنوعی

از جمله کاربرد های شبکه های عصبی مصنوعی در بیوانفورماتیک به شرح زیر است: ^[۳]

مقایسه و همسوسازی توالی های RNA، پروتئین و DNA.
شناسایی پروموترها و یافتن ژن از توالی های مرتبط با DNA.
تفسیر بیان ژن و داده های ریز آرایه.
شناسایی شبکه (تنظیمی) ژن ها.
یادگیری روابط تکاملی با ساختن درخت فیلوژنتیکی.
طبقه بندی و پیش بینی ساختار پروتئین.
طراحی مولکولی و داکینگ.

مهندسی ویژگی

روشی که ویژگی ها، اغلب بردارها در یک فضای چند بعدی، از داده های دامنه استخراج می شوند، جزء مهمی از سیستم های یادگیری است.^[۲]

در ژنومیک، یک نمایش مرسوم از یک دنباله، استفاده از بردار فرکانس های ک تایی (k-mer) است، که برداری $4^{k}$ بعدی است که نهاده های آن تعداد وقوع هر زیر دنباله ای از طول $k$ را در یک دنباله معین می شمارند. از آنجایی که حتی برای مقداری به کوچکی $k=12$ ابعاد این بردارها بسیار بزرگ است (به عنوان مثال در این مورد از بعد $4^{12}\approx 16\times 10^{6}$ است)، تکنیک هایی مانند تحلیل مؤلفه‌های اصلی برای تصویر داده ها به فضای ابعاد پایین تر استفاده می شود و به این ترتیب، مجموعه کوچکتری از ویژگی ها از دنباله ها انتخاب می شود.^[۲]^{^{[نیازمند منبع بیشتر]}}

طبقه بندی

در طبقه بندی، خروجی مدل یک متغیر گسسته است. یکی از نمونه‌ها آن در بیوانفورماتیک، برچسب‌گذاری داده‌های ژنومی جدید (مانند ژنوم باکتری‌های غیرقابل کشت) بر اساس مدلی از داده‌های از قبل برچسب‌گذاری شده است.^[۲]

مدل مارکوف پنهان

مدل های مارکوف پنهان (HMMs) دسته‌ای از مدل‌های آماری برای داده‌های متوالی (اغلب مربوط به سیستم‌هایی که در طول زمان تکامل می‌یابند). یک HMM از دو شیء ریاضی تشکیل شده است: یک فرآیند وابسته به حالت مشاهده شده $X_{1},X_{2},\ldots ,X_{M}$ و یک فرآیند حالت مشاهده نشده (پنهان) $S_{1},S_{2},\ldots ,S_{T}$ . در یک HMM، فرآیند حالت مستقیماً مشاهده نمی‌شود - این یک متغیر "پنهان" (یا "مخفی") است - اما مشاهدات از یک فرآیند وابسته به حالت (یا فرآیند مشاهده) ساخته می‌شوند که مبتنی بر یک فرآیند حالت زیربنایی است (بنابراین می تواند به عنوان یک اندازه گیری پر سر و صدا از حالت های مورد علاقه سیستم در نظر گرفته شود). ^[۴]HMM ها را می توان در زمان پیوسته فرموله کرد..^[۵]^[۶]

HMM ها را می توان برای پروفایل و تبدیل یک هم‌ترازسازی چند توالی به یک سیستم امتیازدهی برای جستجوی پایگاه های داده برای دنباله های همولوگ از راه دور استفاده کرد. ^[۷]علاوه بر این، پدیده های اکولوژیکی را می توان با HMM ها توصیف کرد.^[۸]

شبکه عصبی پیچشی

شبکه عصبی پیچشی (CNN) کلاسی از شبکه عصبی عمیق است که معماری آن بر اساس وزن‌های مشترک کرنل های کانولوشن یا فیلترهایی است که در امتداد ویژگی‌های ورودی اسلاید می‌شوند و نقشه‌های ویژگی را ارائه می‌دهند.^[۹]^[۱۰]CNN ها از الگوی سلسله مراتبی در داده ها بهره می برند و الگوهای پیچیده را را با استفاده از الگوهای کوچکتر و ساده تری که از طریق فیلترهایشان کشف می شوند، جمع آوری می کنند. بنابراین، آنها در مقیاس اتصال پذیری و پیچیدگی پایین تر هستند.^{^{[نیازمند منبع]}}

جنگل تصادفی

جنگل های تصادفی (RF) با ساخت مجموعه ای از درخت های تصمیم عمل طبقه بندی را انجام میدهند و میانگین پیش بینی درختان را به عنوان خروجی اعلام میکنند.^[۱۱]این نوع دیگری از تجمع بوت استرپ است (که مجموعه بزرگی از درختان تصمیم را جمع می کند) و می تواند برای طبقه بندی یا رگرسیون استفاده شود.^[۱۲]^[۱۳]

از آنجایی که جنگل‌های تصادفی یک تخمین داخلی از خطای تعمیم را ارائه می‌دهند، ضرورتی به اعتبارسنجی متقابل نیست. علاوه بر این، مجاورت‌هایی تولید می‌کنند که می‌توان از آن‌ها برای انتساب به مقادیر گمشده و تجسم داده‌های جدیداستفاده کرد.^[۱۴]

از نظر محاسباتی، جنگل‌های تصادفی جذاب هستند، زیرا به طور طبیعی هم رگرسیون و هم طبقه‌بندی (چند کلاسی) را انجام می‌دهند، برای آموزش و پیش‌بینی نسبتاً سریع هستند، تنها به یک یا دو پارامتر تنظیم بستگی دارند، یک تخمین داخلی از خطای تعمیم دارند، می‌توان از آنها استفاده به طور مستقیم برای مسائل با ابعاد بالا استفاده کرد، و به راحتی می تواند به صورت موازی اجرا شود. از نظر آماری، جنگل‌های تصادفی برای ویژگی‌های اضافی، مانند اندازه‌گیری‌ اهمیت متغیر، وزن‌دهی کلاس‌های دیفرانسیل، انتساب مقدار گمشده، تجسم، تشخیص نقاط دورافتاده، و یادگیری بدون نظارت جذاب هستند.^[۱۴]

خوشه بندی

خوشه‌بندی - تقسیم‌بندی یک مجموعه داده به زیرمجموعه‌های مجزا، به طوری که داده‌های هر زیرمجموعه تا حد امکان به یکدیگر نزدیک و تا حد امکان از داده‌های هر زیرمجموعه دیگری، طبق برخی تابع فاصله یا شباهت تعریف‌شده، دورتر باشند - یک تکنیک رایج برای تجزیه و تحلیل داده های آماری است.

خوشه‌بندی برای بسیاری از تحقیقات بیوانفورماتیک که مبتنی بر داده‌ها هستند مهم میباشد و به عنوان یک روش محاسباتی قدرتمند عمل می‌کند که به موجب آن ابزارهای طبقه‌بندی سلسله مراتبی، مبتنی بر مرکز، مبتنی بر توزیع، مبتنی بر چگالی و طبقه بندی نقشه های خودسازمانده، مدت‌هاست که در یادگیری ماشین‌ کلاسیک مورد مطالعه و استفاده قرار گرفته است. به طور ویژه، خوشه بندی به تجزیه و تحلیل داده های بدون ساختار و با ابعاد بالا در قالب توالی، عبارات، متون، تصاویر و غیره کمک می کند. خوشه بندی همچنین برای به دست آوردن بینش در مورد فرآیندهای بیولوژیکی در سطح ژنومیک استفاده می شود، به عنوان مثال. عملکردهای ژن، فرآیندهای سلولی، زیرشاخه‌های سلولی، تنظیم بیان ژن و فرآیندهای متابولیک.^[۱۵]

کاربردها

ژنومیک

نمودار رشد نمایی تعداد رشته‌های WGS و GenBank. منحنی آبی مربوط به WGS و منحنی قرمز مربوط به GenBank است. GenBank یک پایگاه داده برای رشته‌های ژنوم است که توسط مرکز ملی اطلاعات زیست‌فناوری (NCBI) منتشر شده‌است.^[۱۶]

ژنومیک شامل مطالعهٔ ژنوم موجودات زنده، که رشتهٔ دی‌ان‌ای کامل آن‌ها است، می‌شود. با وجود اینکه داده‌های ژنومیک به دلیل مشکلات فنی در توالی‌یابی یک قطعه از دی‌ان‌ای در طول زمان ناقص بوده‌است، تعداد رشته‌های موجود به صورت نمایی در حال افزایش است. برخلاف افزایش نمایی این نوع از دادهٔ خام، تفسیر زیستی آن با سرعت بسیار کمتری انجام می‌شود. به این دلیل به روش‌های یادگیری ماشین برای تشخیص محل ژن‌هایی که به پروتئین ترجمه می‌شوند، روی آورده می‌شود. این مسئله به مسألهٔ ژن‌یابی معروف است.

علاوه بر مسألهٔ ژن‌یابی، روش‌های یادگیری ماشین در مسألهٔ هم‌ترازسازی چند توالی نیز استفاده می‌شود. در این مسئله، تعداد زیادی رشتهٔ دی‌ان‌ای یا اسید آمینه به منظور یافتن نواحی مشابه هم‌ترازسازی می‌شوند. این نواحی مشابه می‌توانند نشان‌دهندهٔ اطلاعاتی در مورد پیش‌زمینهٔ تکاملی این رشته‌ها باشند.^[۲]

پروتئومیک

پروتئین‌ها که رشته‌هایی متشکل از اسید آمینه‌ها هستند، بخش بزرگی از کارایی و عملکرد خود را از تاشدگی می‌گیرند که به آن‌ها ساختاری سه‌بعدی می‌دهد. این ساختار شامل ۴ لایه که به آن‌ها ساختار اول تا چهارم گفته می‌شود، می‌شود. ساختار اولیهٔ پروتئین نشان‌دهندهٔ توالی اسید آمینه‌ها است و ساختار دوم آن شامل مارپیچ‌های آلفا و صفحات بتا می‌شود.

از آن‌جایی که ساختارهای سوم و چهارم وابستگی زیادی به ساختار دوم دارند، در زیرشاخهٔ پروتئومیک توجه زیادی به ساختار دوم می‌شود. به دست آوردن ساختار کامل و دقیق پروتئین فرایندی بسیار پیچیده و زمان‌گیر است. پیش از استفاده از روش‌های یادگیری ماشین، پژوهشگران سیستم‌های پیش‌بینی ساختار پروتئین را به صورت دستی پیاده‌سازی می‌کردند. امروزه روش‌های یادگیری ماشین با به دست آوردن خودکار ویژگی‌های داده به دقت ۸۴٪-۸۲ رسیده‌اند. در حال حاضر الگوریتم سرآمد در حوضهٔ پیش‌بینی ساختار دوم از سیستمی به نام DeepCNF استفاده می‌کند که بر اساس مدل شبکهٔ عصبی مصنوعی، به دقت ۸۴٪ در دسته‌بندی اسید آمینه‌های یک رشتهٔ پروتئین به دسته‌های مارپیچ، صفحه و سیم‌پیچ رسیده‌است. از لحاظ تئوری، حداکثر دقت قابل دستیابی در این مسئله برابر ۹۰٪-۸۸ است.

روش‌های یادگیری ماشین در مسئله‌های دیگری مانند پیش‌بینی زنجیر جانبی و مدل کردن خمیدگی‌های پروتئین نیز استفاده می‌شوند.^[۲]

ریزآرایه

ریزآرایه یکی از انواع آزمایشگاه روی تراشه است که برای جمع‌آوری داده از مواد زیستی با مقدار بالا استفاده می‌شود. یادگیری ماشین می‌تواند در آنالیز این نوع داده کمک کند و در مواردی مانند مشخص کردن الگوهای بیان ژن‌ها، دسته‌بندی و استنتاج از شبکه‌های ژنتیکی مورد استفاده قرار گیرد.

این تکنولوژی به‌طور ویژه برای نظارت بر بیان ژن‌های یک ژنوم به منظور تشخیص انواع مختلف سرطان استفاده می‌شود. یکی از مهمترین مسئله‌ها در این عرصه تشخیص ژن‌هایی است که بیان شده‌اند. حجم بالای داده و وجود داده‌های بی‌ربط، این مسئله را سخت‌تر می‌کند. روش‌های دسته‌بندی در یادگیری ماشین مانند شبکهٔ تابع پایه شعاعی، یادگیری عمیق، دسته‌بندی‌کنندهٔ بیزی، درخت تصمیم و جنگل تصادفی در این مسئله استفاده می‌شوند.^[۲]

زیست‌شناسی دستگاه‌ها

زیست‌شناسی دستگاه‌ها به بررسی رفتارهای شدید فعل و انفعالات پیچیده در بین اجزاء سادهٔ زیستی می‌پردازد. چنین اجزائی می‌توانند شامل مولکول‌هایی مانند دی‌ان‌ای، آران‌ای، پروتئین‌ها و متابولیت‌ها شوند.

یادگیری ماشین در مدل کردن فعل و انفعالات پیچیده در سیستم‌هایی مانند شبکه‌های ژنتیکی، شبکه‌های انتقال سیگنال و مسیرهای متابولیکی به کار می‌آید. مدل‌های گرافیکی احتمالاتی یکی از پرکاربردترین روش‌ها در مدل کردن شبکه‌های ژنتیکی هستند. علاوه بر این از روش بهینه‌سازی زنجیره مارکوف نیز در مسئله‌هایی مانند تشخیص نواحی اتصال فاکتور رونویسی استفاده می‌شود. الگوریتم‌های ژنتیکی که روش‌هایی بر اساس روند طبیعی تکامل هستند در مدل کردن شبکه‌های ژنتیکی و ساختارهای تنظیم‌کننده مورد استفاده قرار می‌گیرند.

کاربردهای دیگر یادگیری ماشین در زیست‌شناسی دستگاه‌ها عبارتند از: پیش‌بینی عملکرد آنزیم‌ها، آنالیز دادهٔ ریزآرایه‌های توان بالا و پیش‌بینی عملکرد پروتئین.^[۲]

تکامل

در علم تکامل، به خصوص در بازسازی درخت تبارزایی نیز از روش‌های یادگیری ماشین استفاده می‌شود. درخت تبارزایی درختی است که نشان‌دهندهٔ روابط تکاملی در میان انواع مختلف گونه‌های زیستی، بر اساس شباهت ژنتیکی آن‌ها است. یک دسته از روش‌های مورد استفاده برای یافتن گونه‌هایی که از لحاط ژنتیکی به یکدیگر نزدیک هستند، روش‌های خوشه‌بندی از جمله k-medoids ،k-means و DBSCAN هستند. در بین این روش‌ها، DBSCAN دقت و سرعت بیشتری در خوشه‌بندی داده‌های ژنتیکی دارد.^[۱۷] علاوه بر این روش‌ها، از روش‌های یادگیری عمیق مانند شبکه‌های عصبی پیچشی نیز استفاده می‌شود.^[۱۸]

متن‌کاوی

با افزایش تعداد نشریات زیست‌شناسی جستجو و جمع‌آوری اطلاعات در مورد موضوعی خاص به امری دشوار تبدیل شد. به این امر استخراج دانش گفته می‌شود. جمع‌آوری اطلاعات از تمامی منابع موجود در مورد داده‌های زیستی بسیار مهم است چرا که این اطلاعات در ادامه می‌توانند به تولید دانش زیستی جدید با استفاده الگوریتم‌های یادگیری ماشین کمک کنند. برای استخراج دانش از گزارش‌هایی که به دست انسان تولید شده‌اند، می‌توان از روش‌های پردازش زبان طبیعی استفاده کرد.^[۲]

سایر کاربردها

مثالی از مسألهٔ بخش‌بندی هستهٔ سلول. در این تصویر مرزهای هسته‌ها و ناحیهٔ مربوط به هر هسته مشخص شده‌است.^[۱۹]

یکی از زیرشاخه‌هایی که روش‌های یادگیری ماشین در آن نقش مهمی دارند آنالیز تصاویر زیستی است. در این زیرشاخه به طراحی روش‌هایی برای آنالیز محاسباتی تصاویر زیستی پرداخته می‌شود. به صورت مرسوم، آنالیز تصاویر زیستی به دست خود انسان انجام می‌شود. این روش کند و پرهزینه است و نتیجهٔ آن وابسته به شخصی است که تصاویر را آنالیز می‌کند. علاوه بر این، میکروسکوپ‌های خودکار مدرن قادر به تولید صدها تا هزاران تصویر در هر ساعت هستند، که آنالیز دستی این تصاویر را غیرممکن می‌کند. به همین دلیل از روش‌های بینایی ماشین و تشخیص الگو در آنالیز تصاویر زیستی کمک گرفته می‌شود. یکی از بزرگترین زیرمجموعه‌ها از تصاویر زیستی که به آنالیز خودکار نیاز دارد، تصاویر میکروسکوپ‌های فلئورسانس است. برای این گروه از تصاویر، مسئله‌های بخش‌بندی سلول‌ها، دسته‌بندی واکنش‌های فنوتیپی و تصمیمات مربوط به واکنش‌های مشتق از آن، به‌طور معمول مطرح می‌شوند.^[۲۰]

از زیرشاخه‌های دیگری که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود می‌توان به طراحی پرایمر، آنالیز داده‌های طیف‌سنج جرمی و ترجمهٔ معکوس پروتئین‌ها اشاره کرد.

موضوعات مرتبط

منابع

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

Search