الگوریتم AlphaFold: راهکاری برای چالش 50 ساله‌ی زیست‌شناسی

تیم تحریریه
۴ مرداد ۱۴۰۰

زمان مطالعه: 8 دقیقه

پروتئین‌ها عنصری ضروری برای حیات و زیربنای تمامی کارکردهای آن هستند. پروتئین‌ها مولکول‌های بزرگ و پیچیده‌ای هستند که از زنجیره‌های آمینواسید ساخته شده‌اند. کار این مولکول‌ها عمدتاً توسط ساختار سه‌بُعدی خاص آن‌ها تعیین می‌شود. شناخت شکل تاخوردگی مولکول پروتئین به عنوان «مسئله‌ی تاخوردگی پروتئین Protein folding problem» شناخته می‌شود؛ نزدیک 50 سال است که این مسئله از چالش‌های عظیم حوزه‌ی زیست‌شناسی به شمار می‌رود. ما در جدیدترین نسخه‌ی سیستم هوش مصنوعی خود به نام الگوریتم AlphaFold به پیشرفت علمی بزرگی دست یافتیم. بنیان‌گذاران انجمن CASP (ارزیابی بنیادین پیش‌بینی ساختار پروتئین Critical Assessment of protein Structure Prediction) این سیستم را راهکاری برای این چالش بزرگ دانسته‌اند. این کشف عظیم حاکی از تأثیرگذاری هوش مصنوعی بر روی کشفیات علمی و نشان‌دهنده‌ی ظرفیت این حوزه در تسریع چشمگیر علوم پایه‌ای است که جهان ما را شکل داده و معنا بخشیده‌اند.

شکل یک پروتئین با کارکرد (وظیفه‌ی) آن ارتباطی نزدیک دارد و زمانی که بتوانیم ساختار پروتئین را پیش‌بینی کنیم، درکی جامع از چیستی و چگونگی کار آن به دست می‌آوریم. بسیاری از چالش‌های بزرگ دنیا، همچون یافتن درمان برای بیماری‌ها یا کشف آنزیم‌هایی که ضایعات صنعتی را کاهش ‌می‌دهند، رابطه‌ای تنگاتنگ با پروتئین‌ها و وظایف آن‌ها دارند.

پروفسور جان مالت، یکی از بنیان‌گذاران و رئیس هیأت مدیره‌ی CASP دانشگاه مریلند، می‌گوید: « نزدیک 50 سال این سؤال ذهن دانشمندان را به خود مشغول کرده است که پروتئین‌ها چگونه تا می‌خورند؟ به عنوان کسی که مدت زمان زیادی را صرف این مسئله کرده‌ام، یافتن راهکاری توسط شرکت DeepMind، لحظه‌ای به یاد ماندنی به شمار می‌رود. »

این کار حاصل سال‌ها پژوهش‌ گسترده‌ی علمی در حوزه‌ی مطالعه و تعیین ساختار پروتیئن‌ها با استفاده از تکنیک‌های تجربی گوناگون، همچونرزونانس مغناطیسی هسته‌ای Nuclear Magnetic Resonance (MNR) و بلورنگاری اشعه‌ایکس X-Ray Crystallography، بوده است. تکنیک‌ها و روش‌های جدیدتر مثل میکروسکوپ الکترونی کرایو Cryo-electron microscopy بر عملیات آزمون و خطا تکیه دارند که برای تعیین هر ساختار نیازمند سال‌ها زحمت و کار سخت و تجهیزات تخصصی چندین میلیون دلاری هستند.

فهرست مقاله پنهان

1 مسئله‌ی تاخوردگی پروتئین

2 ویدئو توضیح تاشدگی پروتئین‌ها

3 یافته‌های ارزیابی CASP14

4 ویدئو سیستم هوش مصنوعی آلفافولد: پیشرفتی غیرمنتظره برای علم

5 میانه میزان دقت مدلسازی آزاد

6 رویکرد ما در مقابل مسئله‌ی تاشدگی پروتئین

7 تأثیرات این مدل بر دنیای واقعی

8 کشف قابلیت‌های جدید

مسئله‌ی تاخوردگی پروتئین

کریسشن انفینزن در سخنرانی معروف خود پس از دریافت جایزه‌ی نوبل شیمی در سال 1972 بیان کرد که «به صورت نظری، توالی آمینواسیدهای یک مولکول پروتئین، ساختار پروتئین را به صورت کامل تعیین می‌کند.» این فرضیه نقطه‌ی آغاز تلاشی 50 ساله برای پیش‌بینی ساختار سه‌بُعدی پروتئین‌ها از طریق محاسبات و تنها با استفاده از توالی یک‌بُعدی آمینواسیدی، به جای روش‌های تجربی زمان‌بر و گران‌قیمت بود. با این حال یک چالش بزرگ وجود داشت: به صورت نظری، تعداد حالت‌های ممکن برای تاشدگی یک پروتئین قبل از قرارگیری در ساختار سه‌بُعدی نهایی، بی‌شمار است. سایرس لوینتال Cyrus Levinthal در سال 1960 به این نکته اشاره کرد که شمردن همه‌ی ترکیبات احتمالی یک پروتئین ساده به زمانی بیشتر از عمر هستی نیاز خواهد داشت؛ طبق برآورد وی ترکیب احتمالی برای یک پروتئین ساده وجود دارد. این درحالی است که در طبیعت، پروتئین‌ها به صورت خودبه‌خودی، بعضاً طی یک‌هزارم ثانیه تا می‌خورند. از این دوگانگی گاهی به عنوان پارادوکس لوینتال Levinthal’s paradox یاد می‌شود.

ویدئو توضیح تاشدگی پروتئین‌ها

یافته‌های ارزیابی CASP14

در سال 1994، پروفسور جان مالت و پروفسور کریستوف فیدلیس انجمن CASP را بنیان‌گزاری کردند؛ این انجمن یک مرکز ارزیابی است که مأموریتش کاتالیز پژوهش‌ها، نظارت بر پیشرفت و احراز آخرین کشفیات در مورد پیش‌بینی ساختار پروتئین است. CASP را می‌توان یک استاندارد طلایی برای ارزیابی تکنیک‌های پیش‌بینی و همچنین یک انجمن جهانی منحصر به فرد دانست که بر اساس تلاشی مشترک بنا شده است. CASP آخرین و جدیدترین ساختارهای پروتئین (برخی از این ساختارها در زمان ارزیابی هنوز در انتظار تأیید بودند) را که به صورت تجربی تعیین شده‌اند، انتخاب می‌کند تا تیم‌ها برای آزمون روش‌های پیش‌بینی ساختار که طراحی کرده‌اند، به کار ببرند (مقایسه‌ی ساختارهایی که توسط مدل‌های هوش مصنوعی پیش‌بینی می‌شود با ساختارهایی که در طرح‌های آزمایشی تعیین می‌شود). شرکت‌کنندگان باید ساختار پروتئین‌ها را به صورت کورکورانه پیش‌بینی کنند؛ سپس این پیش‌بینی‌ها با داده‌های آزمایشی حقیقت‌پایه مقایسه می‌شوند. ما این کشف عظیم را وام‌دار مؤسسان و همگی اعضای CASP و آزمایشگرانی هستیم که ساختارهایشان چنین ارزیابی دقیقی را میسر کرده‌اند.

ویدئو سیستم هوش مصنوعی آلفافولد: پیشرفتی غیرمنتظره برای علم

معیار اصلی که CASP برای اندازه‌گیری میزان دقت پیش‌بینی‌ها به کار می‌برد GDT یا آزمون فاصله‌ی کلی است که می‌تواند بین 0 تا 100 باشد. به بیان ساده، GDT را می‌توان درصد باقیمانده‌های آمینواسید (اجزای زنجیره‌ی پروتئین) در یک فاصله‌ی آستانه‌ای از موقعیت درست دانست. طبق سخنان پرفسور مالت، ساختاری که نمره حدود 90 در GDT به دست آورد را می‌توان به صورت غیررسمی قابل مقایسه با نتایج روش‌های تجربی درنظر گرفت.

یافته‌های چهاردهمین ارزیابی CASP نشان می‌دهند میانه‌ی نمراتی که آخرین نسخه‌ی سیستم AlphaFold در GDT در بین اهداف (نمونه‌های پیش‌بینی) گوناگون به دست آورده برابر با 92.4 است. این بدین معنی است که میانگین خطای پیش‌بینی‌های ما (RMSD) حدود 1.6 آنگستروم Angstroms ، یعنی چیزی حدود عرض یک اتم (یا 0.1 یک نانومتر) می‌باشد. AlphaFold حتی برای سخت‌ترین پروتئین‌های هدف (آن‌هایی که در چالش‌برانگیزترین دسته‌ی مدلسازی آزاد Free-modelling قرار می‌گیرند) نیز میانه‌ی نمرات 87.0 را به دست می‌آورد(داده‌ها در این لینک موجود هستند).

میانه میزان دقت مدلسازی آزاد

الگوریتم AlphaFold — روند تغییرات میانه‌ی 5 نمره‌ی برتر بهترین تیم CASP در معیار GDT که نشان‌دهنده‌ی میزان دقت پیش‌بینی‌های دسته‌ی مدلسازی آزاد است.

با این نتایج امیدوارکننده می‌توان پیش‌بینی ساختار از طریق محاسبات را یکی از ابزارهای اصلی در پژوهش‌های علمی برای زیست‌شناسان درنظر گرفت. یکی از مزایای روش‌های ما مربوط به دسته‌های مهمی از پروتئین‌ها (مثل پروتئین‌های غشاء) می‌شود که متبلورسازی‌ و در نتیجه تعیین ساختارشان به صورت تجربی کار دشوار و چالش‌برانگیزی است.

پروفسور ونکی راماکریشنان Venki Ramakrishnan، از برندگان نوبل و رئیس Royal Society، می‌گوید: «این محاسبات پیشرفتی عظیم در مسئله‌ی تاشدگی پروتئین، این چالش بزرگ و قدیمی زیست‌شناسی، به شمار می‌روند. تحولاتی که این روش در تحقیقات زیست‌شناسی به وجود خواهد آورد، دیدنی خواهد بود.»

رویکرد ما در مقابل مسئله‌ی تاشدگی پروتئین

در سال 2018، ما با نسخه‌ی اولیه‌ی الگوریتم AlphaFold وارد رقابت‌های CASP13 شدیم و به بالاترین میزان دقت در میان شرکت‌کنندگان دست یافتیم. بعد از آن در مورد روش‌های ارزیابی‌شده در CASP13 مقاله‌ای در ژورنال Nature منتشر کردیم که کد را هم به همراه داشت؛ این مقاله الهام‌بخش کارهای پژوهشی و کاربردی متن‌باز دیگری بود که توسط انجمن طراحی شدند. معماری‌های جدید یادگیری عمیقی که طراحی کرده‌ایم، محرکه‌ی تغییر در روش‌های به کاررفته در CASP14 بوده‌اند و ما را قادر می‌سازند به دقتی بی‌همتا دست پیدا کنیم. این روش‌ها از حوزه‌های زیست‌شناسی، فیزیک و یادگیری ماشینی، و البته کارهای فراوانی که طی نیم‌قرن گذشته توسط دانشمندان در زمینه‌ی تاشدگی پروتئین انجام شده‌، الهام گرفته‌اند.

یک پروتئین تاشده را می‌توان به عنوان یک «نمودار فضایی Spatial graph» در نظر گرفت که در آن باقیمانده‌ها گره‌ها هستند و لبه‌ها باقیمانده‌ها را در فواصل نزدیک به هم متصل می‌کنند. این نمودار برای درک تعاملات فیزیکی درون پروتئین‌ها و تاریخچه‌ی تحولی آن‌ها مهم است. در آخرین نسخه‌ی الگوریتم AlphaFold که در CASP14 استفاده شد، یک سیستم شبکه‌ی عصبی توجه‌محور ساختیم که به صورت نقطه‌به‌نقطه آموزش دیده و سعی می‌کند ساختار آن نمودار را تفسیر کند و در عین حال در مورد نمودار ضمنی (که ساختار است) استدلال نماید. این سیستم از توالی‌های مرتبط با روند تحولی، MSA (هم‌ترازسازی چند توالی Multiple sequence alignment ) و یک بازنمایی از جفت‌باقیمانده‌های آمینواسیدها برای پالایش نمودار استفاده می‌کند.

سیستم با تکرار این فرآیند، پیش‌بینی‌هایی دقیق در مورد ساختار فیزیکی زیربنایی پروتئین تولید می‌کند و می‌تواند ساختار پروتئین‌ها را به طور بسیار دقیق و تنها طی چندروز تعیین کند. علاوه بر این‌ها، AlphaFold قادر است با استفاده از یک معیار اطمینان درونی پیش‌بینی کند کدام قسمت‌ها از ساختار پیش‌بینی‌شده‌ قابل اتکا (معتبر) هستند.

ما این سیستم را با استفاده از یک دیتاست عمومی شامل حدود 170000 ساختار پروتئین که از بانک داده‌های پروتئینی Protein data bank و پایگاه‌های داده‌ای بزرگ (که توالی‌های پروتئینی از ساختارهای ناشناخته را در بردارند) گرفته شدند، آموزش دادیم. این سیستم تقریباً از شانزده TPUv3 (TPUv3 128هسته‌ای که حدوداً برابر با 100-200 GPU است) استفاده می‌کند و اجرای آن بیشتر از چند هفته طول می‌کشد، که در مقایسه با حجم محاسباتی موردنیاز در بیشتر مدل‌های بزرگ موجود در یادگیری ماشینی، حجم محاسباتی نسبتاً خوبی به شمار می‌رود. همچون سیستمی که در CASP13 استفاده کردیم، این بار هم در حال نگارش یک مقاله برای یک ژورنال داوری شده مناسب هستیم.

تأثیرات این مدل بر دنیای واقعی

ده سال پیش که شرکت DeepMind تأسیس شد، امیدوار بودیم روزی فرا برسد که کشفیات حوزه‌ی هوش مصنوعی بتواند زمینه‌ی حل مسائل پیشرفته‌ی علوم پایه را فراهم کند. حال، بعد از 4 سال تلاش برای ساخت AlphaFold، میتوانیم شاهد محقق شدن این هدف و کمک به حوزه‌هایی همچون ساخت دارو و حفظ محیط زیست باشیم.

پروفسور آندری لوپاس Andrei Lupas، مدیر مؤسسه‌ی زیست‌شناسی رشدی مکس پلانک Max Planck Institute for Developmental Biology و یکی از ارزیابان CASP معتقد است: « مدل‌های بسیار دقیق AlphaFold ما را قادر ساخته‌اند ساختار یک پروتئین را که نزدیک به یک دهه نامعلوم بوده، پیش‌بینی کرده و نهایتاً درک کنیم که سیگنال‌ها چگونه در سطح غشاءهای سلولی منتقل می‌شوند. »

ما در مورد تأثیرات احتمالی AlphaFold روی پژوهش‌های زیست‌شناسی و دنیای واقعی، خوش‌بین هستیم و مشتاقیم با همکاری دیگران ظرفیت‌های آتی آن را کشف کنیم. همزمان با کار روی مقاله‌ی مذکور، به دنبال این هستیم که امکان دسترسی گسترده را به این سیستم مهیا نماییم.

در حال حاضر با همکاری چندین گروه از متخصصان، در حال مطالعه‌ی کابرد پیش‌بینی ساختار پروتئین‌ها در شناخت بیماری‌های خاص هستیم، مثلاً این‌که به ما کمک می‌کند پروتئین‌هایی که کژکارکردی داشته‌اند را تشخیص داده و در مورد نحوه‌ی تعامل آن‌ها استدلال کنیم. علم به این نکات ما را قادر می‌سازد در طراحی دارو دقیق‌تر عمل کنیم و بدین ترتیب به مکملی برای روش‌های تجربی موجود دست یابیم که به سرعت به درمان‌های امیدوارکننده می‌رسد.

به گفته‌ی دکتر آرتور دی‌لوینسون Arthur D. Levinson، مؤسس و مدیرعامل Calico، رئیس هیأت مدیره‌ و مدیرعامل سابق Genetech، سیستم AlphaFold پیشرفتی تاریخی و منحصر به فرد است که ساختار پروتئین‌ها را با سرعت و دقت عالی پیش‌بینی می‌کند. این گام رو به جلو به ما نشان می‌دهد روش‌های محاسباتی آماده‌ی تغییر تحقیقات زیست‌شناسی هستند و چشم‌انداز امیدوارکننده‌ای برای فرآیند کشف دارو پیش رو قرار می‌دهند.

برخی از نشانه‌های مشاهده‌شده نیز ما را بر این باور داشته که پیش‌بینی ساختار پروتئین می‌تواند در مدیریت پاندمیک‌های آینده مفید باشد و به عنوان یکی از ابزارهای متعددی که توسط جامعه‌ی دانشمندان ساخته شده، مورد استفاده قرار گیرد. اوایل سال جاری چندین ساختار پروتئین (از جمله ORF3a) از ویروس SARS-CoV-2 پیش‌بینی کردیم که پیش از آن ناشناخته بودند. در CASP14 نیز یک ساختار پروتئینی دیگر (ORF8) از ویروس کرونا پیش‌بینی کردیم. اکنون کارهای بسیار سریع آزمایشگران ساختارهای ORF3a و ORF8 را تأیید کرده است. ما توانستیم با وجود ذات چالش‌برانگیز کار و در دست داشتن توالی‌های بسیار معدود، (در مقایسه با ساختارهایی که به صورت تجربی تعیین شده بودند) به سطح بالایی از دقت در هردو پیش‌بینی خود دست یابیم.

امیدواریم این تکنیک‌ها، علاوه بر شتاب‌بخشی به درکی که از بیماری‌های شناخته‌شده داریم، در جستجوی صدها میلیون پروتئینی که هنوز مدلی برایشان نداریم (و حوزه‌ای وسیع از زیست‌شناسی را تشکیل می‌دهند) نیز به ما کمک کنند. از آنجایی که DNA توالی آمینواسیدها را (که ساختار پروتئین‌ها را تشکیل می‌دهند) مشخص می‌کند، تحولات حوزه‌ی ژنومیک امکان خواندن توالی پروتئین‌های دنیای واقعی در مقیاس‌های بزرگ (180 میلیون توالی پروتئینی در پایگاه داده جهانی پروتئینی Universal Protein Database یا UniProt) را فراهم آورده است. از سوی دیگر با توجه به کار تجربی موردنیاز برای تشخیص ساختار از روی توالی‌ها، تنها حدود 170000 ساختار پروتئینی در بانک داده پروتئین Protein Data Bank (PDB) قرار دارد. ممکن است برخی از این پروتئین‌های تعیین‌نشده کارکردی جدید و جذاب داشته باشند و AlphaFold، همچون تلسکوپی که به ما کمک می‌کند نگاهی عمیق‌تر به جهان ناشناخته‌ها داشته باشیم، ما را در یافتن این کارکردها و ویژگی‌ها یاری می‌کند.

کشف قابلیت‌های جدید

الگوریتم AlphaFold یکی از چشمگیرترین پیشرفت‌هایی است که تاکنون حاصل شده و همچون هر پژوهش علمی دیگری، هنوز سؤالاتی بدون پاسخ دارد. همه‌ی ساختارهایی که با این مدل پیش‌بینی می‌کنیم عالی نیستند. هنوز چیزهای زیادی برای یادگیری وجود دارند، از جمله این‌که پروتئین‌ها چطور ترکیبات را شکل می‌دهند، تعاملشان با DNA، RNA و مولکول‌های کوچک چگونه است و چطور می‌توان موقعیت مکانی همه‌ی زنجیره‌های آمینواسیدی جانبی را تشخیص داد. امیدواریم با همکاری سایرین این را هم بیاموزیم که چگونه می‌توان برای طراحی داروهای جدید، روش‌هایی نوین برای مدیریت محیط‌زیست و موارد مشابه، به بهترین نحو ممکن از کشفیات علمی بهره برد.

برای همه‌ی افرادی که روی روش‌های محاسباتی و یادگیری ماشینی در علم کار می‌کنند، سیستم‌هایی همچون الگوریتم AlphaFold نمایانگر پتانسیل خارق‌العاده‌ی هوش مصنوعی به عنوان ابزاری برای کمک به کشفیات بنیادین است. همانطور که آنفینسن 50 سال قبل چالشی را مطرح کرد که بسیار فراتر از محدوده‌ی علم آن زمان بود، در حال حاضر نیز جنبه‌های فراوانی از جهان اطراف ما وجود دارد که ناشناخته باقی مانده است. پیشرفتی که امروزه به آن دست یافتیم به ما اطمینان بیشتری می‌بخشد که هوش مصنوعی به یکی از مفیدترین ابزارها برای پیش‌برد دانش تبدیل خواهد شد و باید آماده‌ی سال‌ها تلاش سخت و کشفیات جدید باشیم.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید.

https://hooshio.com/?p=8129

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا