LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها

تیم تحریریه
۱۴ تیر ۱۴۰۱

زمان مطالعه: 5 دقیقه

LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها شناخته می‌شود که توسط پژوهشگران مؤسسه ملی استاندارد و فناوری (NIST) ساخته شده است‌. این ابزار به فرآیند پیچیده‌ تغییر پروتئین‌ها کمک می‌کند و امکان تفسیرپذیری را در سراسر این فرآیند فراهم می‌آورد. همین نکته باعث شده است ابزار جدید نسبت به ابزارهای قدیمی هوش مصنوعی که در مهندسی پروتئین به کار می‌رفتند، برتری داشته باشد.

LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها است که در طیفی از مسائل گوناگون، از تولید سوخت‌های زیستی گرفته تا بهبود محصولات زراعی و توسعه درمان‌های جدید، کاربرد دارد. پروتئین‌ها واحد زیربنایی زیست‌شناسی هستند و مؤلفه‌ کلیدی تمام مسائل مذکور به شمار می‌روند. با این حال، علی‌رغم سهولت نسبی تغییر رشته‌ DNA که بلوپرینت ساخت پروتئین‌هاست، به سختی می‌توان تعیین کرد کدام جفت از مولکول‌های روی نردبان DNA اثر مدنظر را تولید می‌کنند. پیدا کردن این کلیدها در قلمروی وظیفه‌ شبکه‌های عصبی عمیق (DNN) قرار می‌گیرد که با وجود کارآمدی، مبهم عمل می‌کنند.

همان‌طور که مقاله‌ پژوهشگران (ژورنال Proceedings of the National Academy of Sciences) توضیح می‌دهد، LANTERN توانسته است تغییرات ژنتیکی لازم برای دست‌کاری سه مولکول پروتئین مختلف را پیش‌بینی کند. یکی از پروتئین‌ها، پروتئین سطح ویروس کرونا بود. متخصصان شیوع‌شناسی می‌توانند با درک تأثیر تغییرات DNA بر این پروتئین، آینده‌ همه‌گیری را پیش‌بینی کنند. دو پروتئین دیگر عبارت‌اند از پروتئین لاسی (سرکوب‌گر) باکتری ای‌کولای و پروتئین فلورسانت سبز (GFP) که به عنوان مارکر در آزمایشات زیستی به کار می‌رود. پژوهشگران توانستند با تکیه بر نتایج حاصل از این سه پروتئین، کارکرد و تفسیرپذیری نتایج ابزار جدید را بسنجند. تفسیرپذیری به ویژه در صنعت اهمیت می‌یابد، چون به درک افراد از سیستم کمک می‌کند. نتایج این تحقیقات باعث شده LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها، محسوب شود.

پیتر تونر، متخصص آمار و زیست‌شناسی NIST و سرپرست تیم توسعه‌دهنده لنترن، توضیح می‌دهد: «باور عموم بر این است که تفسیرپذیری و عملکرد با یکدیگر ناسازگارند و رابطه‌ معکوس دارند. اما ما نشان دادیم که گاهی هم می‌توان این دو را کنار یکدیگر داشت؛ چون رویکرد جدید کاملاً تفسیرپذیر است و این تفسیرپذیری به قدرت پیش‌بینی آن هیچ آسیبی نرسانده است.»

مسئله‌ای را که پژوهشگران NIST هدف قرار داده‌اند، شاید بتوان به کار با ماشین پیچیده‌ای تشبیه کرد که یک صفحه‌کنترل بزرگ با هزاران کلید بدون برچسب دارد؛ DNA و ژن که رمز پروتئین را تشکیل می‌دهند حکم این ماشین پیچیده را دارند و کلیدها نیز همان جفت‌ مولکول‌های روی رشته‌ DNA هستند. کلیدها بر خروجی دستگاه تأثیر می‌گذارند، پس برای تغییر کارکرد ماشین، باید بدانیم کدام کلیدها را فشار دهیم.

برای پاسخ‌دهی به این سؤال باید چندین جفت از مولکول‌ها را تغییر داد و نتیجه را ارزیابی کرد؛ سپس ترکیب جدیدی از این جفت‌ها را انتخاب و مجدداً نتیجه را اندازه گرفت. بدین ترتیب، تعداد جایگشت‌های موجود در این فرآیند به طرز سرسام‌آوری بالاست.

تونر می‌گوید: «تعداد ترکیبات بالقوه‌ می‌تواند از تعداد اتم‌های موجود در کل جهان هستی هم پیشی بگیرد. به همین خاطر، هرگز نمی‌توان همه‌ احتمالات را محاسبه کرد.»

با توجه به شمار بالای داده‌های موجود، DNNها وظیفه‌ جست‌وجو در میان داده‌ها و پیش‌بینی «کلیدها» یا همان مؤلفه‌های لازم را بر عهده داشته‌اند. DNNها در این امر موفق عمل کرده‌اند، اما فرآیندی که طی آن به پاسخ رسیده‌اند مبهم است؛ به همین خاطر است که این شبکه‌ها را به نام «جعبه‌ی سیاه» می‌خوانند، چون کارکرد داخلی‌شان مشهود نیست.

دیوید راس، فیزیک‌دان NIST و یکی از نویسندگان مقاله، معتقد است: «درک شیوه‌ کار DNNها بسیار دشوار است. این مشکل زمانی برجسته‌تر می‌شود که قرار باشد از خروجی آن‌ها برای مهندسی یک چیز جدید استفاده کنیم.»

LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌هاست که طراحی قابل درکی دارد. بخشی از توضیح‌پذیری این مدل ناشی از به‌کارگیری پارامترهای تفسیرپذیر برای بازنمایی داده‌ها است. به بیان دیگر، بر خلاف DNNها، هریک از پارامترهای به‌کاررفته در محاسبات LANTERN هدف مشخصی دارند. به همین دلیل، کاربران می‌توانند معنای پارامترها و تأثیرشان بر پیش‌بینی‌های نهایی را درک کنند.

LANTERN جهش‌های پروتئینی را با استفاده از بردارها که از ابزارهای پرکاربرد ریاضی هستند، نشان می‌دهد. هر بردار دو خاصیت دارد: جهت و طول؛ جهت، تأثیر جهش را نشان می‌دهد و طول، شدت اثر جهش را نشان می‌دهد. LANTERN کارکرد دو پروتئینی را که بردارهای هم‌جهت دارند، مشابه می‌داند.

جهت بردارها اغلب نشان‌گر مکانیزم‌های زیستی می‌باشد. برای مثال، LANTERN جهت مربوط به تاشدگی پروتئین در هر سه دیتاستی که پژوهشگران استفاده کردند را آموخت؛ تاشدگی نقشی حیاتی در کارکرد پروتئین‌ها ایفا می‌کند، به همین دلیل، تشخیص آن بدین معنی بود که مدل همان‌طور که باید عمل می‌کند. LANTERN برای ارائه‌ پیش‌بینی، این بردارها را با هم جمع می‌کند. عملیات به نحوی انجام می‌شود که کاربران می‌توانند آن را دنبال کنند. بنابراین LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها، به شمار می‌آید.

از آنجایی که آزمایشگاه‌های دیگر هم تا کنون از DNNها برای پیش‌بینی کلید تغییرات مفید در سه پروتئین مذکور استفاده کرده‌اند، پژوهشگران NIST تصمیم گرفتند LANTERN را بر اساس نتایج قبلی محک بزنند. بر اساس یافته‌ها، رویکرد جدید با دقتی بی‌سابقه، پیش‌بینی‌های لازم را انجام داد.

تونر می‌گوید: «LANTERN عملکردی در سطح رویکردهای مشابه از خود نشان داد و حتی از برخی از آن‌ها پیشی گرفت. در پیش‌بینی تغییرات پروتئین لاسی از همه‌ رویکردهای دیگر بهتر عمل کرد و در پیش‌بینی GFP، به جز یک مورد، عملکرد قابل‌مقایسه‌ای با سایر روش‌ها داشت. در پیش‌بینی تغییرات پروتئین ویروس کرونا نیز به جز یک مدل DNN که در سطح LANTERN عمل می‌کرد، دقتی بالاتر از خود نشان داد.»

LANTERN کلیدهایی را شناسایی می‌کند که بیشترین تأثیر ممکن را بر ویژگی‌های خاص پروتئین (همچون ثبات تاشدگی) دارند و سپس، به صورت خلاصه بیان می‌کند برای دستیابی به اثر موردنظر، کاربر باید از چه کلیدهایی استفاده کند. با استفاده از مثال قبلی می‌توان گفت که LANTERN دست‌کاری همه‌ کلیدهای روی صفحه‌ کنترل ماشین را تنها به چند دکمه خلاصه می‌کند.

راس توضیح می‌دهد: «LANTERN، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها، هزاران کلید را به چیزی حدود 5 کلید می‌رساند و می‌گوید کلید اول تغییر A و کلید دوم تغییر B را ایجاد می‌کند که از تغییر A کوچک‌تر است. بنابراین، مهندسی که با این سیستم کار می‌کند، درمی‌یابد برای خروجی مدنظرش باید از کلید اول و دوم استفاده کند.»

راجموندا کاسرس، از متخصصان آزمایشگاه لینکلن MIT، قابلیت تفسیرپذیری دستگاه را ارزشمند می‌داند و می‌گوید: «در حوزه‌ زیست‌شناسی، روش‌های هوش مصنوعی زیادی را نمی‌توان پیدا کرد که به طور مخصوص برای تفسیرپذیری طراحی شده باشند. وقتی زیست‌شناسان نتایج LANTERN را ببینند، متوجه می‌شوند چه جهش‌هایی این تغییر را در پروتئین ایجاد کرده‌اند. این سطح از تفسیرپذیری امکان انجام پژوهش‌های میان‌رشته‌ای را فراهم می‌آورد، چون زیست‌شناسان نحوه‌ یادگیری الگوریتم را می‌بینند و به اطلاعات بیشتری در مورد سیستم زیستی زیربنایی تغییرات دست می‌یابند.»

به گفته‌ تونر، علی‌رغم امیدوارکننده بودن نتایج، LANTERN را نمی‌توان علاج مشکل تفسیرپذیری هوش مصنوعی دانست. برای ایجاد هوش مصنوعی‌های قابل‌اعتماد و توضیح‌پذیر می‌بایست به صورت جدی، دنبال جایگزین‌های بالقوه برای DNNها بود.

تونر در انتها خاطرنشان می‌کند: «در بافت پیش‌بینی اثرات ژنتیکی روی کارکرد پروتئین، LANTERN اولین نمونه‌ای است که در عین تفسیرپذیری، قدرت پیش‌بینی DNNها را به چالش می‌طلبد. امیدواریم که این راهکار جدید در حوزه‌های دیگر هم کاربرد داشته و الهام‌بخش توسعه رویکردهای تفسیرپذیر جدید باشد. بدیهی است که دیگر نمی‌خواهیم هوش مصنوعی یک «جعبه‌ی سیاه» باقی بماند.» LANTERN ، ابزار آماری جدیدی برای پیش‌بینی کارکرد پروتئین‌ها، قابلیت توسعه و شناسایی حوزه‌های بیشتری از هوش مصنوعی را دارد.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید