MuZero
آموزش‌های پیشرفته هوش مصنوعیعلوم شناختیکاربردهای هوش مصنوعی

MuZero در مورد چگونگی یادگیری افراد چه چیزی به ما می‌آموزد؟

0

دیوید سیلور خالق MuZero و چندین پیشرفت خیره‌کننده هوش مصنوعی در سال­‌های اخیر است. کارهای او باعث توجه مجدد و احیای هوش مصنوعی شد که در دوره‌ای دیگر خیلی به آن توجه نمی‌شود و اصطلاحا دوره زمستان هوش مصنوعی نامیده می‌شود.

سیلور در DeepMind که یکی از زیرمجموعه‌های هلدینگ Alphabet است تکنیک‌هایی را توسعه داد که به کامپیوترها امکان می‌دهد خودشان یاد بگیرند که چگونه مشکلاتی را حل کنند که قبلاً غیرقابل حل بودند.

یکی از مشهورترین این پروژه‌ها، آلفاگو بود. برنامه‌ای که در سال ۲۰۱۷ رونمایی شد و یادگرفته بود تا بازی تخته GO را در سطح حرفه‌ای انجام دهد.

بازی Go سخت‌تر از آن بود که با استفاده از برنامه‌نویسی معمولی بتوان بر آن غلبه کرد، اما AlphaGo یاد گرفت که از طریق تمرین و پاداش مثبت پیش برود. این تکنیک هوش مصنوعی، یادگیری تقویتی نامیده می‌شود.

در سال ۲۰۱۸، سیلور و همکارانش نسخه دیگری از برنامه را با نام AlphaZero توسعه دادند که توانایی یادگیری بازی شطرنج و شوگی را به همان خبرگی Go داشت. سپس در نوامبر ۲۰۱۹، DeepMind  جزئیاتی از برنامه MuZero را منتشر کرد. این نسخه یاد گرفته بود همه این بازی‌ها و برخی بازی‌های دیگر را نیز انجام دهد اما نکته جالب توجه ابن بود که دیگر حتی از قبل نیاز نداشت که قوانین بازی را بداند.

سیلور با خبرنگار برجسته ویل نایت از طرق برنامه زوم دیدار کرد تا در مورد MuZero، یادگیری تقویتی و راز پیشرفت بیشتر در هوش مصنوعی مصاحبه کند. مشروح  این مصاحبه را در ادامه می‌خوانید.

مقاله شما درمورد MuZero در مجله Nature منتشر شده است. برای افراد غیرمتخصص توضیح دهید چرا همچین چیزی مهم است؟

نکته مهم در این مورد و گام بزرگی که با MuZero برداشت شد این است که ما به آن پویایی محیط نمی‌گوییم. درواقع خود به گونه‌ای رقم می‌خورد که بفهمد موثرترین استراتژی چیست. ما می‌خواهیم الگوریتم‌هایی داشته باشیم که در دنیای واقعی کار کنند و دنیای واقعی، پیچیده، درهم و برهم و ناشناخته است. بنابراین نمی‌توانید به دنیای واقعی مانند یک بازی شطرنج نگاه کنید. شما باید یاد بگیرید که جهان چگونه کار می‌کند.

برخی از افراد اشاره می‌کنند که در واقع اینطور نیست که MuZero، AlphaGo  و AlphaZero از صفر شروع کنند. آن‌ها از الگوریتم‌های ساخته شده توسط انسان‌های باهوش برای یادگیری نحوه انجام یک کار خاص استفاده می‌کنند. این به چه معناست؟

می‌توان گفت به نوعی این حرف درست است. شما هرگز یک لوح سفید ندارید. حتی یک قضیه در یادگیری ماشین وجود دارد که به قضیه از ناهار مجانی خبری نیست the no-free-lunch theorem معروف است که می‌گوید شما باید با چیزی شروع کنید وگرنه به جایی نمی‌رسید. اما در اینجا این لوح سفید واقعا سفید است. ما این را با یکی از شبکه های عصبی آماده می‌کنیم. این شبکه عصبی باید تنها از طریق آزمون و خطا و پیروزی و شسکت در بازی‌ها، خودش درک کند که جهان چگونه کار می‌کند.

مردم فکر می‌کنند که ما در هر شرایط حرکت درست را به MuZero می‌گوییم، اما اگر یادگیری تقویتی را متوجه شوید می‌دانید که این روش یادگیری در واقع تلاش برای حل مشکلات در شرایطی است که همه چیز ناشناخته است. شما باید به عامل‌ها بگویید چه گزینه‌هایی در دسترس دارند و سپس یکی از آن‌ها را انجام دهند.

شما ممکن است آنچه را که ما تاکنون بر روی آن کار کرده‌ایم نقد کنید. اما واقعت این است که دنیای واقعی کاملاً پیچیده است و ما هم چیزی مانند مغز انسان ایجاد نکرده‌ایم که بتواند با همه این پیچیدگی‌ها سازگار شود. بنابراین این یک انتقاد منصفانه است. اما من فکر می‌کنم MuZero واقعاً در حال کشف این موضوع است که چگونه تنها با یادگیری اصول اولیه بتواند یک مدل را بسازد و آن را درک کند.

DeepMind  اخیراً اعلام کرده است که از فناوری AlphaZero برای حل یک مساله مهم عملی (تاشدگی پروتئین ها) استفاده کرده است. آیا ممکن است MuZero نیز چنین کار مهمی انجام دهد؟

حتما همین‌طور خواهد بود. ما در حال بررسی روش‌های استفاده از MuZero برای مشکلات دنیای واقعی هستیم و نتایج اولیه نیز دلگرم­‌کننده بوده اند. به عنوان مثال ما می‌توانیم بگوییم که بیشتر ترفیک اینترنت به خاطر ویدئوهای حجیم است و یک مشکل بزرگ این است که چگونه می‌توان آن فیلم‌ها را تا حد ممکن فشرده کرد. شما می‌توانید این مسئله را به عنوان یک مشکل یادگیری تقویتی تصور کنید، زیرا برنامه‌های بسیار پیچیده وجود دارد که فیلم را فشرده می‌کند، اما آنچه در ادامه می‌بینید یک چیز نامعلوم است. به هرحال وقتی پای MuZero به میان می‌آید نتایج اولیه ما از نظر حفظ مقدار قابل توجهی از داده‌ها بسیار امیدوار کننده به نظر می‌رسد..

فکر می‌کنید در بلندمدت یادگیری تقویتی در کجا بیشترین تأثیر را خواهد داشت؟

من به توسعه‌ سیستمی فکر می‌کنم که می‌تواند به شما به عنوان یک کاربر کمک کند تا اهداف خود را به موثرترین شکل ممکن به تحقق برسانید. یک سیستم بسیار قدرتمند که تمامی چیزهایی را که شما می‌بینید، می‌بیند و از همان حواس و احساسی برخوردار است که شما نیز دارید و در نهایت می‌تواند به شما در رسیدن به اهداف زندگی کمک کند. من فکر می‌کنم این یک مسئله واقعاً مهم است. یکی دیگر از تحولات مهم که احتمالا در بلندمدت به آن خواهیم رسید، برنامه‌ای است که می‌تواند یک راه­‌حل شخصی‌سازی شده در زمینه مراقبت‌های بهداشتی ارائه دهد. حریم خصوصی و مسائل اخلاقی وجود دارد که باید حل و فصل شوند. این یک تحول ارزشمند خواهد بود و علم پزشکی و کیفیت زندگی مردم را تغییر خواهد داد.

به نظر شما چه پیشرفتی در ماشین‌ها رخ خواهد داد که به عمر شما قد می‌دهد؟

من نمی‌خواهم در مورد زمان صحبت کنم، اما می‌توانم بگویم هر آنچه انسان می‌تواند بدست آورد، در نهایت فکر می‌کنم که یک ماشین نیز می‌تواند به دست بیاورد. مغز یک فرایند محاسباتی است در نتیجه فکر نمی‌کنم یک چیز عجیب و غریب و سحرآمیز در آنجا در حال رخ دادن است در نتیجه ما می‌توانیم این محاسبه‌ها را شبیه‌سازی کنیم.

آیا می‌توانیم به جایی برسیم که بتوانیم الگوریتم‌های موثر و قدرتمندی همانند مغز انسان را درک و پیاده‌سازی کنیم؟

من فکر می‌کنم که آینده‌ هیجان‌انگیزی در پیش داریم و ما باید به دنبال رسیدن به آن آینده باشیم. اولین قدم در این مسیر، تلاش برای درک این مساله است که اساسا دستیابی به هوش چیست؟ با دستیابی به این سطح از هوش به دنبال حل چه چیزی هستیم؟

جدای از کاربردهای عملی، به نظرشما می‌توان از مهارت در بازی‌هایی مانند شطرنج و آتاری فراتر بروید و به هوش واقعی برسید؟ چه چیزی باعث می‌شود شما فکر کنید یادگیری تقویتی موجب توسعه ماشین‌هایی که قادر به درک عقل سلیم هستند می‌شود؟

یک فرضیه وجود دارد، که ما آن را فرضیه پاداش کافی می‌نامیم که می‌گوید فرایند اساسی هوش می‌تواند به سادگی سیستمی باشد که می‌خواهد پاداش خود را به حداکثر برساند. همین فرایند تلاش برای رسیدن به یک هدف و تلاش برای به حداکثر رساندن پاداش کافی است تا تمام ویژگی‌های هوش را که در هوش انسانی می‌بینیم به وجود بیاورد. این یک فرضیه است، ما نمی‌دانیم که درست است یا خیر، اما به نوعی به تحقیقات جهت می‌دهد.

اگر به طور خاصی به عقل سلیم نگاه کنیم، فرضیه پاداش کافی است می‌گوید: اگر عقل سلیم برای یک سیستم مفید باشد، این بدان معناست که باید به سیستم برای دستیابی بهتر به اهدافش کمک کند.

مدت‌هاست که یادگیری تقویتی وجود دارد، اما در دوره‌ای به نظر می‌رسید به بن‌بست رسیده است. در واقع یکی از مشاوران قدیمی شما می‌گوید که او سعی کرده شما را از کار بر روی آن منصرف کند. چرا به توصیه او گوش نکردید و ادامه دادید؟

بسیاری از افراد، یادگیری تقویتی را به عنوان یک آچار فرانسه‌ای می‌بینند که می‌تواند برای حل بسیاری از مشکلات که باید با هوش مصنوعی حل کنیم، استفاده شود. من اینطور نگاه نمی‌کنم. من یادگیری تقویتی را به عنوان یک کل می‌بینم. اگر ما می‌خواهیم سعی کنیم هوش را به بهترین شکل ممکن توصیف کنیم، من فکر می‌کنم یادگیری تقویتی بهترین راه است. به محض اینکه شروع به فکر کردن و فهمیدن آن می‌کنید، سریع این دیدگاه را پیدا خواهید کرد که اصلا چگونه می‌توانم روی این موضوع کار نکنم؟ اگر واقعاً یادگیری تقویتی نزدیک‌ترین چیزی است که ما از معنای هوش سراغ داریم پس حتما باید سراغ آن برویم و آن را حل کنیم.

اگر به کاری که من انجام داده‌ام نگاه کنید، من دائما سعی کرده‌ام روی این مشکل تمرکز کنم. در حین حل و فصل موردی مانند بازی Go ما می‌آموزیم که معنی هوش در این فرآیند چیست. شما می‌توانید یادگیری تقویتی را به عنوان ظرفیتی در نظر بگیرید که یک عامل را قادر می‌سازد تا سایر توانایی‌های دیگر را به دست آورد. مثالی که می‌توان برای فهم دقیق‌تر این مساله زد بازی AlphaGo  است. در این بازی ما فقط از سیستم خواستیم که بازی را ببرد اما AlphaGo از این نیز فراتر رفت و در حاشیه بازی چیزهای بسیاری یاد گرفت.

آیا در DeepMind فشاری بر شما وارد می‌شود تا دستاورد بزرگ دیگری مانند AlphaGo، به دست بیاورید؟ چنین چیزی را حس می‌کنید؟

این یک سوال عالی است. من احساس می‌کنم که ما واقعاً در اینجا در موقعیت ویژه‌ای قرار داریم و در تمامی کارهای خود احساس امنیت می‌کنیم. تنها چیزی که از ما خواسته می‌شود انگیزه پیشرفت برای دستیابی به هوش عمومی است. این یک امتیاز واقعی است که در استارتاپ‌ها یا دانشگاه خبری از این امتیازها نیست.

امروزه سیستم‌های قدرتمند هوش مصنوعی برای کار به سیستم‌های قدرتمندی نیاز دارند. آیا شما نگران نیستید که این امر مانع پیشرفت شود؟

برای پاسخ به این سوال به MuZero برگردیم. این برنامه نمونه‌­ای از یک الگوریتم است که با محاسبات بسیار دقیق و جذاب طراحی شده است. ما آزمایشی را در آتاری اجرا کردیم و نشان دادیم حتی با استفاده از مقدار بسیار کمی محاسبه – تقریباً معادل یک GPU برای چند هفته – بسیار خوب کار می کند و عملکردی بهتر از یک انسان دارد.

برخی برآوردها نشان می‌دهد وجود اگر تمام توان محاسبه‌­ای که اکنون می توانید از آن استفاده کنید را جمع کنید، ما به چیزی قابل مقایسه با مغز انسان می رسیم. بنابراین احتمالاً نیاز است که ما به الگوریتم های هوشمندانه‌تر برسیم.

اما شگفتی MuZero در این است که چون خودش مدل را می‌­سازد در نتیجه شروع به درک نحوه کار جهان می‌­کند  تا بتواند همه‌چیز را تصور کند و این تخیل به پیشرفت محاسبات کمک می‌کند.

برخی از پیمانکاران نظامی از یادگیری تقویتی برای ساختن سلاح‌های قوی‌تر استفاده می­‌کنند. چه حسی در مورد آن داری؟ آیا فکر نمی‌کنید برخی از کارهای شما که ممکن است موردسواستفاده قرار بگیرد نباید به صورت علنی منتشر شود؟

 من با استفاده از هوش مصنوعی در سلاح‌های کشنده مخالفم و آرزو دارم در زمینه ممنوعیت سلاح‌های اتوماتیک کشنده پیشرفت بیشتری داشته باشیم. DeepMind و بنیانگذاران آن امضاکننده لایحه‌ای هستند تا برای این موارد و استفاده از اسلحه‌های کشنده قوانین وضع شود. این شرکت اعتقاد دارد که فناوری‌های تهاجمی همیشه باید تحت کنترل مناسب انسان‌ها باقی بماند.

با این حال، ما همچنان بر این باوریم که انتشار نتایج تحقیقات ما سنگ‌ بنای روش های ما سنگ بنای الگوریتم‌های هوش مصنوعی می‌شود که هدف کلی آن‌‌ها تلاش برای رسیدن به جامعه‌ای بهتر است.

دیتاک: شرکت دانش‌بنیان فعال در حوزه فناوری اطلاعات

مقاله قبلی

GPT-3: قابلیتی خلاقانه در پردازش زبان طبیعی (NLP)

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *