MuZero در مورد چگونگی یادگیری افراد چه چیزی به ما میآموزد؟
دیوید سیلور خالق MuZero و چندین پیشرفت خیرهکننده هوش مصنوعی در سالهای اخیر است. کارهای او باعث توجه مجدد و احیای هوش مصنوعی شد که در دورهای دیگر خیلی به آن توجه نمیشود و اصطلاحا دوره زمستان هوش مصنوعی نامیده میشود.
سیلور در DeepMind که یکی از زیرمجموعههای هلدینگ Alphabet است تکنیکهایی را توسعه داد که به کامپیوترها امکان میدهد خودشان یاد بگیرند که چگونه مشکلاتی را حل کنند که قبلاً غیرقابل حل بودند.
یکی از مشهورترین این پروژهها، آلفاگو بود. برنامهای که در سال ۲۰۱۷ رونمایی شد و یادگرفته بود تا بازی تخته GO را در سطح حرفهای انجام دهد.
بازی Go سختتر از آن بود که با استفاده از برنامهنویسی معمولی بتوان بر آن غلبه کرد، اما AlphaGo یاد گرفت که از طریق تمرین و پاداش مثبت پیش برود. این تکنیک هوش مصنوعی، یادگیری تقویتی نامیده میشود.
در سال ۲۰۱۸، سیلور و همکارانش نسخه دیگری از برنامه را با نام AlphaZero توسعه دادند که توانایی یادگیری بازی شطرنج و شوگی را به همان خبرگی Go داشت. سپس در نوامبر ۲۰۱۹، DeepMind جزئیاتی از برنامه MuZero را منتشر کرد. این نسخه یاد گرفته بود همه این بازیها و برخی بازیهای دیگر را نیز انجام دهد اما نکته جالب توجه ابن بود که دیگر حتی از قبل نیاز نداشت که قوانین بازی را بداند.
سیلور با خبرنگار برجسته ویل نایت از طرق برنامه زوم دیدار کرد تا در مورد MuZero، یادگیری تقویتی و راز پیشرفت بیشتر در هوش مصنوعی مصاحبه کند. مشروح این مصاحبه را در ادامه میخوانید.
مقاله شما درمورد MuZero در مجله Nature منتشر شده است. برای افراد غیرمتخصص توضیح دهید چرا همچین چیزی مهم است؟
نکته مهم در این مورد و گام بزرگی که با MuZero برداشت شد این است که ما به آن پویایی محیط نمیگوییم. درواقع خود به گونهای رقم میخورد که بفهمد موثرترین استراتژی چیست. ما میخواهیم الگوریتمهایی داشته باشیم که در دنیای واقعی کار کنند و دنیای واقعی، پیچیده، درهم و برهم و ناشناخته است. بنابراین نمیتوانید به دنیای واقعی مانند یک بازی شطرنج نگاه کنید. شما باید یاد بگیرید که جهان چگونه کار میکند.
برخی از افراد اشاره میکنند که در واقع اینطور نیست که MuZero، AlphaGo و AlphaZero از صفر شروع کنند. آنها از الگوریتمهای ساخته شده توسط انسانهای باهوش برای یادگیری نحوه انجام یک کار خاص استفاده میکنند. این به چه معناست؟
میتوان گفت به نوعی این حرف درست است. شما هرگز یک لوح سفید ندارید. حتی یک قضیه در یادگیری ماشین وجود دارد که به قضیه از ناهار مجانی خبری نیست the no-free-lunch theorem معروف است که میگوید شما باید با چیزی شروع کنید وگرنه به جایی نمیرسید. اما در اینجا این لوح سفید واقعا سفید است. ما این را با یکی از شبکه های عصبی آماده میکنیم. این شبکه عصبی باید تنها از طریق آزمون و خطا و پیروزی و شسکت در بازیها، خودش درک کند که جهان چگونه کار میکند.
مردم فکر میکنند که ما در هر شرایط حرکت درست را به MuZero میگوییم، اما اگر یادگیری تقویتی را متوجه شوید میدانید که این روش یادگیری در واقع تلاش برای حل مشکلات در شرایطی است که همه چیز ناشناخته است. شما باید به عاملها بگویید چه گزینههایی در دسترس دارند و سپس یکی از آنها را انجام دهند.
شما ممکن است آنچه را که ما تاکنون بر روی آن کار کردهایم نقد کنید. اما واقعت این است که دنیای واقعی کاملاً پیچیده است و ما هم چیزی مانند مغز انسان ایجاد نکردهایم که بتواند با همه این پیچیدگیها سازگار شود. بنابراین این یک انتقاد منصفانه است. اما من فکر میکنم MuZero واقعاً در حال کشف این موضوع است که چگونه تنها با یادگیری اصول اولیه بتواند یک مدل را بسازد و آن را درک کند.
DeepMind اخیراً اعلام کرده است که از فناوری AlphaZero برای حل یک مساله مهم عملی (تاشدگی پروتئین ها) استفاده کرده است. آیا ممکن است MuZero نیز چنین کار مهمی انجام دهد؟
حتما همینطور خواهد بود. ما در حال بررسی روشهای استفاده از MuZero برای مشکلات دنیای واقعی هستیم و نتایج اولیه نیز دلگرمکننده بوده اند. به عنوان مثال ما میتوانیم بگوییم که بیشتر ترفیک اینترنت به خاطر ویدئوهای حجیم است و یک مشکل بزرگ این است که چگونه میتوان آن فیلمها را تا حد ممکن فشرده کرد. شما میتوانید این مسئله را به عنوان یک مشکل یادگیری تقویتی تصور کنید، زیرا برنامههای بسیار پیچیده وجود دارد که فیلم را فشرده میکند، اما آنچه در ادامه میبینید یک چیز نامعلوم است. به هرحال وقتی پای MuZero به میان میآید نتایج اولیه ما از نظر حفظ مقدار قابل توجهی از دادهها بسیار امیدوار کننده به نظر میرسد..
فکر میکنید در بلندمدت یادگیری تقویتی در کجا بیشترین تأثیر را خواهد داشت؟
من به توسعه سیستمی فکر میکنم که میتواند به شما به عنوان یک کاربر کمک کند تا اهداف خود را به موثرترین شکل ممکن به تحقق برسانید. یک سیستم بسیار قدرتمند که تمامی چیزهایی را که شما میبینید، میبیند و از همان حواس و احساسی برخوردار است که شما نیز دارید و در نهایت میتواند به شما در رسیدن به اهداف زندگی کمک کند. من فکر میکنم این یک مسئله واقعاً مهم است. یکی دیگر از تحولات مهم که احتمالا در بلندمدت به آن خواهیم رسید، برنامهای است که میتواند یک راهحل شخصیسازی شده در زمینه مراقبتهای بهداشتی ارائه دهد. حریم خصوصی و مسائل اخلاقی وجود دارد که باید حل و فصل شوند. این یک تحول ارزشمند خواهد بود و علم پزشکی و کیفیت زندگی مردم را تغییر خواهد داد.
به نظر شما چه پیشرفتی در ماشینها رخ خواهد داد که به عمر شما قد میدهد؟
من نمیخواهم در مورد زمان صحبت کنم، اما میتوانم بگویم هر آنچه انسان میتواند بدست آورد، در نهایت فکر میکنم که یک ماشین نیز میتواند به دست بیاورد. مغز یک فرایند محاسباتی است در نتیجه فکر نمیکنم یک چیز عجیب و غریب و سحرآمیز در آنجا در حال رخ دادن است در نتیجه ما میتوانیم این محاسبهها را شبیهسازی کنیم.
آیا میتوانیم به جایی برسیم که بتوانیم الگوریتمهای موثر و قدرتمندی همانند مغز انسان را درک و پیادهسازی کنیم؟
من فکر میکنم که آینده هیجانانگیزی در پیش داریم و ما باید به دنبال رسیدن به آن آینده باشیم. اولین قدم در این مسیر، تلاش برای درک این مساله است که اساسا دستیابی به هوش چیست؟ با دستیابی به این سطح از هوش به دنبال حل چه چیزی هستیم؟
جدای از کاربردهای عملی، به نظرشما میتوان از مهارت در بازیهایی مانند شطرنج و آتاری فراتر بروید و به هوش واقعی برسید؟ چه چیزی باعث میشود شما فکر کنید یادگیری تقویتی موجب توسعه ماشینهایی که قادر به درک عقل سلیم هستند میشود؟
یک فرضیه وجود دارد، که ما آن را فرضیه پاداش کافی مینامیم که میگوید فرایند اساسی هوش میتواند به سادگی سیستمی باشد که میخواهد پاداش خود را به حداکثر برساند. همین فرایند تلاش برای رسیدن به یک هدف و تلاش برای به حداکثر رساندن پاداش کافی است تا تمام ویژگیهای هوش را که در هوش انسانی میبینیم به وجود بیاورد. این یک فرضیه است، ما نمیدانیم که درست است یا خیر، اما به نوعی به تحقیقات جهت میدهد.
اگر به طور خاصی به عقل سلیم نگاه کنیم، فرضیه پاداش کافی است میگوید: اگر عقل سلیم برای یک سیستم مفید باشد، این بدان معناست که باید به سیستم برای دستیابی بهتر به اهدافش کمک کند.
مدتهاست که یادگیری تقویتی وجود دارد، اما در دورهای به نظر میرسید به بنبست رسیده است. در واقع یکی از مشاوران قدیمی شما میگوید که او سعی کرده شما را از کار بر روی آن منصرف کند. چرا به توصیه او گوش نکردید و ادامه دادید؟
بسیاری از افراد، یادگیری تقویتی را به عنوان یک آچار فرانسهای میبینند که میتواند برای حل بسیاری از مشکلات که باید با هوش مصنوعی حل کنیم، استفاده شود. من اینطور نگاه نمیکنم. من یادگیری تقویتی را به عنوان یک کل میبینم. اگر ما میخواهیم سعی کنیم هوش را به بهترین شکل ممکن توصیف کنیم، من فکر میکنم یادگیری تقویتی بهترین راه است. به محض اینکه شروع به فکر کردن و فهمیدن آن میکنید، سریع این دیدگاه را پیدا خواهید کرد که اصلا چگونه میتوانم روی این موضوع کار نکنم؟ اگر واقعاً یادگیری تقویتی نزدیکترین چیزی است که ما از معنای هوش سراغ داریم پس حتما باید سراغ آن برویم و آن را حل کنیم.
اگر به کاری که من انجام دادهام نگاه کنید، من دائما سعی کردهام روی این مشکل تمرکز کنم. در حین حل و فصل موردی مانند بازی Go ما میآموزیم که معنی هوش در این فرآیند چیست. شما میتوانید یادگیری تقویتی را به عنوان ظرفیتی در نظر بگیرید که یک عامل را قادر میسازد تا سایر تواناییهای دیگر را به دست آورد. مثالی که میتوان برای فهم دقیقتر این مساله زد بازی AlphaGo است. در این بازی ما فقط از سیستم خواستیم که بازی را ببرد اما AlphaGo از این نیز فراتر رفت و در حاشیه بازی چیزهای بسیاری یاد گرفت.
آیا در DeepMind فشاری بر شما وارد میشود تا دستاورد بزرگ دیگری مانند AlphaGo، به دست بیاورید؟ چنین چیزی را حس میکنید؟
این یک سوال عالی است. من احساس میکنم که ما واقعاً در اینجا در موقعیت ویژهای قرار داریم و در تمامی کارهای خود احساس امنیت میکنیم. تنها چیزی که از ما خواسته میشود انگیزه پیشرفت برای دستیابی به هوش عمومی است. این یک امتیاز واقعی است که در استارتاپها یا دانشگاه خبری از این امتیازها نیست.
امروزه سیستمهای قدرتمند هوش مصنوعی برای کار به سیستمهای قدرتمندی نیاز دارند. آیا شما نگران نیستید که این امر مانع پیشرفت شود؟
برای پاسخ به این سوال به MuZero برگردیم. این برنامه نمونهای از یک الگوریتم است که با محاسبات بسیار دقیق و جذاب طراحی شده است. ما آزمایشی را در آتاری اجرا کردیم و نشان دادیم حتی با استفاده از مقدار بسیار کمی محاسبه – تقریباً معادل یک GPU برای چند هفته – بسیار خوب کار می کند و عملکردی بهتر از یک انسان دارد.
برخی برآوردها نشان میدهد وجود اگر تمام توان محاسبهای که اکنون می توانید از آن استفاده کنید را جمع کنید، ما به چیزی قابل مقایسه با مغز انسان می رسیم. بنابراین احتمالاً نیاز است که ما به الگوریتم های هوشمندانهتر برسیم.
اما شگفتی MuZero در این است که چون خودش مدل را میسازد در نتیجه شروع به درک نحوه کار جهان میکند تا بتواند همهچیز را تصور کند و این تخیل به پیشرفت محاسبات کمک میکند.
برخی از پیمانکاران نظامی از یادگیری تقویتی برای ساختن سلاحهای قویتر استفاده میکنند. چه حسی در مورد آن داری؟ آیا فکر نمیکنید برخی از کارهای شما که ممکن است موردسواستفاده قرار بگیرد نباید به صورت علنی منتشر شود؟
من با استفاده از هوش مصنوعی در سلاحهای کشنده مخالفم و آرزو دارم در زمینه ممنوعیت سلاحهای اتوماتیک کشنده پیشرفت بیشتری داشته باشیم. DeepMind و بنیانگذاران آن امضاکننده لایحهای هستند تا برای این موارد و استفاده از اسلحههای کشنده قوانین وضع شود. این شرکت اعتقاد دارد که فناوریهای تهاجمی همیشه باید تحت کنترل مناسب انسانها باقی بماند.
با این حال، ما همچنان بر این باوریم که انتشار نتایج تحقیقات ما سنگ بنای روش های ما سنگ بنای الگوریتمهای هوش مصنوعی میشود که هدف کلی آنها تلاش برای رسیدن به جامعهای بهتر است.