Deep RL یا یادگیری تقویتی عمیق چه تاثیری بر رشد و پیشرفت رباتیک دارد؟
الگوریتمهای یادگیری تقویتی عمیق (Deep RL) با انتخاب هوشمندانه پاداش و همچنین با اتکا به توانایی یادگیری عمیق در تخصیص برچسبهای صحیح به نمونهها (representational power)، مشکلات یادگیری تقویتی را رفع میکنند.
لوین و همکاران میگویند: «فارغ از هزینههایی که برای ساخت یک ربات متحمل میشویم، شیوههای متعددی برای تنظیم الگوریتمها و ساخت رباتها وجود دارد.»
Deep RL توانسته در حل بسیاری از مسائل چالشی، از بازی آتاری و شطرنج گرفته تا پوکر و بازوی رباتیکی که میتواند مکعب روبیک را حل کند، به پیشرفتهای قابل ملاحظهای دست پیدا کند.
عاملهای Deep RL هم نظیر انسانها، برای کسب پاداشهای بلندمدت، استراتژیهایی اتخاذ میکنند. به این الگوی یادگیری که بر پایه آزمون و خطا استوار است و طی آن پاداشی به عامل اعطا میشود، یادگیری تقویتی گفته میشود. یادگیری تقویتی عمیق یا Deep RL در نتیجه تلاقی یادگیری عمیق و یادگیری تقویتی به وجود آمده است. هدف این فنآوری این است که در حوزههای چالش برانگیز، عملکردی همچون انسانها داشته باشد.
لازمه استفاده از یادگیری تقویتی، ایجاد یک محیط، مدلسازی توابع پاداش و غیره است. حتی ممکن است برای استفاده از این فنآوری مجبور شوید تمامی مسائل را از صفر شروع کنید. این احتمال نیز وجود دارد که متدهای یادگیری تقویتی به حجم زیادی از داده ها نیاز داشته باشند و به همین دلیل در دنیای واقعی، اجرای صفر تا صد این متدها برای حل هر مسئله جدیدی که روی میدهد، عملاً غیرممکن است. برای مثال، الگوریتمهای یادگیری تقویتی برای آموزش سیاستهایی که بتوانند مسائل پیچیده و دشوار را حل کنند، به میلیونها گرادیان کاهشی تصادفی (SGD) نیاز دارند. هرچه اندازه مدل بزرگتر باشد، تعداد مراحل آموزش هم بیشتر است و بالعکس. علاوه بر این، سودمندی و ارزش اطلاعات با کیفیت دادهها رابطه مستقیم دارد.
مروری بر DeepRL
الگوریتمهای Deep RL با انتخاب هوشمندانه پاداش و همچنین اتکا به توانایی یادگیری عمیق در تخصیص برچسبهای صحیح به نمونهها، مشکلات یادگیری تقویتی را حل میکنند. توابع ریاضیاتی پاداش به دقت طراحی و ایجاد میشوند تا عامل را در مسیر دستیابی به هدف مورد نظر راهنمایی کنند. برای مثال، تصور کنید یک بازوی رباتیک و یا یک برنامه هوش مصنوعی که بازیهای استراتژیک همچون Go و شطرنج را بازی میکند، آموزش میدهید تا به تنهایی و بدون کمک انسانها به هدفی خاص دست پیدا کند.
مفاهیم کلیدی در Deep RL
- متد on-policy و off-policy
- استراتژیهای اکتشاف Exploration strategies
- تعمیمدهی
- ایجاد پاداش
در یادگیری تقویتی عمیق، الگوریتمهای پاداش مممکن است مبتنی بر توابع ارزش تصادفی Randomized value functions، متد یادگیری بدون نظارت و یا انگیزه ذاتی باشند. در مقابل، استراتژیهای اکتشاف مبتنی بر حافظه، کاستیها و نواقص یادگیری تقویتی که در آن پاداشی به عامل داده میشود را جبران میکنند. پاداشهایی که در محیطهای مختلف و در سناریوهای دنیای واقعی به عامل داده میشود ممکن است ناکافی باشند.
اگر بخواهیم Deep RL را در روباتهای واقعی پیادهسازی و اجرا کنیم با یک چالش اساسی مواجه میشویم. آن چالش جمعآوری دادههایی با کیفیت بالا است. این مسئله به نوبه خود بر تعمیمدهی هم تأثیر میگذارد آن را با مشکل مواجه میکند. تعیمدهی در یادگیری تقویتی به یادگیری انتقال میان مسائل گوناگون گفته میشود. اگر بخواهیم در حوزه رباتیک به قابلیت تعمیمدهی دست پیدا کنیم باید از الگوریتمهای یادگیری تقویتی استفاده کنیم زیرا این الگوریتمها برخلاف بینایی ماشین که در آن دادهها به صورت دستی و توسط انسانها برچسبگذاری میشوند، به حجم بالایی از دادهها نیاز دارند. تلاش عاملهای Deep RL بر این است که تجربه و دانش خود را به محیطهای جدید هم منتقل کنند. به گفته پژوهشگران OpenAI تعمیمدهی میان مسائل برای پیشرفتهترین الگوریتمهای یادگیری تقویتی عمیق هنوز هم کار دشواری است.
سرگی لوین و همکارانش در مقالهای که به تازگی منتشر کردهاند به بررسی چالشهای Deep RL در حوزه رباتیک پرداختهاند. آنها در مقاله خود بسیاری از چالشهای اساسی یادگیری تقویتی را بررسی و رفع کرده و ابعاد تازهای از چالشهایی که باید حل شوند را آشکار کردهاند.
بررسی و حل چالشها
این پژوهشگران با در نظر گرفتن فعالیتهای گوناگونی که رباتها انجام میدهند (از جمله جابهجایی و گرفتن اشیا) به راهحلهایی دست یافته و چالشهایی را که در عملکرد آنها خلل وارد میکنند شناسایی و مشخص کردهاند.
برای مثال، این پژوهشگران دریافتند گرفتن شی کماکان یکی از مشکلات اساسی و حل نشده در حوزه رباتیک است. برای اینکه رباتی گرفتن شی را یاد بگیرد باید در معرض اشیای ناآشنا قرار بگیرد، برای اینکه به شرایط و موقعیتهای جدید واکنش نشان دهد به حلقه کنترل مبتنی بر دید نیاز است و در برخی موارد برای تفکیک و تشخیص اشیایی که باید بگیرد باید از قبل شیوه تعامل با محیط و اشیا را بیاموزند.
یافتههای پژوهش
یافتههای این پژوهشگران بدین شرح است:
- برای اینکه رباتی گرفتن شی و تعمیم آن را یاد بگیرد، به جمعآوری داده به شیوه بدون نظارت (UDC) و یک پایپلاین یادگیری تقویتی مقیاسپذیر نیاز داریم.
- به منظور دسترسی به دادههای متنوع و زیاد ، باید از دادههایی که تاکنون جمعآوری شده و آفلاین هستند استفاده کنیم و برای تسهیل کردن این روند به یک چارچوب نیاز است.
- با هدف دستیابی به عملکرد حداکثری بهتر است دادههای آفلاین را با مقدار کمی از دادههای آنلاین ترکیب کنیم. در نتیجه این کار، ربات در گرفتن شی 86% تا 96% موفق عمل میکند.
یکی دیگر از چالشهای اساسی که در حوزه رباتیک با آن مواجه هستیم، جمعآوری خودکار و ایمن حجم بالایی از دادهها است. این احتمال وجود دارد که الگوریتمهای یادگیریای که در محیطهای “Gym” به خوبی عمل میکنند، نتوانند در رباتهای واقعی عملکرد خوبی از خود نشان دهند. در چنین مواقعی شبیهسازی به کمک ما میآید. به عقیده پژوهشگران شبیهسازی به صورت لحظهای و یا سریعتر از آن اجرا میشود. علاوه بر این میتواند به صورت همزمان نمونههای زیادی را آغاز کند. نویسندگان این مقاله میگویند: «چنانچه شبیهساز به تکنیکهای انتقال همزمان و یا لحظهای مجهز شود، میتوانیم با حداقل میزان تعامل با دنیای واقعی، قوانین و سیاستهایی را یاد بگیریم که میتوان در دنیای واقعی به کار بست.»
استفاده از الگوریتمهای Deep RL در عمل دشوار است. عملکرد این الگوریتمها به تنظیم دقیق پارامترها بستگی دارد و گاهی اوقات عملکرد یک الگوریتم در هر اجرا با اجرای دیگر کاملاً متفاوت است. به گفته پژوهشگران متدهای کارآمد Deep RL که به داده نیاز دارند باید بتوانند با استفاده از دادهها به صورت آفلاین، از قبل آموزش ببینند و در همان حال تنظیم دقیق به صورت آنلاین را هم بهبود ببخشند. این کار به شناخت و درک پویاییهای دنیای واقعی و حل مسائل کمک میکند.
نکات کلیدی
این پژوهشگران تمامی مبانی و کاربردهای Deep RL در حوزه رباتیک را بررسی کردهاند. برخی نکات کلیدی این پژوهش به شرح زیر است:
- متدهای کنونی Deep RL به اندازه که تصور میشود ناکارآمد و بیهوده نیستند.
- یکی از هزاران چالشی که در این حوزه با آن مواجه هستیم، آموزش ربات بدونِ نظارت تمام وقت انسانها است.
- یکی از اهداف پژوهشی Deep RL در حوزه رباتیک این است که یادگیری تقویتی رباتیک به اندازه یادگیری در انسانها و حیوانات طبیعی و مقیاسپذیر باشد.