40 گام به سوی آینده‌ای هوشمند - مجموعه وبینارهای رایگان در حوزه هوش مصنوعی
Filter by دسته‌ها
chatGTP
آموزش هوش مصنوعی و انواع آن
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
پایتون و ابزارهای یادگیری عمیق
کتابخانه‌ های یادگیری عمیق
یادگیری با نظارت
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
اخبار
تیتر یک
رسانه‌ها
آموزش پردازش زبان طبیعی
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
رویدادها
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
 Deep RL یا یادگیری تقویتی عمیق چه تاثیری بر رشد و پیشرفت رباتیک دارد؟

Deep RL یا یادگیری تقویتی عمیق چه تاثیری بر رشد و پیشرفت رباتیک دارد؟

الگوریتم‌های یادگیری تقویتی عمیق (Deep RL) با انتخاب هوشمندانه پاداش‌ و هم‌چنین با اتکا به توانایی یادگیری عمیق در تخصیص برچسب‌های صحیح به نمونه‌ها (representational power)،  مشکلات یادگیری تقویتی را رفع می‌کنند.

لوین و همکاران می‌گویند: «فارغ از هزینه‌هایی که برای ساخت یک ربات متحمل می‌شویم، شیوه‌های متعددی برای تنظیم الگوریتم‌ها و ساخت ربات‌ها وجود دارد.»

Deep RL توانسته در حل بسیاری از مسائل چالشی، از بازی آتاری و شطرنج گرفته تا پوکر و بازوی رباتیکی که می‌تواند مکعب روبیک را حل کند، به پیشرفت‌های قابل ملاحظه‌ای دست پیدا کند.

عامل‌های Deep RL هم نظیر انسان‌ها، برای کسب پاداش‌های بلندمدت، استراتژی‌هایی اتخاذ می‌کنند. به این الگوی یادگیری که بر پایه آزمون و خطا استوار است و طی آن پاداشی به عامل اعطا می‌شود، یادگیری تقویتی گفته می‌شود. یادگیری تقویتی عمیق یا Deep RL در نتیجه تلاقی یادگیری عمیق و یادگیری تقویتی به وجود آمده است. هدف این فن‌آوری این است که در حوزه‌های چالش برانگیز، عملکردی همچون انسان‌ها داشته باشد.

Deep RL

لازمه استفاده از یادگیری تقویتی، ایجاد یک محیط، مدل‌سازی توابع پاداش و غیره است. حتی ممکن است برای استفاده از این فن‌آوری مجبور شوید تمامی مسائل را از صفر شروع کنید. این احتمال نیز وجود دارد که متدهای یادگیری تقویتی به حجم زیادی از داده ها نیاز داشته باشند و به همین دلیل در دنیای واقعی، اجرای صفر تا صد این متدها برای حل هر مسئله جدیدی که روی می‌دهد، عملاً غیرممکن است. برای مثال، الگوریتم‌های یادگیری تقویتی برای آموزش سیاست‌هایی که بتوانند مسائل پیچیده و دشوار را حل کنند، به میلیون‌ها گرادیان کاهشی تصادفی (SGD) نیاز دارند. هرچه اندازه مدل بزرگ‌تر باشد، تعداد مراحل آموزش هم بیشتر است و بالعکس. علاوه بر این، سودمندی و ارزش اطلاعات با کیفیت داده‌ها رابطه مستقیم دارد.

مروری بر DeepRL

الگوریتم‌های Deep RL با انتخاب هوشمندانه پاداش‌ و هم‌چنین اتکا به توانایی یادگیری عمیق در تخصیص برچسب‌های صحیح به نمونه‌ها، مشکلات یادگیری تقویتی را حل می‌کنند. توابع ریاضیاتی پاداش به دقت طراحی و ایجاد می‌شوند تا عامل را در مسیر دست‌یابی به هدف مورد نظر راهنمایی کنند. برای مثال، تصور کنید یک بازوی رباتیک و یا یک برنامه هوش مصنوعی که بازی‌های استراتژیک همچون Go و شطرنج را بازی می‌کند، آموزش می‌دهید تا به تنهایی و بدون کمک انسان‌ها به هدفی خاص دست پیدا کند.

مفاهیم کلیدی در Deep RL

  • متد on-policy و off-policy
  • استراتژی‌های اکتشاف Exploration strategies
  • تعمیم‌دهی
  • ایجاد پاداش

در یادگیری‌ ‌تقویتی عمیق، الگوریتم‌های پاداش مممکن است مبتنی بر توابع ارزش تصادفی Randomized value functions، متد یادگیری بدون نظارت و یا انگیزه ذاتی باشند. در مقابل، استراتژی‌های اکتشاف مبتنی بر حافظه، کاستی‌ها و نواقص یادگیری تقویتی که در آن پاداشی به عامل داده می‌شود را جبران می‌کنند. پاداش‌هایی که در محیط‌های مختلف و در سناریوهای دنیای واقعی به عامل داده می‌شود ممکن است ناکافی باشند.

اگر بخواهیم Deep RL را در روبات‌های واقعی پیاده‌‌سازی و اجرا کنیم با یک چالش اساسی مواجه می‌شویم. آن چالش جمع‌آوری داده‌هایی با کیفیت بالا است. این مسئله به نوبه خود بر تعمیم‌دهی هم تأثیر می‌گذارد آن را با مشکل مواجه می‌کند. تعیم‌دهی در یادگیری تقویتی به یادگیری انتقال میان مسائل گوناگون گفته می‌شود. اگر بخواهیم در حوزه رباتیک به قابلیت تعمیم‌دهی دست پیدا کنیم باید از الگوریتم‌های یادگیری تقویتی استفاده کنیم زیرا این الگوریتم‌ها برخلاف بینایی ماشین که در آن داده‌ها به صورت دستی و توسط انسان‌ها برچسب‌گذاری می‌شوند، به حجم بالایی از داده‌ها نیاز دارند.  تلاش عامل‌های Deep RL بر این است که تجربه و دانش خود را به محیط‌‍‌های جدید هم منتقل کنند. به گفته پژوهشگران OpenAI تعمیم‌دهی میان مسائل برای پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی عمیق هنوز هم کار دشواری است.

سرگی لوین و همکارانش در مقاله‌ای که به تازگی منتشر کرده‌اند به بررسی چالش‌های Deep RL در حوزه رباتیک پرداخته‌اند. آن‌ها در مقاله خود بسیاری از چالش‌های اساسی یادگیری تقویتی را بررسی و رفع کرده و ابعاد تازه‌ای از چالش‌هایی که باید حل شوند را آشکار کرده‌اند.

بررسی و حل چالش‌ها

حل چالش‌

این پژوهشگران با در نظر گرفتن فعالیت‌های گوناگونی که ربات‌ها انجام می‌دهند (از جمله جابه‌جایی و گرفتن اشیا) به راه‌حل‌هایی دست یافته و چالش‌هایی را که در عملکرد آن‌ها خلل وارد می‌کنند شناسایی و مشخص کرده‌اند.

برای مثال، این پژوهشگران دریافتند گرفتن شی کماکان یکی از مشکلات اساسی و حل نشده در حوزه رباتیک است. برای اینکه رباتی گرفتن شی‌ را یاد بگیرد باید در معرض اشیای ناآشنا قرار بگیرد، برای اینکه به شرایط و موقعیت‌های جدید واکنش نشان دهد به حلقه کنترل مبتنی بر دید نیاز است و در برخی موارد برای تفکیک و تشخیص اشیایی که باید بگیرد باید از قبل شیوه تعامل با محیط و اشیا را بیاموزند.

یافته‌های پژوهش

یافته‌های این پژوهشگران بدین شرح است:

  • برای اینکه رباتی گرفتن شی و تعمیم آن را یاد بگیرد، به جمع‌آوری داده به شیوه بدون نظارت (UDC) و یک پایپ‌لاین یادگیری تقویتی مقیاس‌پذیر نیاز داریم.
  • به منظور دسترسی به داده‌های متنوع و زیاد ، باید از داده‌هایی که تاکنون جمع‌آوری شده و آفلاین هستند استفاده کنیم و برای تسهیل کردن این روند به یک چارچوب نیاز است.
  • با هدف دست‌یابی به عملکرد حداکثری بهتر است داده‌های آفلاین را با مقدار کمی از داده‌های آنلاین ترکیب کنیم. در نتیجه این کار، ربات در گرفتن شی ۸۶% تا ۹۶% موفق عمل می‌کند.

یکی دیگر از چالش‌های اساسی که در حوزه رباتیک با آن مواجه هستیم، جمع‌آوری خودکار و ایمن حجم بالایی از داده‌ها است. این احتمال وجود دارد که الگوریتم‌های یادگیری‌ای که در محیط‌های “Gym” به خوبی عمل می‌کنند، نتوانند در ربات‌های واقعی عملکرد خوبی از خود نشان دهند. در چنین مواقعی شبیه‌سازی به کمک ما می‌آید. به عقیده پژوهشگران شبیه‌سازی به صورت لحظه‌ای و یا سریع‌تر از آن اجرا می‌شود. علاوه بر این می‌تواند به صورت همزمان نمونه‌های زیادی را آغاز کند. نویسندگان این مقاله می‌گویند: «چنان‌چه شبیه‌ساز به تکنیک‌های انتقال همزمان و یا لحظه‌ای مجهز شود، می‌توانیم با حداقل میزان تعامل با دنیای واقعی، قوانین و سیاست‌هایی را یاد بگیریم که می‌توان در دنیای واقعی به کار بست.»

استفاده از الگوریتم‌های Deep RL در عمل دشوار است. عملکرد این الگوریتم‌ها به تنظیم دقیق پارامترها بستگی دارد و گاهی اوقات عملکرد یک الگوریتم در هر اجرا با اجرای دیگر کاملاً متفاوت است. به گفته پژوهشگران متدهای کارآمد Deep RL که به داده نیاز دارند باید بتوانند با استفاده از داده‌ها به صورت آفلاین، از قبل آموزش ببینند و در همان حال تنظیم دقیق به صورت آنلاین را هم بهبود ببخشند. این کار به شناخت و درک پویایی‌های دنیای واقعی و حل مسائل کمک می‌کند.

نکات کلیدی

این پژوهشگران تمامی مبانی و کاربردهای Deep RL در حوزه رباتیک را بررسی کرده‌اند. برخی نکات کلیدی این پژوهش به شرح زیر است:

  • متدهای کنونی Deep RL به اندازه‌ که تصور می‌‍‌شود ناکارآمد و بیهوده نیستند.
  • یکی از هزاران چالشی که در این حوزه با آن مواجه هستیم، آموزش ربات بدونِ نظارت تمام وقت انسان‌ها است.
  • یکی از اهداف پژوهشی Deep RL در حوزه رباتیک این است که یادگیری تقویتی رباتیک به اندازه یادگیری در انسان‌ها و حیوانات طبیعی و مقیاس‌پذیر باشد.

میانگین امتیاز / ۵. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]