XLand ؛ محیط طراحی شده توسط دیپمایند که هوش مصنوعی مدام آن را تغییر میدهد
دیپمایند محیط بازی بزرگی به نام XLand طراحی کرده است که هوش مصنوعی پیوسته آن را تغییر میدهد.
هوش مصنوعی تاکنون توانسته است استاد بزرگ بازیهای شطرنج، گو و چندین بازی دیگر را شکست دهد.
شرکت دیپمایند (DeepMind) در نوشتار جدید خود اعلام کرد در حال آموزش سیستمهایی است که میتوانند بازیهای مختلف را بدون نیاز به دادههای تعاملی انسان انجام دهند.
XLand
شرکت دیپمایند خبر از ساخت محیط بازی وسیعی به نام XLand داده است. XLand از چندین بازی چندنفره در محیطهایی پایدار، سه بعدی و ملموس برای انسان تشکیل شده است. در این محیط، تدوین الگوریتمهای یادگیری جدید امکانپذیر است، الگوریتمهایی که به طور پویا نحوه تمرین عامل هوشمند و بازیهای آن را کنترل میکنند.
در ادامه این نوشتار آمده است که: «قابلیتهای عامل هوشمند در پاسخ به چالشهایی که در طی آموزش مطرح میشوند، به طور پیوسته ارتقاء یافته و فرایند یادگیری به طور مداوم وظایف آموزشی را تغییر میدهد و به این ترتیب یادگیری هرگز متوقف نمیشود. حاصلِ کار، عامل هوشمندی است که میتواند طیف وسیعی از وظایف را با موفقیت انجام دهد. حتی وظایفی که در حین آموزش با آنها روبهرو نشده است. از قبیل بازیهای ساده مانند پیداکردن اشیاء و بازیهای پیچیده مانند قایم – موشک و فتح پرچم».
این فناوری چه تاثیری بر روی هوش مصنوعی دارد؟
برآیند این فناوری در هوش مصنوعی ساخت عاملهای هوشمند جدیدی است که میتوانند طیف وسیعی از وظایف را انجام دهند و محدود به یک وظیفه مجزا و منحصر به فرد نیستند. به عبارت دیگر، این عاملهای هوشمند میتوانند به سرعت با محیطهای پویا سازگار شوند. و این یعنی دیگر کمبود دادههای آموزشی مسئلهساز نخواهد بود و عاملهای هوشمند میتوانند به صورت خودآموز وظایف جدید را یاد بگیرند.
حال، این سوال مطرح میشود که شرکت دیپمایند چگونه به این فناوری دستیافته است؟ مهندسان این شرکت وظایفی پویا با درجه سختی متوسط (نه بسیار سخت و نه بسیار آسان) و مناسب برای آموزش در این محیط طراحی کردند. آنها سپس «آموزش مبتنی بر جمعیت» (PBT) را برای تنظیم پارامترهای تولید وظیفه پویا بهکار بردند. این تنظیمات بر اساس برازشی با هدف بهبود توانایی عمومی عامل هوشمند صورت گرفت. و در نهایت، شرکت موفق شد زنجیرهای از چندین دوره آموزشی طراحی کند که در آنها عاملهای هوشمند هر نسل مستقل از عاملهای نسل قبل بودند.
نسخه پیش از چاپ این پژوهش در مقالهای با عنوان «یادگیری باز پاسخ منجر به ساخت عامل هوشمندی با تواناییهای عمومی میشود» ارائه شده است.