XLand ؛ محیط طراحی شده توسط دیپ‌مایند که هوش مصنوعی مدام آن را تغییر می‌دهد

تیم تحریریه
۲۶ مهر ۱۴۰۰
زمان مطالعه 1 دقیقه

دیپ‌مایند محیط بازی بزرگی به نام XLand طراحی کرده است که هوش مصنوعی پیوسته آن را تغییر می‌دهد.

هوش مصنوعی تاکنون توانسته است استاد بزرگ بازی‌های شطرنج، گو و چندین بازی دیگر را شکست دهد.
شرکت دیپ‌مایند (DeepMind) در نوشتار جدید خود اعلام کرد در حال آموزش سیستم‌هایی است که می‌توانند بازی‌های مختلف را بدون نیاز به داده‌های تعاملی انسان انجام دهند.

فهرست مقاله پنهان

1 XLand

2 این فناوری چه تاثیری بر روی هوش مصنوعی دارد؟

XLand

شرکت دیپ‌مایند خبر از ساخت محیط بازی وسیعی به نام XLand داده است. XLand از چندین بازی‌ چندنفره‌‌ در محیط‌هایی پایدار، سه بعدی و ملموس برای انسان تشکیل شده است. در این محیط، تدوین الگوریتم‌های یادگیری جدید امکان‌پذیر است، الگوریتم‌هایی که به طور پویا نحوه تمرین عامل هوشمند و بازی‌های آن را کنترل می‌کنند.

در ادامه این نوشتار آمده است که: «قابلیت‌های عامل هوشمند در پاسخ به چالش‌هایی که در طی آموزش مطرح می‌شوند، به طور پیوسته ارتقاء یافته و فرایند یادگیری به طور مداوم وظایف آموزشی را تغییر می‌دهد و به این ترتیب یادگیری هرگز متوقف نمی‌شود. حاصلِ کار، عامل هوشمندی است که می‌تواند طیف وسیعی از وظایف را با موفقیت انجام دهد. حتی وظایفی که در حین آموزش با آن‌ها روبه‌رو نشده است. از قبیل بازی‌های ساده مانند پیداکردن اشیاء و بازی‌های پیچیده‌ مانند قایم – موشک و فتح پرچم».

این فناوری چه تاثیری بر روی هوش مصنوعی دارد؟

برآیند این فناوری در هوش مصنوعی ساخت عامل‌های هوشمند جدیدی است که می‌توانند طیف وسیعی از وظایف را انجام دهند و محدود به یک وظیفه مجزا و منحصر به فرد نیستند. به عبارت دیگر، این عامل‌های هوشمند می‌توانند به سرعت با محیط‌های پویا سازگار شوند. و این یعنی دیگر کمبود داده‌های آموزشی مسئله‌ساز نخواهد بود و عامل‌های هوشمند می‌توانند به صورت خودآموز وظایف جدید را یاد بگیرند.

حال، این سوال مطرح می‌شود که شرکت دیپ‌مایند چگونه به این فناوری دست‌یافته است؟ مهندسان این شرکت وظایفی پویا با درجه سختی متوسط (نه بسیار سخت و نه بسیار آسان) و مناسب برای آموزش در این محیط طراحی کردند. آن‌ها سپس «آموزش مبتنی بر جمعیت» (PBT) را برای تنظیم پارامترهای تولید وظیفه پویا به‌کار بردند. این تنظیمات بر اساس برازشی با هدف بهبود توانایی عمومی‌ عامل هوشمند صورت گرفت. و در نهایت، شرکت موفق شد زنجیره‌ای از چندین دوره آموزشی طراحی کند که در آن‌ها عامل‌های هوشمند هر نسل مستقل از عامل‌های نسل قبل بودند.

نسخه پیش از چاپ این پژوهش در مقاله‌ای با عنوان «یادگیری باز پاسخ منجر به ساخت عامل هوشمندی با توانایی‌های عمومی می‌شود» ارائه شده است.