استفاده از هوش مصنوعی و یادگیری تقویتی چندعاملی برای آموزش همکاری به روبات‌ها

تیم تحریریه
۱۲ مرداد ۱۴۰۱
زمان مطالعه 1 دقیقه

وقتی راه‌های ارتباطی باز باشند، عامل‌هایی همچون روبات‌ها یا پهپادها می‌توانند با همکاری با یکدیگر، مسائل گوناگون را به انجام برسانند. اما اگر سخت‌افزار مناسب در دست نباشد یا سیگنال‌ها مسدود شده باشند، برقراری ارتباط غیرممکن می‌شود. پژوهشگران دانشگاه اوربانا چمپین ایلینوی برای پاسخ به این مسئله، روشی طراحی کرده‌اند که با تکیه بر یادگیری تقویتی چندعاملی، به عامل‌های گوناگون می‌آموزد تا با یکدیگر همکاری کنند.

های تران، مهندس هوافضای دانشگاه ایلینوی، توضیح می‌دهد: «اگر عامل‌ها بتوانند با یکدیگر صحبت کنند، کار خیلی راحت‌تر می‌شود. اما در این پروژه، قصد داشتیم از رویکرد غیرمتمرکزتری استفاده کنیم؛ یعنی بدون این‌که لازم باشد عامل‌ها با هم صحبت کنند، همکاری رخ دهد. به علاوه، بر موقعیت‌هایی تمرکز کردیم که در آن‌ها، نقش یا وظیفه‌ عامل‌ها مشخص نبود.»

به گفته‌ تران، این سناریو پیچیده‌تر و دشوارتر است، چون معلوم نیست هر عامل باید چه کاری در قبال عامل دیگر انجام دهد.

وی ادامه می‌دهد: «سؤال این‌جاست که ما چطور یاد می‌گیریم مسئله‌ خاصی را به مرور زمان، با همکاری یکدیگر انجام دهیم.»

تران و همکارانش از یادگیری ماشینی با تکیه بر یادگیری تقویتی چندعاملی برای پاسخ به این سؤال استفاده کردند؛ بدین منظور، یک تابع مطلوبیت ایجاد کردند که به عامل اطلاع می‌دهد کاری که انجام داده است برای کل گروه خوب یا سودمند بوده است یا خیر.

تران اضافه می‌کند: «وقتی صحبت از اهداف گروهی می‌شود، به سختی می‌توان دریافت چه کسی چه نقشی در پیروزی نهایی داشته است. ما از یک تکنیک یادگیری ماشینی استفاده کردیم که نشان می‌دهد هر یک از عامل‌ها چه نقشی در هدف کلی تیم ایفا کرده‌اند. به عنوان مثال، اگر در یک بازی فوتبال، یک بازیکن گل نهایی را بزند، همچنان باید در مورد بازیکنان دیگری که در زدن آن گل نقش داشته‌اند هم بدانیم. بدیهی است که شناسایی این اثرات ثانویه کار آسانی نیست.»

شناسایی رفتارهای خاص

الگوریتم‌های پیشنهادی پژوهشگران می‌توانند آن دسته از رفتارهایی که به هدف گروه کمک نمی‌کنند را نیز شناسایی کنند. به گفته‌ تران، منظور از این رفتارها، رفتار اشتباه عمدی عامل نیست، بلکه صرفاً رفتاری است که به هدف نهایی گروه کمکی نمی‌کند.

در این پژوهش با تکیه بر یادگیری تقویتی چندعاملی پژوهشگران برای آزمایش الگوریتم‌های خود از بازی‌های شبیه‌سازی‌ شده‌ای از قبیل Capture the Flag و StarCraft استفاده کردند.

تران می‌گوید: «StarCraft تا حدی غیرقابل پیش‌بینی‌تر است. به همین دلیل، اشتیاق زیادی برای مشاهده‌ عملکرد الگوریتم در این بازی داشتیم.»

به گفته‌ تران، این نوع الگوریتم در طیف گسترده‌ای از موقعیت‌های دنیای واقعی، همچون نظارت گسترده ارتش، کاربرد روبات‌ها در انبارها، کنترل علائم ترافیک، خودروهای خودران و یا کنترل شبکه‌های برق کاربرد دارد.

تران می‌گوید سونگ هیان کیم بیشترین سهم را در تدوین نظریه‌ زیربنایی این پژوهش ایفا کرده است. نیل ون استرالن نیز به پیاده‌سازی پروژه کمک کرده است. تران و گیریش چوداری استادان راهنمای این دو دانشجو بوده‌اند. پژوهش مذکور به تازگی در کنفرانسAutonomous Agents and Multi-Agent Systems (عامل‌های خودکار و سیستم‌های چندعاملی)، به جامعه‌ هوش مصنوعی ارائه شده است.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید