استفاده از هوش مصنوعی و یادگیری تقویتی چندعاملی برای آموزش همکاری به روباتها
وقتی راههای ارتباطی باز باشند، عاملهایی همچون روباتها یا پهپادها میتوانند با همکاری با یکدیگر، مسائل گوناگون را به انجام برسانند. اما اگر سختافزار مناسب در دست نباشد یا سیگنالها مسدود شده باشند، برقراری ارتباط غیرممکن میشود. پژوهشگران دانشگاه اوربانا چمپین ایلینوی برای پاسخ به این مسئله، روشی طراحی کردهاند که با تکیه بر یادگیری تقویتی چندعاملی، به عاملهای گوناگون میآموزد تا با یکدیگر همکاری کنند.
های تران، مهندس هوافضای دانشگاه ایلینوی، توضیح میدهد: «اگر عاملها بتوانند با یکدیگر صحبت کنند، کار خیلی راحتتر میشود. اما در این پروژه، قصد داشتیم از رویکرد غیرمتمرکزتری استفاده کنیم؛ یعنی بدون اینکه لازم باشد عاملها با هم صحبت کنند، همکاری رخ دهد. به علاوه، بر موقعیتهایی تمرکز کردیم که در آنها، نقش یا وظیفه عاملها مشخص نبود.»
به گفته تران، این سناریو پیچیدهتر و دشوارتر است، چون معلوم نیست هر عامل باید چه کاری در قبال عامل دیگر انجام دهد.
وی ادامه میدهد: «سؤال اینجاست که ما چطور یاد میگیریم مسئله خاصی را به مرور زمان، با همکاری یکدیگر انجام دهیم.»
تران و همکارانش از یادگیری ماشینی با تکیه بر یادگیری تقویتی چندعاملی برای پاسخ به این سؤال استفاده کردند؛ بدین منظور، یک تابع مطلوبیت ایجاد کردند که به عامل اطلاع میدهد کاری که انجام داده است برای کل گروه خوب یا سودمند بوده است یا خیر.
تران اضافه میکند: «وقتی صحبت از اهداف گروهی میشود، به سختی میتوان دریافت چه کسی چه نقشی در پیروزی نهایی داشته است. ما از یک تکنیک یادگیری ماشینی استفاده کردیم که نشان میدهد هر یک از عاملها چه نقشی در هدف کلی تیم ایفا کردهاند. به عنوان مثال، اگر در یک بازی فوتبال، یک بازیکن گل نهایی را بزند، همچنان باید در مورد بازیکنان دیگری که در زدن آن گل نقش داشتهاند هم بدانیم. بدیهی است که شناسایی این اثرات ثانویه کار آسانی نیست.»
شناسایی رفتارهای خاص
الگوریتمهای پیشنهادی پژوهشگران میتوانند آن دسته از رفتارهایی که به هدف گروه کمک نمیکنند را نیز شناسایی کنند. به گفته تران، منظور از این رفتارها، رفتار اشتباه عمدی عامل نیست، بلکه صرفاً رفتاری است که به هدف نهایی گروه کمکی نمیکند.
در این پژوهش با تکیه بر یادگیری تقویتی چندعاملی پژوهشگران برای آزمایش الگوریتمهای خود از بازیهای شبیهسازی شدهای از قبیل Capture the Flag و StarCraft استفاده کردند.
تران میگوید: «StarCraft تا حدی غیرقابل پیشبینیتر است. به همین دلیل، اشتیاق زیادی برای مشاهده عملکرد الگوریتم در این بازی داشتیم.»
به گفته تران، این نوع الگوریتم در طیف گستردهای از موقعیتهای دنیای واقعی، همچون نظارت گسترده ارتش، کاربرد روباتها در انبارها، کنترل علائم ترافیک، خودروهای خودران و یا کنترل شبکههای برق کاربرد دارد.
تران میگوید سونگ هیان کیم بیشترین سهم را در تدوین نظریه زیربنایی این پژوهش ایفا کرده است. نیل ون استرالن نیز به پیادهسازی پروژه کمک کرده است. تران و گیریش چوداری استادان راهنمای این دو دانشجو بودهاند. پژوهش مذکور به تازگی در کنفرانسAutonomous Agents and Multi-Agent Systems (عاملهای خودکار و سیستمهای چندعاملی)، به جامعه هوش مصنوعی ارائه شده است.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید