هوش مصنوعی باهوش است، اما هم بازی خوبی نیست
پژوهش حاضر نشان میدهد که انسانها، هوش مصنوعی را همتیمی ناامیدکنندهای برای بازی های مشارکتی میدانند که این امر، چالشی برای «هوش تیمی» محسوب میشود.
در بازیهایی مانند شطرنج یا Go، برنامههای هوش مصنوعی از بهترین بازیکنان جهان نیز پیشی گرفتهاند. این هوش مصنوعیهای «فرابشری» رقبای بینظیری هستند، اما شاید دشوارتر از رقابت با انسان، همکاری کردن با آنها باشد. آیا این فناوری میتواند با انسان کنار بیاید؟
در پژوهشی جدید، پژوهشگران آزمایشگاه لینکلن MIT، تلاش کردند، تا دریابند انسانها تا چه حد میتوانند با یک مدل هوش مصنوعی پیشرفته، بازی کارتی Hanabi را انجام دهند. این مدل، یاد گرفته بود که با همگروهیهایی که هرگز ندیده بود، به خوبی بازی کند. در یک آزمایش یکسو کور، شرکتکنندگان دو سری بازی انجام دادند: یکی با یک کنشگر هوش مصنوعی به عنوان همتیمی و دیگری با یک کنشگر قاعدهبنیاد، رباتی که به صورت دستی برای بازی به یک روش ازپیشتعیینشده، برنامهنویسی شده بود.
نتایج، محققان را شگفتزده کرد. نهتنها امتیازات بازی با همتیمی هوش مصنوعی از بازیکن تابع قانون بیشتر نبود، بلکه انسانها دائماً از بازی با همگروهی هوش مصنوعی خود، بیزار بودند. از نظر آنها این همتیمی، غیرقابلپیشبینی، غیرقابلاتکا و اعتماد بود و حتی وقتی هم که گروه، امتیاز خوبی میگرفت، احساس منفی داشتند. مقاله این پژوهش در همایش سیستمهای پردازش اطلاعات عصبی (NeurIPS) پذیرفته شده است.
در واقع، انسانها هنگام بازی کارتی مشارکتی Hanabi، از همتیمی خود احساس ناامیدی میکنند و با حرکتهای همتیمی هوش مصنوعی خود، گیج میشوند.
راس آلن، یکی از نویسندگان مقاله و پژوهشگر گروه فناوری هوش مصنوعی گفت: «این امر تمایز ظریفی را که میان ایجاد دو نوع هوش مصنوعی وجود دارد، برجسته میسازد؛ هوش مصنوعیای که به صورت عینی خوب عمل میکند و هوش مصنوعیای که به طور ذهنی قابلاعتماد است یا به آن دیگری ترجیح دارد. ممکن است به نظر برسد این مفاهیم آنقدر به هم نزدیک هستند که در واقع تفاوتی بین آنها نیست؛ اما این پژوهش نشان داد که در واقع، آنها دو مسئله متمایز هستند. ما باید روی جدا کردن آنها کار کنیم.»
بیزاری انسانها از همتیمی هوش مصنوعیشان میتواند برای پژوهشگرانی که این فناوری را به منظور همکاری با انسان در چالشهای واقعی مانند دفاع در برابر موشک یا انجام جراحیهای پیچیده طراحی کردهاند، نگرانکننده باشد. این پویایی که هوش تیمی نام دارد، مرز بعدی پژوهشهای هوش مصنوعی است و از نوع خاصی از هوش مصنوعی به نام یادگیری تقویتی استفاده میکند.
به هوش مصنوعیِ یادگیریِ تقویتی گفته نمیشود که چه عملی انجام دهد، در عوض، با امتحان کردن چندباره سناریوها، کشف میکند که کدام عمل منجر به بیشترین «پاداش» عددی میشود. همین فناوری است که شطرنجبازان و بازیکنانGo را اینگونه فوق بشری کرده است. بر خلاف الگوریتمهای قاعدهبنیاد، این هوش مصنوعیها برای پیروی از دستورات «if/then» برنامهریزی نشدهاند؛ زیرا پیامدهای احتمالی وظایف انسانیای که قرار است بر عهده بگیرند، مانند رانندگی ماشین، برای کدنویسی بسیار زیاد هستند.
آلن میگوید: «یادگیری تقویتی، روش توسعه هوش مصنوعی با اهدافی کاملاً عمومی است. اگر بتوان روش بازی شطرنج را به آن آموزش داد، این کنشگر لزوماً رانندگی نخواهد کرد؛ اما میتوان از همان الگوریتم با دادههای مناسب، برای آموزش رانندگی به یک کنشگر دیگر استفاده کرد. در نظریه، این روش محدودیتی برای انجام هیچ کاری ندارد.»
راهنماییهای بد، بازیهای بد
درحالحاضر، پژوهشگران از بازی Hanabi برای آزمودن عملکرد مدلهای یادگیری تقویتی استفاده میکنند که به منظور همکاری توسعه یافتهاند. این بازی تقریباً همان نقشی را دارد که شطرنج، دههها به عنوان محک هوش مصنوعی رقابتی، بر عهده داشت.
بازی Hanabi مشابه نوعی بازی چند نفره Solitaire است. بازیکنان باید با هم همکاری کنند، تا کارتهایی از یک نوع را به ترتیب روی هم قرار دهند. با این حال، ممکن است بازیکنان کارتهای خود را نبینند و فقط کارت همتیمی خود را میبینند. هر بازیکن در راهنمایی همتیمی خود بسیار محدودیت دارد، برای اینکه کدام کارت دست خود را انتخاب کند و بچیند.
پژوهشگران آزمایشگاه لینکلن، هیچکدام از کنشگرهای هوش مصنوعی یا قاعدهبنیادِ استفادهشده در این آزمایش را توسعه نداده بودند؛ اما کنشگرها در بازی Hanabi بهترین عملکرد را در حوزه خودشان بروز دادند. در واقع، وقتی مدل هوش مصنوعی از پیش با همتیمی هوش مصنوعیای که قبلاً هرگز ندیده بود، همتیمی شد، تیم بالاترین امتیاز را در بازی Hanabi بین دو کنشگر هوش مصنوعی ناشناس، کسب کرد.
آلن میگوید: «این نتیجهای مهم بود. ما فکر کردیم اگر این کنشگران هوش مصنوعی که هرگز یکدیگر را ملاقات نکرده بودند، با یکدیگر خوب بازی کنند، قادر خواهیم بود بازیکن انسانیای که این بازی را خوب بلد است، با کنشگر هوش مصنوعی همتیمی کنیم و نتیجه بسیار خوب خواهد شد. به همین دلیل بود که فکر میکردیم تیم هوش مصنوعی به صورت عینی بهتر بازی خواهد کرد و انسانها هم آن را ترجیح خواهند داد، چون اصولاً ما کاری را که خوب بلدیم، بیشتر دوست داریم.»
هیچکدام از این انتظارات برآورده نشد. در واقع، هیچ تفاوت آماریای میان امتیازات کنشگر هوش مصنوعی و قاعدهبنیاد وجود نداشت. به صورت ذهنی هم در یک بررسی، تمام 29 شرکتکننده گزارش کردند که همتیمی قاعدهبنیاد را ترجیح میدهند. با وجود اینکه شرکتکنندگان اطلاع نداشتند که در هر بازی با کدام کنشگر بازی میکنند.
جیم پنا، پژوهشگر گروه سیستمها و فناوری هوش مصنوعی و یکی از نویسندگان این مقاله میگوید: «یکی از شرکتکنندگان گفت که به قدری از بازی بد کنشگر هوش مصنوعی دچار اضطراب شده که سرش درد گرفته بود. یکی دیگر از شرکتکنندگان گفت که فکر میکند کنشگر قاعدهبنیاد کمهوش، اما کارآمد بود، درحالیکه کنشگر هوش مصنوعی نشان داد که قواعد را میفهمد، اما حرکاتش مناسب تیم نبود. از نظر آنان، راهنماییهای بد بود که بازیهای بد میساختند.»
خلاقیت غیرانسانی
این حس «بد بازی کردن» هوش مصنوعی، به رفتار شگفتانگیزی مرتبط است که پژوهشگران پیش از این در کار یادگیری تقویتی مشاهده کرده بودند. به عنوان مثال، در سال 2016 وقتی DeepMind’s AlphaGo، نخستین بار یکی از بهترین بازیکنان Go را شکست داد، یکی از تحسینبرانگیزترین حرکاتی که انجام داد، حرکت 37 در بازی 2 بود؛ حرکتی که به قدری غیرمعمول بود که داوران تصور کردند خطا است. تحلیلهای بعدی نشان داد که در واقع این حرکت بسیار حسابشده بوده است و «هوشمندانه» توصیف شد.
این حرکتها زمانی که حریف هوش مصنوعی آنها را انجام میدهد، تحسین میشوند، اما در یک تیم، کمتر مورد استقبال قرار میگیرند. پژوهشگران آزمایشگاه لینکلن دریافتند که در تیمهای دونفره، حرکات عجیب یا به نظر غیرمنطقی، بیشترین نقش را در از بین بردن اعتماد انسانها به همتیمی هوش مصنوعیشان دارند. چنین حرکاتی نهتنها درک بازیکنان از چگونگی همکاری خود و همتیمی هوش مصنوعیشان را کم میکند، بلکه میزان علاقه آنها به کار با هوش مصنوعی را کاهش میدهد، به خصوص زمانی که بازده احتمالی فوراً مشخص نیست.
هوسه سیو، یکی دیگر از نویسندگان مقاله و پژوهشگر گروه مهندسی سیستمهای خودکار و نظارتی، بیان کرد: «اظهارنظرهای زیادی مبنی بر انصراف وجود داشت، نظراتی مانند «من از کار با این چیز، متنفرم.»
شرکتکنندگانی که خودشان را در بازی Hanabiحرفهای معرفی کرده بودند (که البته اکثر شرکتکنندگان از این دسته بودند)، بیشتر از دیگران از بازی با AI انصراف دادند. سیو این امر را برای توسعهدهنگان AI نگرانکننده میداند، زیرا کاربران اصلی این فناوری، حرفهایهای هر حوزه هستند.
سیو افزود: «فرض کنید یک دستیار هدایت فوق هوشمند AI را به منظور دفاع موشکی، آموزش میدهید. شما آن را نه به یک کارآموز، بلکه به متخصص این کار که 25 سال سابقه کار روی کشتی دارد، تحویل میدهید. بنابراین، اگر کارشناسان، سوگیری شدیدی نسبت به آن در سناریوی بازی دارند، احتمالاً در عملیاتهای واقعی، این سوگیری بیشتر بروز پیدا میکند.»
انسانهای منعطف
پژوهشگران متوجه شدند که هوش مصنوعی استفادهشده در این پژوهش، برای ترجیح انسان توسعه نیافته بود؛ اما این بخشی از مشکل است و نه همه آن. مانند بیشتر مدلهای هوش مصنوعی مبتنی بر همکاری، این مدل برای کسب بالاترین امتیاز ممکن طراحی شده و موفقیت آن با عملکرد عینی آن، محک زده میشود.
آلن میگوید: «اگر پژوهشگران بر روی پرسش ترجیح ذهنی انسان تمرکز نکنند، آنگاه هوش مصنوعیای را که انسانها واقعاً بخواهند از آن استفاده کنند، نخواهیم ساخت. کار بر روی هوش مصنوعیای که عدد بسیار واضحی را بهبود میبخشد، بسیار آسانتر از کار بر روی هوش مصنوعیای است که در دنیای منعطف ترجیحات انسانی، به کار میرود.»
حل این مشکل دشوارتر، هدف پروژه MeRLin (یادگیری تقویتی آماده مأموریت) است، پروژهای که دفتر فناوری آزمایشگاه لینکلن، با همکاری شتابدهنده هوش مصنوعی نیروی هوایی آمریکا و گروه مهندسی الکتریکی و علوم کامپیوتری MIT، تأمین مالی آن را بر عهده داشت. این پروژه در حال مطالعه مانعی است که از جهش فناوری هوش مصنوعی مبتنی بر همکاری از فضای بازی به واقعیت پیچیدهتر، جلوگیری میکند.
پژوهشگران معتقدند که توانایی هوش مصنوعی برای توضیح عملکردش، اعتمادآفرین است. آنها سال بعد بر روی این موضوع متمرکز خواهند شد.
آلن میگوید: «میتوانید تصور کنید که ما این آزمایش را دوباره اجرا کنیم، البته بعد از اینکه انسان بتواند از هوش مصنوعی بپرسد «چرا این کار را انجام دادی، متوجه نشدم؟» امری که گفتنش آسانتر از عملی کردن آن است. فرضیه ما این است که اگر هوش مصنوعی بتواند طبق عملکردش توضیح بدهد که چه اتفاقی را پیشبینی میکرده است، همتیمی انسان خواهد گفت: «آهان، فکر عجیبی بود، اما حالا میفهممش» و به آن اعتماد خواهد کرد. اینگونه با وجود اینکه روش مبنایی تصمیمگیری هوش مصنوعی را تغییر ندادیم، نتایج کاملاً تغییر خواهند کرد.»
این تبادلات مانند دورهمی بعد از یک بازی، به انسان کمک میکند که احساس رفاقت و همکاری تیمی داشته باشد.
سیو با خنده اضافه کرد: «شاید این هم ناشی از یک نوع سوگیری کارکنان است. بیشتر تیمهای هوش مصنوعی، فاقد افرادی هستند که بخواهند روی این انسانهای منعطف و مشکلات پیشپاافتاده کار کنند. بلکه اغلب آنان افرادی هستند که کار ریاضی و بهینهسازی را دوست دارد. این امر، اساس کار است، اما کافی نیست.»
تسلط بر بازیهایی مانندHanabi میان هوش مصنوعی و انسان، میتواند دریچهای به جهانی از امکانات را برای هوش مصنوعی تیمی در آینده بگشاید؛ اما تا زمانی که پژوهشگران نتوانند شکاف بین عملکرد خوبِ هوش مصنوعی و میزان علاقه انسان به آن را از بین ببرند، این فناوری به شکل تقابل انسان و ماشین، باقی خواهد ماند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید