تکامل هوش مصنوعی به شیوه فرگشت موجودات زنده
فرگشت در طول صدها میلیون سال، اشکال متنوعی از حیات را در سیاره ما ایجاد کرده است که هر کدام بهنوبه خود، هوشمند هستند. هرگونه، بهنحوی تکامل یافته است که مهارتهای ذاتی، قابلیتهای یادگیری و شکل فیزیکیاش، تضمینکننده بقای آن گونه در محیط زندگیاش باشد.
اما بهرغم الهام گرفتن هوش مصنوعی از طبیعت و فرگشت، این رشته بیشتر بر ایجاد جداگانه عناصر هوش و سپس ادغام آن عناصر متمرکز شده است. در حالی که این رویکرد نتایج بزرگی به همراه داشته است، اما انعطاف کنشگرهای هوش مصنوعی را در بعضی از مهارتهای پایه که حتی در سادهترین اشکال حیات نیز یافت میشوند، محدود کرده است.
در مقاله تازهای که در مجله علمی Nature به چاپ رسیده است، پژوهشگران دانشگاه استنفورد، روش جدیدی ارائه کردهاند که میتواند گامی در راستای غلبه بر برخی از این محدودیتها باشد. این روش تازه که «یادگیری تقویتی تکاملی عمیق» نام دارد، با استفاده از محیط مجازی پیچیده و یادگیری تقویتی، کنشگرهایی مجازی ایجاد میکند که میتوانند هم از لحاظ ساختار فیزیکی و هم قابلیتهای یادگیری، تکامل پیدا کنند. این یافتهها احتمالاً تأثیرات مهمی بر آینده هوش مصنوعی و پژوهشهای رباتیک خواهند داشت.
شبیهسازی فرگشت، دشوار است
در طبیعت، بدن و مغز همراه با یکدیگر تکامل مییابند. هرگونه جانوری، در طول نسلهای بسیار، چرخههای بیشمار جهش را طی کرده است، تا اندامهای حرکتی، اندامهای داخلی و سیستم عصبی لازم برای پشتیبانی از عملکردهای موردنیاز در محیطزیست آن جاندار، در او رشد کند. بهعنوان مثال، پشهها دارای بینایی حرارتی هستند، تا دمای بدن را تشخیص دهند. خفاشها علاوه بر بالهای مناسب پرواز، مجهز به دستگاه پژواکی هستند که با آن در محیطهای تاریک، جهتیابی میکنند.
لاکپشتهای دریایی بالههایی برای شنا و دستگاه آشکارساز میدان مغناطیسی دارند که به کمک آنها فاصلههای بسیار درازی را سفر میکنند. انسان بهصورت ایستاده تکامل یافته و به لطف این ویژگی، دستهایش آزاد است و میتواند افقهای دوردست را ببیند، دستها و انگشتان چابکی دارد که میتواند با آن، اشیا را دستکاری کند و مغزش بهنوعی تکامل یافته که او را به برترین موجود اجتماعی و حلکننده مسئله در کره زمین تبدیل کرده است.
در کمال شگفتی، تمام این گونهها از اولین شکل حیات که میلیاردها سال پیش در سیاره زمین پدیدار شد، نشئت گرفتهاند. بر اساس فشارهای انتخابی محیط، نوادگان آن اولین اشکال حیات، در جهتهای مختلفِ بسیاری تکامل یافتند.
مطالعه فرگشت حیات و هوش، جالب است؛ اما تکرار این فرایند کاری بس دشوار است. یک سیستم هوش مصنوعی که قصد دارد حیات هوشمند را همانند فرایند فرگشت بازآفرینی کند، باید انواع بسیار زیادی از ریختشناسیهای ممکن را بررسی کند که این کار از نظر محاسباتی، فرایندی بسیار پرهزینه است. این سیستم به تعداد زیادی چرخههای آزمون و خطای موازی و متوالی نیاز خواهد داشت.
پژوهشگران برای غلبه بر بعضی از این چالشها از چندین میانبر و ویژگیهای از پیش طراحیشده استفاده میکنند. بهعنوان مثال، آنها معماری یا طراحی فیزیکی یک سیستم هوش مصنوعی یا رباتیک را ثابت نگه میدارند و بر بهینهسازی پارامترهای قابل یادگیری، تمرکز میکنند. میانبر دیگر، استفاده از فرگشت لامارکی به جای فرگشت داروینی است که در آن کنشگرهای هوش مصنوعی، پارامترهای آموختهشده را به نسل بعدی خود منتقل میکنند.
روش دیگری وجود دارد که در آن، زیرمجموعه سیستمهای هوش مصنوعی (بینایی، حرکتی، زبانی و غیره) بهطور جداگانه آموزش میبینند و سپس در سیستم هوش مصنوعی یا رباتیک نهایی، با هم ترکیب میشوند. با وجود اینکه چنین رویکردهایی سرعت فرایند را افزایش داده و از هزینههای آموزش و تکامل کنشگرهای هوش مصنوعی میکاهند، اما در عین حال، انعطاف و تنوع نتایج قابل دستیابی را محدود میکنند.
یادگیری تقویتی تکاملی عمیق
پژوهشگران دانشگاه استنفورد در پژوهش جدید خود، قصد دارند، تا تحقیقات هوش مصنوعی را یک قدم به فرایند تکامل واقعی نزدیکتر کنند و در عین حال، هزینهها را تا حد ممکن پایین نگه دارند. آنها در مقاله خود نوشتهاند: «هدف ما روشن ساختن بعضی از اصول حاکم بر روابط میان پیچیدگی محیطی، ریختشناسی تکاملیافته و قابلیت یادگیری کنترل هوشمند است.»
چارچوب این پژوهش، یادگیری تقویتی تکاملی عمیق (DERL) نامیده میشود. در این چارچوب، هر کنشگر برای فراگیری مهارتهای موردنیاز برای به حداکثر رساندن اهداف خود در زندگیاش، از یادگیری تقویتی عمیق، استفاده میکند. DERL از فرگشت داروینی در بررسی فضای ریختشناختی استفاده میکند، تا راهحلهای بهینه را پیدا کند، به این معنی که وقتی نسل جدیدی از کنشگرهای هوش مصنوعی ایجاد میشوند، تنها صفات فیزیکی و معماری را (همراه با جهش جزئی) از والدین خود به ارث میبرند. هیچ کدام از پارامترهای آموختهشده در میان نسلها منتقل نمیشوند.
پژوهشگران مینویسند: «DERL دری بهسوی انجام آزمایشهای شبیهسازی کامپیوتری در مقیاس وسیع باز میکنند. این آزمایشها اطلاعاتی را به دست میدهند که به کمک آنها میتوان دریافت چگونه همکاری یادگیری و تکامل، روابط پیچیده میان پیچیدگی محیطی، هوش ریختشناختی و قابلیت یادگیری تکالیف کنترلی را ایجاد میکند.»
شبیهسازی فرگشت
پژوهشگران برای چارچوب کار خود از MuJoCo استفاده کردند که یک محیط مجازی است و شبیهسازی فیزیک جسم صُلب را با دقت بالایی فراهم میکند. فضای طراحی آنها UNIversal animal یا (UNIMAL) نامیده میشود که هدف از آن، ایجاد ریختشناسیهایی است که تکالیف حرکتی و دستکاری اشیا را در محیطهای گوناگونی، میآموزند.
هر کنشگر در این محیط، از ژنوتیپی تشکیل شده است که ساختار اندامهای حرکتی و مفاصل آن را تعیین میکند. نسل اول هر کنشگر، ژنوتیپ والد را به ارث میبرد و دچار جهشهایی میشود که میتواند اندامهای حرکتی جدیدی ایجاد کند، اندامهای حرکتی موجود را حذف کند یا اصلاحات کوچکی در ویژگیهایی مانند میزان آزادی عمل یا اندازه اندامهای حرکتی، انجام دهد.
هر کنشگر، از طریق یادگیری تقویتی یاد میگیرد که میزان پاداشها را در محیطهای مختلف به حداکثر برساند. ابتداییترین تکلیف، حرکتی است که در آن کنشگر در ازای طی فاصله مشخصی، پاداش میگیرد. کنشگرهایی که ساختار فیزیکی آنها برای عبور کردن از محیط مناسبتر است، زودتر یاد میگیرند که از اندامهای خود برای حرکت در محیط اطرافشان استفاده کنند.
پژوهشگران برای سنجش نتایج سیستم طراحیشده، کنشگرها را در سه نوع محیط تولید کردند: مسطح (FT)، متغیر (VT)، محیط متغیر با اشیای قابلتغییر (MVT). محیط مسطح، کمترین فشار انتخابی را بر ریختشناسی کنشگر وارد میکند. از سوی دیگر، محیطهای متغیر، کنشگر را مجبور میکنند که ساختار فیزیکی منعطفی را ایجاد کند که میتواند از شیبها بالا رود و از اطراف موانع عبور کند. نوع MVT یک چالش اضافی دارد که بهخاطر آن کنشگر باید برای رسیدن به هدف، اشیای موجود را تغییر دهد.
مزایای یادگیری تقویتی تکاملی عمیق
یادگیری تقویتی تکاملی عمیق، انواع موفقی از ریختشناسیها را در محیطهای متفاوت ایجاد میکند.
یکی از جالبترین یافتههای DERL، تنوع نتایج آن است. دیگر رویکردها به هوش مصنوعی تکاملی، تمایل دارند که به یک راهحل همگرا برسند، زیرا کنشگرهای جدید، فیزیک و آموختهها را مستقیماً از والدین خود به ارث میبرند؛ اما در DERL تنها داده ریختشناختی به فرزندان منتقل میشود و سیستم، مجموعهای از ریختشناسیهای موفق از جمله دوپا، سهپا، چهارپا و بدون دست را ایجاد میکند.
در عین حال، این سیستم ویژگیهایی از اثر بالدوین را نشان میدهد؛ طبق این اثر، کنشگرهایی که زودتر میآموزند، با احتمال بیشتری تولیدمثل میکنند و ژنهای خود را به نسل بعدی منتقل میکنند. بر اساس مقاله استنفورد، DERL نشان میدهد که فرگشت، فقط موجوداتی را انتخاب میکند که این تواناییها را بدون اعمال فشار مستقیم از سوی محیط فرا میگیرند.
پژوهشگران در مقاله خود نوشتهاند: «جالب است که بدانید میتوان در پژوهشهای آینده، از وجود اثر ریختشناختی بالدوین برای ایجاد کنشگرهای بدنمند با پیچیدگی نمونه کمتر و ظرفیت تعمیم بالاتر استفاده کرد.»
در نهایت، چارچوب DERL مؤید این فرضیه است که محیطهای پیچیدهتر منجر به ایجاد کنشگرهای هوشمندتر میشوند. پژوهشگران، کنشگرهای تکاملیافته را با هشت تکلیف مختلف شامل گشتزنی، فرار، تغییر دادن اجسام و بررسی، آزمایش کردند. یافتههای آنان نشان داد که بهطور کلی، کنشگرهایی که در محیطهای متغیر تکامل یافتهاند، سریعتر میآموزند و بهتر از کنشگرهایی عمل میکنند که تنها محیط مسطح را تجربه کردهاند.
بهنظر میرسد که یافتههای آنان با فرضیه دیگری از پژوهشگران شرکت DeepMind منطبق است که بر اساس آن، محیطهای پیچیده، ساختار پاداش مناسب و یادگیری تقویتی، میتوانند در نهایت منجر به ظهور انواع رفتارهای هوشمند شوند.
پژوهشهای هوش مصنوعی و رباتیک
محیط DERL تنها دارای کسری از پیچیدگیهای جهان واقعی است. پژوهشگران استفنورد چنین مینویسند: «با اینکه DERL به ما امکان میدهد که گامی قابلتوجه بهسوی افزایش پیچیدگی محیطهای تکاملی برداریم، اما در آینده باید محیطهای تکاملی بازتری طراحی کنیم که از نظر فیزیکی واقعگراتر و دارای چند کنشگر هستند.»
پژوهشگران در آینده، دامنه تکالیف ارزیابی را گسترش میدهند، تا بهتر بتوانند ارزیابی کنند که کنشگرها چگونه میتوانند توانایی خود را برای یادگیری رفتارهای مرتبط با انسان افزایش دهند.
پژوهش دانشگاه استنفورد میتواند پیامدهای مهمی برای آینده هوش مصنوعی و رباتیک داشته باشد و محققان را بهسوی استفاده از روشهای اکتشافیای که شباهت بیشتری به تکامل طبیعی دارند، سوق دهد.
پژوهشگران مینویسند: «امیدواریم که پژوهش ما مشوقی برای انجام پژوهشهای بیشتر و بزرگتری درباره یادگیری و تکامل در موقعیتهای دیگر باشد و این پژوهشها نیز، اطلاعات علمی جدیدی درباره ظهور رفتارهای هوشمندی که به سرعت قابل یادگیری هستند، در اختیار ما بگذارند. همچنین پیشرفتهای جدید در زمینه علوم مهندسی به ما کمک کند، تا اطلاعات علمی جدیدی را که به دست آوردهایم، در تولید ماشینهای جدید به کار ببریم.»
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید