تکامل هوش مصنوعی به شیوه فرگشت موجودات زنده

تیم تحریریه
۱۶ اسفند ۱۴۰۰

زمان مطالعه: 6 دقیقه

فرگشت در طول صدها میلیون سال، اشکال متنوعی از حیات را در سیاره ما ایجاد کرده است که هر کدام به‌نوبه خود، هوشمند هستند. هرگونه، به‌نحوی تکامل یافته است که مهارت‌های ذاتی، قابلیت‌های یادگیری و شکل فیزیکی‌اش، تضمین‌کننده بقای آن گونه در محیط زندگی‌اش باشد.

اما به‌رغم الهام گرفتن هوش مصنوعی از طبیعت و فرگشت، این رشته بیشتر بر ایجاد جداگانه عناصر هوش و سپس ادغام آن عناصر متمرکز شده است. در حالی که این رویکرد نتایج بزرگی به همراه داشته است، اما انعطاف کنشگرهای هوش مصنوعی را در بعضی از مهارت‌های پایه‌ که حتی در ساده‌ترین اشکال حیات نیز یافت می‌شوند، محدود کرده است.

در مقاله تازه‌ای که در مجله علمی Nature به چاپ رسیده است، پژوهشگران دانشگاه استنفورد، روش جدیدی ارائه کرده‌اند که می‌تواند گامی در راستای غلبه بر برخی از این محدودیت‌ها باشد. این روش تازه که «یادگیری تقویتی تکاملی عمیق» نام دارد، با استفاده از محیط مجازی پیچیده و یادگیری تقویتی، کنشگرهایی مجازی‌ ایجاد می‌کند که می‌توانند هم از لحاظ ساختار فیزیکی و هم قابلیت‌های یادگیری، تکامل پیدا کنند. این یافته‌ها احتمالاً تأثیرات مهمی بر آینده هوش مصنوعی و پژوهش‌های رباتیک خواهند داشت.

فهرست مقاله پنهان

1 شبیه‌سازی فرگشت، دشوار است

2 یادگیری تقویتی تکاملی عمیق

3 شبیه‌سازی فرگشت

4 مزایای یادگیری تقویتی تکاملی عمیق

5 پژوهش‌های هوش مصنوعی و رباتیک

شبیه‌سازی فرگشت، دشوار است

در طبیعت، بدن و مغز همراه با یکدیگر تکامل می‌یابند. هرگونه جانوری، در طول نسل‌های بسیار، چرخه‌های بی‌شمار جهش را طی کرده است، تا اندام‌های حرکتی، اندام‌های داخلی و سیستم عصبی لازم برای پشتیبانی از عملکردهای موردنیاز در محیط‌زیست آن جاندار، در او رشد کند. به‌عنوان مثال، پشه‌ها دارای بینایی حرارتی هستند، تا دمای بدن را تشخیص دهند. خفاش‌ها علاوه بر بال‌های مناسب پرواز، مجهز به دستگاه پژواکی هستند که با آن در محیط‌های تاریک، جهت‌یابی می‌کنند.

لاک‌پشت‌های دریایی باله‌هایی برای شنا و دستگاه آشکارساز میدان مغناطیسی دارند که به کمک آن‌ها فاصله‌های بسیار درازی را سفر می‌کنند. انسان‌ به‌صورت ایستاده تکامل یافته‌ و به لطف این ویژگی، دست‌هایش آزاد است و می‌تواند افق‌های دوردست را ببیند، دست‌ها و انگشتان چابکی دارد که می‌تواند با آن، اشیا را دستکاری کند و مغزش به‌نوعی تکامل یافته که او را به برترین موجود اجتماعی و حل‌کننده مسئله در کره زمین تبدیل کرده است.

در کمال شگفتی، تمام این گونه‌ها از اولین شکل حیات که میلیاردها سال پیش در سیاره زمین پدیدار شد، نشئت گرفته‌اند. بر اساس فشارهای انتخابی محیط، نوادگان آن اولین اشکال حیات، در جهت‌های مختلفِ بسیاری تکامل یافتند.

مطالعه فرگشت حیات و هوش، جالب است؛ اما تکرار این فرایند کاری بس دشوار است. یک سیستم هوش مصنوعی که قصد دارد حیات هوشمند را همانند فرایند فرگشت بازآفرینی کند، باید انواع بسیار زیادی از ریخت‌شناسی‌های ممکن را بررسی کند که این کار از نظر محاسباتی، فرایندی بسیار پرهزینه است. این سیستم به تعداد زیادی چرخه‌های آزمون و خطای موازی و متوالی نیاز خواهد داشت.

پژوهشگران برای غلبه بر بعضی از این چالش‌ها از چندین میانبر و ویژگی‌های از پیش‌ طراحی‌شده استفاده می‌کنند. به‌عنوان مثال، آن‌ها معماری یا طراحی فیزیکی یک سیستم هوش مصنوعی یا رباتیک را ثابت نگه می‌دارند و بر بهینه‌سازی پارامترهای قابل یادگیری، تمرکز می‌کنند. میان‌بر دیگر، استفاده از فرگشت لامارکی به جای فرگشت داروینی است که در آن کنشگرهای هوش مصنوعی، پارامترهای آموخته‌شده را به نسل بعدی خود منتقل می‌کنند.

روش دیگری وجود دارد که در آن، زیرمجموعه سیستم‌های هوش مصنوعی (بینایی، حرکتی، زبانی و غیره) به‌طور جداگانه آموزش می‌بینند و سپس در سیستم هوش مصنوعی یا رباتیک نهایی، با هم ترکیب می‌شوند. با وجود اینکه چنین رویکردهایی سرعت فرایند را افزایش داده و از هزینه‌های آموزش و تکامل کنشگرهای هوش مصنوعی می‌کاهند، اما در عین حال، انعطاف و تنوع نتایج قابل دستیابی را محدود می‌کنند.

یادگیری تقویتی تکاملی عمیق

پژوهشگران دانشگاه استنفورد در پژوهش جدید خود، قصد دارند، تا تحقیقات هوش مصنوعی را یک قدم به فرایند تکامل واقعی نزدیک‌تر کنند و در عین حال، هزینه‌ها را تا حد ممکن پایین نگه دارند. آن‌ها در مقاله خود نوشته‌اند: «هدف ما روشن ساختن بعضی از اصول حاکم بر روابط میان پیچیدگی محیطی، ریخت‌شناسی تکامل‌یافته و قابلیت‌ یادگیری کنترل هوشمند است.»

چارچوب این پژوهش، یادگیری تقویتی تکاملی عمیق (DERL) نامیده می‌شود. در این چارچوب، هر کنشگر برای فراگیری مهارت‌های موردنیاز برای به حداکثر رساندن اهداف خود در زندگی‌اش، از یادگیری تقویتی عمیق، استفاده می‌کند. DERL از فرگشت داروینی در بررسی فضای ریخت‌شناختی استفاده می‌کند، تا راه‌حل‌های بهینه را پیدا کند، به این معنی که وقتی نسل جدیدی از کنشگرهای هوش مصنوعی ایجاد می‌شوند، تنها صفات فیزیکی و معماری را (همراه با جهش جزئی) از والدین خود به ارث می‌برند. هیچ کدام از پارامترهای آموخته‌شده در میان نسل‌ها منتقل نمی‌شوند.

پژوهشگران می‌نویسند: «DERL دری به‌سوی انجام آزمایش‌های شبیه‌سازی کامپیوتری در مقیاس وسیع باز می‌کنند. این آزمایش‌ها اطلاعاتی را به دست می‌دهند که به کمک آن‌ها می‌توان دریافت چگونه همکاری یادگیری و تکامل، روابط پیچیده میان پیچیدگی محیطی، هوش ریخت‌شناختی و قابلیت یادگیری تکالیف کنترلی را ایجاد می‌کند.»

شبیه‌سازی فرگشت

پژوهشگران برای چارچوب کار خود از MuJoCo استفاده کردند که یک محیط مجازی است و شبیه‌سازی فیزیک جسم صُلب را با دقت بالایی فراهم می‌کند. فضای طراحی آن‌ها UNIversal animal یا (UNIMAL) نامیده می‌شود که هدف از آن، ایجاد ریخت‌شناسی‌هایی است که تکالیف حرکتی و دستکاری اشیا را در محیط‌های گوناگونی، می‌آموزند.

هر کنشگر در این محیط، از ژنوتیپی تشکیل شده است که ساختار اندام‌های حرکتی و مفاصل آن را تعیین می‌کند. نسل اول هر کنشگر، ژنوتیپ والد را به ارث می‌برد و دچار جهش‌هایی می‌شود که می‌تواند اندام‌های حرکتی جدیدی ایجاد کند، اندام‌های حرکتی موجود را حذف کند یا اصلاحات کوچکی در ویژگی‌هایی مانند میزان آزادی عمل یا اندازه اندام‌های حرکتی، انجام دهد.

هر کنشگر، از طریق یادگیری تقویتی یاد می‌گیرد که میزان پاداش‌ها را در محیط‌های مختلف به حداکثر برساند. ابتدایی‌ترین تکلیف، حرکتی است که در آن کنشگر در ازای طی فاصله مشخصی، پاداش می‌گیرد. کنشگرهایی که ساختار فیزیکی آن‌ها برای عبور کردن از محیط مناسب‌تر است، زودتر یاد می‌گیرند که از اندام‌های خود برای حرکت در محیط اطرافشان استفاده کنند.

پژوهشگران برای سنجش نتایج سیستم طراحی‌شده، کنشگرها را در سه نوع محیط تولید کردند: مسطح (FT)، متغیر (VT)، محیط متغیر با اشیای قابل‌تغییر (MVT). محیط مسطح، کمترین فشار انتخابی را بر ریخت‌شناسی کنشگر وارد می‌کند. از سوی دیگر، محیط‌های متغیر، کنشگر را مجبور می‌کنند که ساختار فیزیکی منعطفی را ایجاد کند که می‌تواند از شیب‌ها بالا رود و از اطراف موانع عبور کند. نوع MVT یک چالش اضافی دارد که به‌خاطر آن کنشگر باید برای رسیدن به هدف، اشیای موجود را تغییر دهد.

مزایای یادگیری تقویتی تکاملی عمیق

یادگیری تقویتی تکاملی عمیق، انواع موفقی از ریخت‌شناسی‌ها را در محیط‌های متفاوت ایجاد می‌کند.

یکی از جالب‌ترین یافته‌های DERL، تنوع نتایج آن است. دیگر رویکردها به هوش مصنوعی تکاملی، تمایل دارند که به یک راه‌حل همگرا برسند، زیرا کنشگرهای جدید، فیزیک و آموخته‌ها را مستقیماً از والدین خود به ارث می‌برند؛ اما در DERL تنها داده ریخت‌شناختی به فرزندان منتقل می‌شود و سیستم، مجموعه‌ای از ریخت‌شناسی‌های موفق از جمله دوپا، سه‌پا، چهارپا و بدون دست را ایجاد می‌کند.

در عین حال، این سیستم ویژگی‌هایی از اثر بالدوین را نشان می‌دهد؛ طبق این اثر، کنشگرهایی که زودتر می‌آموزند، با احتمال بیشتری تولیدمثل می‌کنند و ژن‌های خود را به نسل بعدی منتقل می‌کنند. بر اساس مقاله استنفورد، DERL نشان می‌دهد که فرگشت، فقط موجوداتی را انتخاب می‌کند که این توانایی‌ها را بدون اعمال فشار مستقیم از سوی محیط فرا می‌گیرند.

پژوهشگران در مقاله خود نوشته‌اند: «جالب است که بدانید می‌توان در پژوهش‌های آینده، از وجود اثر ریخت‌شناختی بالدوین برای ایجاد کنشگرهای بدنمند با پیچیدگی نمونه کمتر و ظرفیت تعمیم بالاتر استفاده کرد.»

در نهایت، چارچوب DERL مؤید این فرضیه است که محیط‌های پیچیده‌تر منجر به ایجاد کنشگرهای هوشمندتر می‌شوند. پژوهشگران، کنشگرهای تکامل‌یافته را با هشت تکلیف مختلف شامل گشت‌زنی، فرار، تغییر دادن اجسام و بررسی، آزمایش کردند. یافته‌های آنان نشان داد که به‌طور کلی، کنشگرهایی که در محیط‌های متغیر تکامل یافته‌اند، سریع‌تر می‌آموزند و بهتر از کنشگرهایی عمل می‌کنند که تنها محیط مسطح را تجربه کرده‌اند.

به‌نظر می‌رسد که یافته‌های آنان با فرضیه دیگری از پژوهشگران شرکت DeepMind منطبق است که بر اساس آن، محیط‌های پیچیده، ساختار پاداش مناسب و یادگیری تقویتی، می‌توانند در نهایت منجر به ظهور انواع رفتارهای هوشمند شوند.

فرگشت — کنشگرهای آموزش‌دیده در DERL با انواعی از تکالیف، ارزیابی می‌شوند

پژوهش‌های هوش مصنوعی و رباتیک

محیط DERL تنها دارای کسری از پیچیدگی‌های جهان واقعی است. پژوهشگران استفنورد چنین می‌نویسند: «با اینکه DERL به ما امکان می‌دهد که گامی قابل‌توجه به‌سوی افزایش پیچیدگی محیط‌های تکاملی برداریم، اما در آینده باید محیط‌های تکاملی بازتری طراحی کنیم که از نظر فیزیکی واقع‌گراتر و دارای چند کنشگر هستند.»

پژوهشگران در آینده، دامنه تکالیف ارزیابی را گسترش می‌دهند، تا بهتر بتوانند ارزیابی کنند که کنشگرها چگونه می‌توانند توانایی خود را برای یادگیری رفتارهای مرتبط با انسان افزایش دهند.

پژوهش دانشگاه استنفورد می‌تواند پیامدهای مهمی برای آینده هوش مصنوعی و رباتیک داشته باشد و محققان را به‌سوی استفاده از روش‌های اکتشافی‌ای که شباهت بیشتری به تکامل طبیعی دارند، سوق دهد.

پژوهشگران می‌نویسند: «امیدواریم که پژوهش ما مشوقی برای انجام پژوهش‌های بیشتر و بزرگ‌تری درباره یادگیری و تکامل در موقعیت‌های دیگر باشد و این پژوهش‌ها نیز، اطلاعات علمی جدیدی درباره ظهور رفتارهای هوشمندی که به سرعت قابل یادگیری هستند، در اختیار ما بگذارند. همچنین پیشرفت‌های جدید در زمینه علوم مهندسی به ما کمک کند، تا اطلاعات علمی جدیدی را که به دست آورده‌ایم، در تولید ماشین‌های جدید به کار ببریم.»

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=24880

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

تکامل هوش مصنوعی به شیوه فرگشت موجودات زنده

شبیه‌سازی فرگشت، دشوار است

یادگیری تقویتی تکاملی عمیق

شبیه‌سازی فرگشت

مزایای یادگیری تقویتی تکاملی عمیق

پژوهش‌های هوش مصنوعی و رباتیک

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

شبیه‌سازی فرگشت، دشوار است

یادگیری تقویتی تکاملی عمیق

شبیه‌سازی فرگشت

مزایای یادگیری تقویتی تکاملی عمیق

پژوهش‌های هوش مصنوعی و رباتیک

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید