گوگل در تلاش برای چندمسئله ای کردن هوش مصنوعی
در شبکههای عصبی چندمسئله ای، کدام مسائل را باید با یکدیگر آموزش داد؟ گروه تحقیقات هوش مصنوعی گوگل در پاسخ به این سؤال، روشی جدید به نام TAG (گروهبندی مسائل بر حسب شباهت Task Affinity Groupings) طراحی کردهاند. در روش یادگیری چندمسئله ای، اطلاعاتی را که در خصوص یک مسئله آموخته میشوند، میتوان برای یادگیری مسائل دیگر نیز استفاده کرد. هدف از ابداع این روش، اندازهگیری شباهت میانمسئلهای به منظور آموزش همه مسائل (به صورت یکجا) به یک شبکه عصبی چندمسئله ای واحد است. روش TAG مشخص میکند بهروزرسانی گرادیانی پارامترهای مدل برای هر مسئله، تا چه میزان بر روی زیان سایر مسائل تأثیر میگذارد. سپس میانگین نتایج آموزش شبکه در همه مسائل محاسبه میشود. در آخر، مسائل به نحوی گروهبندی میشوند که شباهت بین مسائل موجود در هر گروه به حداکثر ممکن برسد.
اهمیت یادگیری چندمسئله ای
بر اساس توضیحات پژوهش مذکور، یادگیری چندمسئله ای به دو طریق به ارتقای مدلسازی کمک میکند:
۱- معرفی سوگیری القایی Inductive bias به منظور گزینش مجموعه فرضیاتی که قادر به توضیح و پشتیبانی از اهداف چندگانه باشند.
۲- تمرکز بر روی ویژگیهای مرتبط
وقتی مسائل بر سر ظرفیت مدل با یکدیگر رقابت کنند یا نتوانند به بازنمایی مشترک و قابلتعمیم (به همه اهداف) دست یابند، عملکرد افت میکند. به همین دلیل، باید گروههایی از مسائل را پیدا کنیم که میتوانند از آموزش مشترک بهرهمند شوند.
بااینحال، همانطور که تحقیقات نشان دادهاند، تجربه و شهود میتوانند ادراک انسانها از شباهت را تحتتأثیر قرار دهند. علاوه بر این، مزایا و معایب آموزش مشترک به تصمیمات مهم دیگری، از جمله خصوصیات دیتاست، معماری مدل، هایپرپارامترها، گنجایش، همگرایی و غیره نیز بستگی دارد. بنابراین، ضروری است تکنیکی پیدا کنیم که امکان آموزش همزمان چندین مسئله به شبکههای عصبی چندمسئله ای را فراهم میکند.
الهام گرفته از MAML
محققان برای ابداع روش TAG از رویکرد متایادگیری الهام گرفتهاند. یکی از الگوریتمهای متایادگیری، MAML (متایادگیری غیروابسته به مدل Model-Agnostic Meta-Learning) است که در ابتدای کار، گرادیانهای پارامترهای مدل را برای آموزش مجموعهای از مسائل، بهرزورسانی میکند. سپس مجموعه اصلی و اولیه پارامترها را بهروزرسانی میکند. بدین طریق، تابع زیان برای زیرمجموعهای از مسائل موجود به حداقل میرسد؛ این زیرمجموعه با توجه به مقادیر بهروزرسانیشده پارامترها محاسبه میشوند. با استفاده از الگوریتم MAML، مدل آن بازنماییهایی را میآموزد که تابع زیان را بعد از یک یا چند گام آموزشی (نه برای وزنهای کنونی) به حداقل میرساند.
معرفی روش TAG
روش TAG نیز از فرایندی شبیه به الگوریتم MAML پیروی میکند. فرایند کارکرد TAG را میتوان بدین صورت خلاصه کرد:
– بهرزورسانی پارامترهای مدل با تمرکز بر یک مسئله واحد
– مشاهده و بررسی تأثیر این تغییرات (بهروزرسانیها) بر روی سایر مسائل موجود در شبکه عصبی چندمسئله ای
– حذف تغییرات اعمالشده و برگرداندن پارامترها به حالت اولیه
– تکرار فرایند مذکور برای همه مسائل به منظور تشخیص تعامل بین مسائل
– بهرزورسانی پارامترهای مشترک مدل با توجه به همه مسائل
در نتیجه این فرایند، مشخص میشود که بین برخی مسائل، روابطی مفید و بین برخی دیگر، تضاد وجود دارد. سپس با تکیه بر نتایج بهدستآمده، الگوریتمی گزینشی مسائل را به نحوی گروهبندی میکند که شباهت بین آنها به حداکثر برسد؛ در واقع، تعداد شبکههای چندمسئله ای که فرد متخصص در مرحله استنتاج به کار میبرد، بر کارکرد این الگوریتم تأثیر میگذارد.
کشفیات گوگل
محققان دریافتند روش TAG میتواند گروههایی بسیار قوی انتخاب کند. روش TAG روی دیتاستهای CelebA و Taskonomy به آزمایش گذاشته شد و نسبت به روشهای نوآورانه دیگر، به ترتیب 32 و 5/11 برابر سریعتر عمل کرد. افزایش سرعت 5/11 برابری روی دیتاست Taskonomy بدین معنی است که با استفاده از روش TAG، GPU (مدل Tesla V100) 2008 ساعت کمتر مشغول میشود.
یافتهها حاکی از این بودهاند که روش TAG از الگوریتمهای ارتقای آموزشی چندمسئله ای همچون Weights، GradNorm و PCGrad عملکردی بهتر دارد. این روش در سطح روشهای گروهبندی همچون HOA قرار داشته و حتی از نظر کارایی محاسباتی بهتر است.
علاوه بر این، پژوهش مذکور نشان داده است که بر اساس نمره شباهت بین مسائل، میتوان مسائل فرعی تقریباً بهینه را پیدا کرد و به صورت ضمنی، خاصیت تعمیمپذیری مسائل را اندازه گرفت.
چالشها
گروهبندی مسائل در یادگیری چندمسئله ای میتواند سهم پررنگی در صرفهجویی در زمان و منابع محاسباتی ایفا کند؛ با این حال، این فرایند، خطرات و چالشهایی هم به همراه دارد. یکی از این مشکلات، این است که شباهت بین مسائل را میتوان با «شباهت مسئلهای Task similarity» اشتباه گرفت. در این صورت، ممکن است بین مسائلی که نمرات شباهت میانمسئلهای بالایی دارند، نوعی همسبتگی یا رابطه علّی در نظر گرفته شود. در کار با دیتاستهایی که شامل متغیرهای حساس (مربوط به نژاد، جنسیت، مذهب، سن، ویژگیهای فیزیکی و غیره) هستند، چنین اشتباهی مشکلزا خواهد شد. تشخیص اشتباه شباهت میانمسئلهای میتواند منجر به نتیجهگیریهایی بیپایه و اساس شود. آشنایی با خطرات و مشکلات بالقوه این روشها، احتمال سوءاستفاده از آنها را کاهش میدهد.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید