هوش مصنوعی متا و یادگیری خودنظارتی
یان لیکان، رئیس بخش هوش مصنوعی متا، از هدف نهایی خود مبنی برای ساخت هوش مصنوعی عمومی غافل نمیشود و این نکته در صحبتهایش هم به چشم میخورد: «هوش مصنوعی متا قصد دارد ماشینهای هوشمندی بسازد که مثل انسانها و حیوانات میآموزند.»
هوش مصنوعی متا به تازگی مجموعه مقالاتی در مورد یادگیری خودنظارتی (SSL) در سیستمهای هوش مصنوعی منتشر کرده است. SSL نقطه مقابل یادگیری نظارتشده است که در آن، سیستم هوش مصنوعی با تکیه بر دیتاستهای برچسبدار یاد میگیرد؛ این برچسبها حکم معلمی را دارند که با نمایش پاسخ درست، به سیستم هوش مصنوعی کمک میکنند عملکردش را ارزیابی کند. به عقیده لیکان، SSL پیشنیاز اصلی برای این است که سیستمهای هوش مصنوعی بتوانند «مدلهای جهانی» بسازند و به قابلیتهای شناختی انسانی از قبیل استدلال، عقل سلیم و انتقال مهارت و دانش از موقعیتی به موقعیت دیگر، دست یابند. مقالات مذکور از سیستم خودنظارتی جدیدی به نام MAE (رمزگذار خودکار ماسکگذاری شده) یاد میکنند که تصویر، ویدئو و حتی قطعات صوتی را از روی دادههای ناقص بازسازی کند. MAEها محصول جدیدی نیستند، اما هوش مصنوعی متا آنها را بسط داده و وارد حوزههای جدید کرده است.
لیکان میگوید: «اگر MAE میتواند پیشبینی کند در یک ویدئو، چه اتفاقی قرار است رخ دهد، پس باید بداند که دنیا فضایی سه بعدی است، که برخی چیزهای غیرزنده هستند و به خودی خود حرکت نمیکنند، برخی چیزها زندهاند و پیشبینیشان کار سختتری است؛ این قابلیتها هم چنان ادامه مییابد تا پیشبینی رفتارهای پیچیده افراد را هم دربر بگیرد. وقتی سیستم به یک مدل جهانی صحیح دست یافت، میتواند برای برنامهریزی اقدامات دیگر از این مدل استفاده کند.»
لیکان به عنوان محقق هوش مصنوعی متا باور دارد که ماهیت هوش، یادگیری نحوه پیشبینی است. وی ادعایی مبنی بر عمومی بودن سیستم هوش مصنوعی MAE ندارد، اما آن را گام بزرگی در راستای دستیابی به این مهم میداند.
البته اینکه پژوهشگران هوش مصنوعی متا برای دستیابی به هوش مصنوعی عمومی در مسیر درستی قرار دارند، نکتهای نیست که همه بر سر آن توافق نظر داشته باشند. یاشوا بنجیو، که جایزه تورینگ را به همراه لیکان و جفری هینتون دریافت کرده است، توسعه اولین شبکههای عصبی عمیق را در کارنامه خود دارد. بنجیو، با اشاره به تفاوتها و شباهتهای موجود بین اهداف خودش و لیکان، میگوید: «به نظر من، رویکردهای فعلی، حتی روشهای خودنظارتی، برای پر کردن شکاف موجود و دستیابی به هوش عمومی کافی نیستند.» وی باور دارد جابجایی مرزهای نوآوری و تحقق هوش مصنوعی شبهانسانی مستلزم «پیشرفتهای کیفی» است.
آنچه بنجیو و لیکان بر سرش توافق دارند این نکته است که قابلیت استدلال در مورد دنیا، جوهر اساسی هوش است. با این حال، بنجیو و همکارانش به جای مدلهای قادر به پیشبینی، بر مدلهایی تمرکز کردهاند که قابلیت رندرینگ دانش به شکل زبان طبیعی را دارند. چنین مدلی میتواند با ترکیب قطعات دانش، مسائل جدید را حل کند، شبیهسازی را اجرا نماید و شرایط احتمالی آینده را بررسی کند. گروه پژوهشی هوش مصنوعی بنجیو چارچوب جدیدی برای شبکههای عصبی توسعه دادهاند که نسبت به شبکههای مورد نظر لیکان در هوش مصنوعی متا، ماهیت مدولار (واحدیتر) دارد؛ این در حالی است که گروه لیکان مشغول کار روی یادگیری یکپارچه هستند، یعنی مدلهایی که تمام گامهای بین مرحله ورودی و نتیجه خروجی را میآموزند.
محبوبیت ترنسفورمرها
MAE در ادامه ترند محبوبیت ترنسفورمرها ساخته شده است. ترنسفورمرها نوعی معماری شبکه عصبی هستند که برای اولین بار در پردازش زبان طبیعی به کار رفتند و به پیشرفتهای بزرگی در این حوزه دست یافتند که از آن جمله میتوان به BERT گوگل و GPT-3 از Open-AI اشاره کرد. راس گیرشیک، پژوهشگر هوش مصنوعی متا، معتقد است که موفقیت ترنسفورمرها در حوزه زبان باعث شد جامعه بینایی رایانه نیز مشتاقانه به دنبال نتایج مشابه باشند.
پژوهشگران هوش مصنوعی متا اولین گروهی نیستند که ترنسفورمرها را با موفقیت در مسائل بینایی به کار گرفتهاند. گیرشیک میگوید: «تحقیقات گوگل روی ViT (ترنسفورمر بینایی) الهامبخش ما بوده است. با بهکارگیری معماری ViT توانستیم موانع موجود بر سر راه آزمایش و تحقق ایدههای جدید را از میان برداریم.»
گیرشیک یکی از نویسندگان اولین مقاله از مجموعه مقالات منتشر شده هوش مصنوعی متا بوده است که در آن، MAE روی تصاویر ثابت اجرا شد. شیوه آموزش MAE مشابه با BERT و سایر ترنسفورمرهای زبانی بود. این مدلهای زبانی روی پایگاه دادههای بزرگ متنی آموزش میبینند که چندین کلمه از آنها جا افتاده و یا اصطلاحا، ماسکگذاری شدهاند. ترنسفمورمرها باید این کلمات جا افتاده را پیشبینی کنند. سپس متن گمشده از زیر ماسک بیرون میآید تا مدلها بتوانند عملکرد خود را ارزیابی کنند و پارامترهایشان را تطبیق دهند. طبق توضیحات گیرشیک پژوهشگر هوش مصنوعی متا، پژوهشگران حوزه بینایی نیز تصاویر را به قطعات گوناگون تقسیم کرده و برخی از آنها را پوشاندند؛ سپس از سیستم MAE خواستند تا قطعات جا افتاده را پیشبینی کند.
یکی از یافتههای مهم و جالب این بود که هنگام ماسکگذاری مساحت بزرگتری از تصویر، مدل عملکرد بهتری از خود نشان میداد. تفاوت کلیدی MAE با ترنسفورمرهای زبانی نیز در همین بود: چون در ترنسفورمرها تنها حدود 15 درصد از کلمات ماسکگذاری میشوند. گیرشیک به عنوان محقق هوش مصنوعی متا توضیح میدهد: «زبان سیستم ارتباطی کارآمد و به شدت متراکمی است؛ هر نمادی معنای عمیقی در بردارد. اما تصاویر سیگنالهایی از جهان طبیعی هستند و برای حذف زوائد ساخته نشدهاند. به همین دلیل هم است که با ایجاد تصاویر JPG میتوانیم محتوا را فشردهسازی کنیم.»
طبق توضیحات گیرشیک، وقتی بیش از 75 درصد تصویر ماسکگذاری میشود، زوائدی که تصویر را برای آموزش نامناسب میکردند، از آن حذف میشوند. سیستم دوجزئی MAE هوش مصنوعی متا در ابتدا از یک رمزگذار استفاده میکند که روابط بین پیکسلهای موجود در دیتاست آموزشی را میآموزد؛ سپس یک رمزگشا تصاویر اصلی را از این نسخههای ماسک شده بازآفرینی میکند. بعد از تکمیل این روند آموزشی، رمزگذار برای مسائل بینایی همچون طبقهبندی و تشخیص اشیا به صورت دقیق تنظیم میشود.
گیرشیک میگوید: «آنچه توجهمان را جلب کرده است، نتایج یادگیری انتقالی در مسائل پایه میباشد. کاربرد رمزگذار در مسائلی همچون تشخیص اشیا نتایج بسیار شگفتانگیزی در پی داشته است. افزایش مقیاس مدل عملکردش را بهبود میبخشد؛ این نکته نویدبخش مدلهای آینده است، چون نشان میدهد SSL پتانسیل استفاده از دیتاستهای بدون برچسب بزرگ را دارد.»
رویهای که هوش مصنوعی متا در پیش گرفته است، یعنی تمرکز بر بهبود نتایج SSL با استفاده از دیتاستهای بدون ساختار، خیلی بحثبرانگیز است. متخصصان اخلاق در هوش مصنوعی، از جمله تیمنیت گبرو، بر لزوم توجه به سوگیریهای موجود در دیتاستهای بدون ساختاری که برای آموزش مدلهای زبانی استفاده میشوند، تأکید کردهاند.
یادگیری خودنظارتی در ویدئو و صوت
برای کاربرد MAE در دادههای ویدئویی، حدود 95 درصد هر فریم از ویدئو ماسکگذاری شد، چون شباهتهای بین فریمها به معنی وجود زوائد بیشتر بود. به گفته کریستوف فیچنهافر، پژوهشگر هوش مصنوعی متا، MAE میتواند با ماسکگذاری روی 95 درصد از هر فریم، هزینه محاسباتی دادههای ویدئویی را تا 95 درصد کاهش دهد.
ویدئوهای به کار رفته در این آزمایشات تنها چند ثانیه بودند، اما فیچنهافر به عنوان محقق هوش مصنوعی متا معتقد است: «آموزش یک سیستم هوش مصنوعی روی ویدئوهای طولانیتر، موضوع پژوهشی «بسیار فعالی» است. یک دستیار مجازی را تصور کنید که ویدئوی دوربین خانه را دریافت میکند و میگوید یک ساعت پیش، کلید را کجا گذاشتیم.»
فارغ از این کاربردهای بلندپروازانه، MAE میتواند همین حالا برای تعدیل محتوا در فیسبوک و اینستاگرام به کار برود. فیچنهافر دانشمند هوش مصنوعی متا میگوید: «حفظ یکپارچگی و اصول اخلاقی یکی از کاربردهای بالقوه MAE است. به زودی با تیمهای محصولات وارد مذاکره میشویم، اما در حال حاضر، پروژه در حال اجرا نداریم.»
پژوهشگران از روش هوشمندانهای برای اجرای ماسکگذاری در دادههای صوتی استفاده کردهاند (به زودی روی سرور arXiv preprint قرار میگیرد) که فایلهای صوتی را به اسپکتروگرام تبدیل میکند؛ منظور از اسپکتروگرام بازنمایی تصویری از طیف فرکانسهای موجود در سیگنال صوتی است. سپس بخشی از این تصاویر ماسکگذاری میشوند. صوتی که MAE بازسازی میکند شباهت چشمگیری به فایل اصلی دارد، هرچند در حال حاضر، تنها قطعات چند ثانیهای را مدیریت کند.
برنی هوانگ، از محققان هوش مصنوعی متا است که روی کاربرد سیستم در دادههای صوتی کار کرده و میگوید: «از جمله کاربردهای بالقوه این سیستم میتوان به مسائل طبقهبندی اشاره کرد که به انتقال صوت روی اینترنت و یا فشردهسازی بهتر فایلهای صوتی کمک میکنند.»
هوش مصنوعی متا مدل MAE و مدل زبانی بزرگ و از پیشآموزش دیدهای را برای مقاصد پژوهشی، به صورت عمومی در اختیار جامعه هوش مصنوعی قرار داده است. با این حال، منتقدان معتقدند که علیرغم این اقدامات، متا هنوز الگوریتمهای تجاری اصلی خود را (همچون الگوریتمهایی که جریان اخبار، پیشنهادات و جایگذاری تبلیغات را کنترل میکنند) برای تحقیق و مطالعه ارائه نداده است.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید