هوش مصنوعی متا و یادگیری خودنظارتی

تیم تحریریه
۲۶ تیر ۱۴۰۱

زمان مطالعه: 5 دقیقه

یان لی‌کان، رئیس بخش هوش مصنوعی متا، از هدف نهایی خود مبنی برای ساخت هوش مصنوعی عمومی غافل نمی‌شود و این نکته در صحبت‌هایش هم به چشم می‌خورد: «هوش مصنوعی متا قصد دارد ماشین‌های هوشمندی بسازد که مثل انسان‌ها و حیوانات می‌آموزند.»

هوش مصنوعی متا به تازگی مجموعه‌ مقالاتی در مورد یادگیری خودنظارتی (SSL) در سیستم‌های هوش مصنوعی منتشر کرده است. SSL نقطه‌ مقابل یادگیری نظارت‌شده است که در آن، سیستم هوش مصنوعی با تکیه بر دیتاست‌های برچسب‌دار یاد می‌گیرد؛ این برچسب‌ها حکم معلمی را دارند که با نمایش پاسخ درست، به سیستم هوش مصنوعی کمک می‌کنند عملکردش را ارزیابی کند. به عقیده‌ لی‌کان، SSL پیش‌نیاز اصلی برای این است که سیستم‌های هوش مصنوعی بتوانند «مدل‌های جهانی» بسازند و به قابلیت‌های شناختی انسانی از قبیل استدلال، عقل سلیم و انتقال مهارت و دانش از موقعیتی به موقعیت دیگر، دست یابند. مقالات مذکور از سیستم خودنظارتی جدیدی به نام MAE (رمزگذار خودکار ماسک‌گذاری شده) یاد می‌کنند که تصویر، ویدئو و حتی قطعات صوتی را از روی داده‌های ناقص بازسازی کند. MAEها محصول جدیدی نیستند، اما هوش مصنوعی متا آن‌ها را بسط داده و وارد حوزه‌های جدید کرده است.

لی‌کان می‌گوید: «اگر MAE می‌تواند پیش‌بینی کند در یک ویدئو، چه اتفاقی قرار است رخ دهد، پس باید بداند که دنیا فضایی سه ‌بعدی است، که برخی چیزهای غیرزنده هستند و به خودی خود حرکت نمی‌کنند، برخی چیزها زنده‌اند و پیش‌بینی‌شان کار سخت‌تری است؛ این قابلیت‌ها هم چنان ادامه می‌یابد تا پیش‌بینی رفتارهای پیچیده افراد را هم دربر بگیرد. وقتی سیستم به یک مدل جهانی صحیح دست یافت، می‌تواند برای برنامه‌ریزی اقدامات دیگر از این مدل استفاده کند.»

لی‌کان به عنوان محقق هوش مصنوعی متا باور دارد که ماهیت هوش، یادگیری نحوه‌ پیش‌بینی است. وی ادعایی مبنی بر عمومی بودن سیستم هوش مصنوعی MAE ندارد، اما آن را گام بزرگی در راستای دستیابی به این مهم می‌داند.

البته این‌که پژوهشگران هوش مصنوعی متا برای دستیابی به هوش مصنوعی عمومی در مسیر درستی قرار دارند، نکته‌ای نیست که همه بر سر آن توافق نظر داشته باشند. یاشوا بنجیو، که جایزه تورینگ را به همراه لی‌کان و جفری هینتون دریافت کرده است، توسعه‌ اولین شبکه‌های عصبی عمیق را در کارنامه خود دارد. بنجیو، با اشاره به تفاوت‌ها و شباهت‌های موجود بین اهداف خودش و لی‌کان، می‌گوید: «به نظر من، رویکردهای فعلی، حتی روش‌های خودنظارتی، برای پر کردن شکاف موجود و دستیابی به هوش عمومی کافی نیستند.» وی باور دارد جابجایی مرزهای نوآوری و تحقق هوش مصنوعی شبه‌انسانی مستلزم «پیشرفت‌های کیفی» است.

آن‌چه بنجیو و لی‌کان بر سرش توافق دارند این نکته است که قابلیت استدلال در مورد دنیا، جوهر اساسی هوش است. با این حال، بنجیو و همکارانش به جای مدل‌های قادر به پیش‌بینی، بر مدل‌هایی تمرکز کرده‌اند که قابلیت رندرینگ دانش به شکل زبان طبیعی را دارند. چنین مدلی می‌تواند با ترکیب قطعات دانش، مسائل جدید را حل کند، شبیه‌سازی را اجرا نماید و شرایط احتمالی آینده را بررسی کند. گروه پژوهشی هوش مصنوعی بنجیو چارچوب جدیدی برای شبکه‌های عصبی توسعه داده‌اند که نسبت به شبکه‌های مورد نظر لی‌کان در هوش مصنوعی متا، ماهیت مدولار (واحدی‌تر) دارد؛ این در حالی است که گروه لی‌کان مشغول کار روی یادگیری یکپارچه هستند، یعنی مدل‌هایی که تمام گام‌های بین مرحله ورودی و نتیجه خروجی را می‌آموزند.

فهرست مقاله پنهان

1 محبوبیت ترنسفورمرها

2 یادگیری خودنظارتی در ویدئو و صوت

محبوبیت ترنسفورمرها

MAE در ادامه‌ ترند محبوبیت ترنسفورمرها ساخته شده است. ترنسفورمرها نوعی معماری شبکه‌ عصبی هستند که برای اولین بار در پردازش زبان طبیعی به کار رفتند و به پیشرفت‌های بزرگی در این حوزه دست یافتند که از آن جمله‌ می‌توان به BERT گوگل و GPT-3 از Open-AI اشاره کرد. راس گیرشیک، پژوهشگر هوش مصنوعی متا، معتقد است که موفقیت ترنسفورمرها در حوزه زبان باعث شد جامعه بینایی‌ رایانه نیز مشتاقانه به دنبال نتایج مشابه باشند.

پژوهشگران هوش مصنوعی متا اولین گروهی نیستند که ترنسفورمرها را با موفقیت در مسائل بینایی به کار گرفته‌اند. گیرشیک می‌گوید: «تحقیقات گوگل روی ViT (ترنسفورمر بینایی) الهام‌بخش ما بوده است. با به‌کارگیری معماری ViT توانستیم موانع موجود بر سر راه آزمایش و تحقق ایده‌های جدید را از میان برداریم.»

گیرشیک یکی از نویسندگان اولین مقاله‌ از مجموعه مقالات منتشر شده هوش مصنوعی متا بوده است که در آن، MAE روی تصاویر ثابت اجرا شد. شیوه‌ آموزش MAE مشابه با BERT و سایر ترنسفورمرهای زبانی بود. این مدل‌های زبانی روی پایگاه داده‌های بزرگ متنی آموزش می‌بینند که چندین کلمه از آن‌ها جا افتاده و یا اصطلاحا، ماسک‌گذاری شده‌اند. ترنسفمورمرها باید این کلمات جا افتاده را پیش‌بینی کنند. سپس متن گم‌شده از زیر ماسک بیرون می‌آید تا مدل‌ها بتوانند عملکرد خود را ارزیابی کنند و پارامترهایشان را تطبیق دهند. طبق توضیحات گیرشیک پژوهشگر هوش مصنوعی متا، پژوهشگران حوزه‌ بینایی نیز تصاویر را به قطعات گوناگون تقسیم کرده و برخی از آن‌ها را پوشاندند؛ سپس از سیستم MAE خواستند تا قطعات جا افتاده را پیش‌بینی کند.

یکی از یافته‌های مهم و جالب این بود که هنگام ماسک‌گذاری مساحت بزرگ‌تری از تصویر، مدل عملکرد بهتری از خود نشان می‌داد. تفاوت کلیدی MAE با ترنسفورمرهای زبانی نیز در همین بود: چون در ترنسفورمرها تنها حدود 15 درصد از کلمات ماسک‌گذاری می‌شوند. گیرشیک به عنوان محقق هوش مصنوعی متا توضیح می‌دهد: «زبان سیستم ارتباطی کارآمد و به شدت متراکمی است؛ هر نمادی معنای عمیقی در بردارد. اما تصاویر سیگنال‌هایی از جهان طبیعی هستند و برای حذف زوائد ساخته نشده‌اند. به همین دلیل هم است که با ایجاد تصاویر JPG می‌توانیم محتوا را فشرده‌سازی کنیم.»

پژوهشگران هوش مصنوعی متا در طی آزمایشات، دریافتند با ماسک‌گذاری چه ناحیه‌ای از تصاویر می‌توانند به بهترین نتیجه‌ ممکن دست یابند.

طبق توضیحات گیرشیک، وقتی بیش از 75 درصد تصویر ماسک‌گذاری می‌شود، زوائدی که تصویر را برای آموزش نامناسب می‌کردند، از آن حذف می‌شوند. سیستم دوجزئی MAE هوش مصنوعی متا در ابتدا از یک رمزگذار استفاده می‌کند که روابط بین پیکسل‌های موجود در دیتاست آموزشی را می‌آموزد؛ سپس یک رمزگشا تصاویر اصلی را از این نسخه‌های ماسک شده بازآفرینی می‌کند. بعد از تکمیل این روند آموزشی، رمزگذار برای مسائل بینایی همچون طبقه‌بندی و تشخیص اشیا به صورت دقیق تنظیم می‌شود.

گیرشیک می‌گوید: «آن‌چه توجه‌مان را جلب کرده است، نتایج یادگیری انتقالی در مسائل پایه می‌باشد. کاربرد رمزگذار در مسائلی همچون تشخیص اشیا نتایج بسیار شگفت‌انگیزی در پی داشته است. افزایش مقیاس مدل عملکردش را بهبود می‌بخشد؛ این نکته نویدبخش مدل‌های آینده است، چون نشان می‌دهد SSL پتانسیل استفاده از دیتاست‌های بدون برچسب بزرگ را دارد.»

رویه‌ای که هوش مصنوعی متا در پیش گرفته است، یعنی تمرکز بر بهبود نتایج SSL با استفاده از دیتاست‌های بدون ساختار، خیلی بحث‌برانگیز است. متخصصان اخلاق در هوش مصنوعی، از جمله تیمنیت گبرو، بر لزوم توجه به سوگیری‌های موجود در دیتاست‌های بدون ساختاری که برای آموزش مدل‌های زبانی استفاده می‌شوند، تأکید کرده‌اند.

یادگیری خودنظارتی در ویدئو و صوت

برای کاربرد MAE در داده‌های ویدئویی، حدود 95 درصد هر فریم از ویدئو ماسک‌گذاری شد، چون شباهت‌های بین فریم‌ها به معنی وجود زوائد بیشتر بود. به گفته‌ کریستوف فیچنهافر، پژوهشگر هوش مصنوعی متا، MAE می‌تواند با ماسک‌گذاری روی 95 درصد از هر فریم، هزینه‌ محاسباتی داده‌های ویدئویی را تا 95 درصد کاهش دهد.

ویدئوهای به کار رفته در این آزمایشات تنها چند ثانیه بودند، اما فیچنهافر به عنوان محقق هوش مصنوعی متا معتقد است: «آموزش یک سیستم هوش مصنوعی روی ویدئوهای طولانی‌تر، موضوع پژوهشی «بسیار فعالی» است. یک دستیار مجازی را تصور کنید که ویدئوی دوربین خانه را دریافت می‌کند و می‌گوید یک ساعت پیش، کلید را کجا گذاشتیم.»

فارغ از این کاربردهای بلندپروازانه، MAE می‌تواند همین حالا برای تعدیل محتوا در فیسبوک و اینستاگرام به کار برود. فیچنهافر دانشمند هوش مصنوعی متا می‌گوید: «حفظ یکپارچگی و اصول اخلاقی یکی از کاربردهای بالقوه MAE است. به زودی با تیم‌های محصولات وارد مذاکره می‌شویم، اما در حال حاضر، پروژه‌ در حال اجرا نداریم.»

پژوهشگران از روش هوشمندانه‌ای برای اجرای ماسک‌گذاری در داده‌های صوتی استفاده کرده‌اند (به زودی روی سرور arXiv preprint قرار می‌گیرد) که فایل‌های صوتی را به اسپکتروگرام تبدیل می‌کند؛ منظور از اسپکتروگرام بازنمایی تصویری از طیف فرکانس‌های موجود در سیگنال صوتی است. سپس بخشی از این تصاویر ماسک‌گذاری می‌شوند. صوتی که MAE بازسازی می‌کند شباهت چشمگیری به فایل اصلی دارد، هرچند در حال حاضر، تنها قطعات چند ثانیه‌ای را مدیریت کند.

برنی هوانگ، از محققان هوش مصنوعی متا است که روی کاربرد سیستم در داده‌های صوتی کار کرده و می‌گوید: «از جمله کاربردهای بالقوه این سیستم می‌توان به مسائل طبقه‌بندی اشاره کرد که به انتقال صوت روی اینترنت و یا فشرده‌سازی بهتر فایل‌های صوتی کمک می‌کنند.»

هوش مصنوعی متا مدل‌ MAE و مدل زبانی بزرگ و از پیش‌آموزش دیده‌ای را برای مقاصد پژوهشی، به صورت عمومی در اختیار جامعه هوش مصنوعی قرار داده است. با این حال، منتقدان معتقدند که علی‌رغم این اقدامات، متا هنوز الگوریتم‌های تجاری اصلی خود را (همچون الگوریتم‌هایی که جریان اخبار، پیشنهادات و جای‌گذاری تبلیغات را کنترل می‌کنند) برای تحقیق و مطالعه ارائه نداده است.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=28768

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

هوش مصنوعی متا و یادگیری خودنظارتی

محبوبیت ترنسفورمرها

یادگیری خودنظارتی در ویدئو و صوت

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

آیا استفاده از چت‌بات‌های هوش مصنوعی فعالیت مغز انسان را تغییر می‌دهد؟

وقتی هوش مصنوعی به چشم پزشکان بدل می‌شود

وردست‌های هوشمند

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

هوش مصنوعی در خدمت جامعه؛ از ابزار سرکوب تا فناوری مدنی

چگونه فناوری می‌تواند مسیر کنشگری اجتماعی را متحول کند؟

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

محبوبیت ترنسفورمرها

یادگیری خودنظارتی در ویدئو و صوت

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید