شاهکار بخش هوش مصنوعی فیس بوک: جهشی در حوزه بینایی کامپیوتر
بخش هوش مصنوعی فیس بوک نرمافزار جدیدی ساخته و شاید بهتر باشد شرکتها هم برای انجام برخی مسائل بینایی کامپیوتر، از جمله تشخیص چهره و توابع مورد استفاده در وسایل نقلیه خودران، چنین نرمافزاری را آموزش دهند.
در حال حاضر برای آنکه بتوانیم سیستمهای بینایی کامپیوتر را برای انجام چنین مسائلی آموزش دهیم به صدها هزار و شاید میلیونها دیتاست برچسبدار نیاز داریم. از سوی دیگر ایجاد دیتاستهایی که به درستی برچسبگذاری شدهاند، هزینهبر و زمانبر است.
یادگیری به شیوه نوزادان
در نتیجه پیشرفتی که بخش هوش مصنوعی فیس بوک به آن نائل آمده میتوانیم مدلهای هوش مصنوعی را بر روی مجموعه بزرگی از دادههای تصویری بدون برچسب آموزش دهیم و سپس با استفاده از بخش بسیار کوچکی از دادههای برچسبدار- که لازمه آموزش چنین نرمافزارهایی است- آنها را برای انجام برخی مسائل مرتبط با بینایی کامپیوتر به صورت دقیق تنظیم کنیم.
به گفته یان لیکان ،دانشمند ارشد بخش هوش مصنوعی فیس بوک، هدف آنها ساخت یک سیستم هوش مصنوعی بوده که بتواند به شیوه کودکان بیاموزد. به بیان دیگر، سیستمی که بتوانند از طریق مشاهده و ساخت مدلهای ذهنی روابط میان اشیاء را یاد بگیرد.
لیکان در گفتوگو با Fortune گفت: « نوزادان از طریق مشاهده ساز و کار جهان پیرامون خود را یاد میگیرند»، وی در ادامه اظهار داشت: «پس از اینکه درک و شناخت کافی از جهان پیرامون خود به دست آوردید، روش انجام کارها را به سرعت یاد میگیرید.»
به اعتقاد لیکان دلیل اینکه بیشتر نوجوانان فقط پس از گذراندن چندین ساعت آموزش میتوانند رانندگی کنند هم به همین موضوع برمیگردد. از سوی دیگر، نرمافزارهایی که امروزه در وسایل نقلیه خودران مورد استفاده قرار میگیرد برای دستیابی به چنین عملکردی به میلیونها ساعت شبیهسازی نیاز دارند.
به گفته لیکان نباید از اهمیت آموزش سیستمهای تجاری AI بر روی حجم کمی از دادههای برچسبدار غافل شویم. برای مثال، نرمافزارهای بینایی کامپیوتر برای اینکه بتوانند در رادیولوژی (تصویربرداری تشخیصی) به دقتی برابر با رادیولوژیستها دست پیدا کنند به دهها هزار نمونه حاشیه نویسی شده نیاز دارند. اما برای آموزش سیستم بر روی گونهای نادر از بیماریهای ریوی ممکن است به این حجم از نمونه دسترسی نداشته باشیم.
مقدمهای بر SEER
طی سالهای اخیر، در نتیجه استفاده از چنین تکنیکهایی در حوزه NLP، قابلیتهای نرمافزارهای AI تا حد زیادی ارتقا پیدا کرده است. فناوریای که از آن یاد شد میتواند ترجمه کند، اسناد را خلاصه کند، به سؤالات مرتبط با متن پاسخ دهد و از روی یک متن کوتاه متنی طولانی و منسجم بنویسد. علاوه بر این، استفاده از چنین تکنیکهایی موجب شده عملکرد دستیاران دیجیتالی از جمله Alexa و Google Assistant در تشخیص صوت تا حد زیادی بهبود پیدا کند.
امید است سیستم جدیدی که بخش هوش مصنوعی فیس بوک ساخته به ارتقای عملکرد سیستمهای بینایی کامپیوتری و همچنین سیستمهایی که قادر به یادگیری روابط میان تصاویر و کلماتی به کار رفته در وصف آنها دامن بزند.
سیستم جدید بخش هوش مصنوعی فیس بوک موسوم به SEER جهش بزرگی در حوزه یادگیری خودنظارتی، زیرشاخهای از یادگیری ماشین، به حساب میآید. این مدل AI به تنهایی میتواند با استفاده از متدهای آماری و بدون نیاز به دادههای برچسبدار پرده از روابط میان دادهها بردارد. ( SEER عبارت کوتاهشده “self-supervised” است.)
SEER یک مدل بینایی فوقالعاده بزرگ است که ورودی آن بیش از یک میلیارد متغیر است و بیش از 1 میلیارد تصویر برای آموزش به آن داده شده است؛ تصاویری که برای آموزش این مدل استفاده شده از حسابهای عمومی اینستاگرام گرفته شده است. در یادگیری خودنظارتی در حوزه پردازش زبان طبیعی هم چنین روندی طی میشود. تعدادی از بهترین سیستمها میلیاردها متغیر را به عنوان ورودی دریافت میکنند و تقریباً هر چیزی که در اینترنت به صورت همگانی در دسترس است به آنها آموزش داده میشود.
SEERبر روی ImageNet، تست تشخیص تصاویر امضا، به نرخ دقتی برابر با 2/84% دست پیدا کرد و این در حالی است که اصلاً بر روی چنین دادههایی آموزش ندیده بود. این سیستم توانست از سیستمهای قبلی خودناظر که بر روی این مسائل آموزش دیده بودند پیشی بگیرد.
علاوه بر این، عملکرد SEER از بهترین سیستمهایی که دادههای برچسبدار مسائلی همچون تشخیص اشیاء، تقطیع تصویر و طبقهبندی تصویر به آنها آموزش داده شده بود، نیز به مراتب بهتر بود. حتی زمانیکه فقط 10% از نمونههای برچسبدار ImageNet به SEER آموزش داده شد هم توانست بر روی کل دیتاست ImageNet به نرخ دقتی برابر با 9/77% دست پیدا کند. زمانیهم که فقط 1% از نمونههای حاشیهنویسی شده ImageNet به آن آموزش داده شد، توانست به نرخ دقتی معادل % دست پیدا کند.
پلتفرمهای اجتماعی
هرچند شرکت فیس بوک تا به امروز از SEER یا دیگر سیستمهای بینایی کامپیوتری کاملاً خودناظر در شبکههای اجتماعی خود استفاده نکرده اما لیکان میگوید این شرکت از یک سیستم AI که نظارت کمی بر یادگیری آن صورت میگیرد و بر روی تصاویر مرتبط با هشتگهای اینستاگرامی آموزش دیده، استفاده میکند. فیس بوک با اتکا به همین سیستم توانسته تصاویر کاربران خود را بر اساس موضوع گروهبندی کند و تصاویر ناپسند و تبلیغات تروریستی را تشخیص دهد. به اعتقاد لیکان این احتمال وجود دارد که SEER و هر نرمافزار دیگری که از الگوریتمهایی مشابه این سیستم استفاده میکند، به اصلیترین و مهمترین سیستم بینایی این شرکت بدل شود و در آیندهای نزدیک برای انجام مسائل خاصی به صورت دقیق تنظیم شود.
لیکان با قبول این مطلب که اندازه سیستمهای AI خودناظر و قیمت سختافزارهای مورد نیاز برای آموزش و اجرای این سیستمها دغدغه بزرگی برای مدیران کسبوکارها و پژوهشگران دانشگاهی است، خاطر نشان میکند که پیشرفتهای چشمگیری در طراحی تراشههایی که به اجرای شبکههای عصبی بزرگ کمک میکنند حاصل شده است؛ شبکه های عصبی که نوعی نرمافزار یادگیری ماشین هستند و از مغز انسان الگوبرداری شدهاند، زیربنای بیشتر پیشرفتهایی را تشکیل میدهند که در هوش مصنوعی از جمله SEER حاصل شده و رشد سیستمهای یادگیری ماشینی بزرگ را سرعت میبخشند. به عبارت دیگر، هزینه آموزش این سیستمها در آینده باید کاهش پیدا کند.
لیکان میگوید تعداد اتصالات شبکههای عصبی بزرگ با تعداد اتصالات مغز یک موش برابری میکند. برای ساخت ماشینهایی که بتوانند هوشی همسطح انسانها داشته باشند، به سیستمهای نرمافزاری بزرگتری نیاز است.
لیکان که یکبار موفق به دریافت جایزه تورینگ، معتبرترین جایزه در حوزه علوم کامپیوتر، شده است نگرانی در مورد اثرات کربنی مدلهای AI بزرگ و خودناظر را بی مورد دانست. وی میگوید مراکز داده سراسر جهان حدود 1% تا 2% از برق کل جهان را مصرف کردهاند و در این میان آموزش و به کار گیری الگوریتمهای AI هم درصد کوچکی از این میزان برق را مصرف میکنند. به گفته وی میزان برق مصرفی تراشههای کامپیوتری که برای AI طراحی شدهاند، نسبت به تراشههای قدیمی کمتر است. در نتیجه میتوان نتیجه گرفت حتی اگر اندازه این نرمافزار باز هم افزایش یابد اثرات کربنی آن با گذشت زمان کاهش پیدا خواهد کرد.
تنگناهای اخلاقی
یکی از مسائل اخلاقیِ پیرامون استفاده از سیستمهای فوقالعاده بزرگ خودناظر که لیکان را نگران کرده این است که: به دلیل اینکه این سیستمها بر روی حجم بالایی از دادههای موجود در اینترنت آموزش میبینند، سوگیری – سوگیری نژادی و جنسیتی – دارند که ویژگی ذاتی اینگونه دادهها است. برخی اوقات تا زمانی که این سیستمها را پیادهسازی و اجرا نکنیم متوجه وجود چنین سوگیریهایی در آنها نمیشویم. به دلیل اینکه دیتاستهای آموزش بیش از اندازه بزرگ هستند، بررسی وجود چنین سوگیریهایی دشوار است.
به عقیده لیکان برای حذف چنین سوگیریهایی از سیستمهای خودناظر ممکن است لازم باشد هوش مصنوعی را به صورت تخصصی آموزش دهیم و علاوه بر این به یک دیتاست کوچک نیاز داشته باشیم تا سیستم این چنین سوگیریهایی را فراموش کند. برای حذف سوگیری از این سیستمها لازم است مطالعات بیشتری انجام شود.
به گفته لیکان حذف چنین سوگیریهایی «دشوار است» اما احتمالاً سوگیری سیستمهای خودناظر نسبت به برخی نرمافزارهای AI که بر روی نمونههای برچسبدار آموزش میبینند کمتر است، چرا که این برچسبها را معمولاً افرادی تعیین میکنند که سوگیری دارند و دیتاستها کوچکتر است، به همین دلیل نمونههای دارای سوگیری، تأثیر بیشتری بر جای خواهند گذاشت.
اعتقاد لیکان به سوگیری سیستمهای هوش مصنوعی قبلاً او را به دردسر انداخته است. سال گذشته، لیکان پس از مشاجره با تیمنیت گبرو، کارمند بخش هوش مصنوعی گوگل، بر سر شبکههای اجتماعی، به طور موقت توئیتر را ترک کرد. تیمنیت گبرو که پیش از این در سِمت پژوهشگر اصول اخلاقی AI در شرکت گوگل مشغول به کار بود به دلیل اعتراض به تأثیرات مدلهای زبانی بزرگ خودناظر از سِمت خود برکنار شد. برخی از مهندسان کامپیوتر لیکان را به منصف نبودن و داشتن لحنی آمرانه در مشاجره با گبرو متهم میکنند. گبرو یکی از چندین زن پژوهشگر سیاهپوست و شناخته شده در حوزه AI است. این مشاجره بر سر آسیبهای سیستمهای AI و همچنین مسئولیتپذیری پژوهشگران یادگیری ماشین در رسیدگی به آنها بوده است.
لیکان میگوید تکنیکهای خودناظر به کار رفته در SEER در آینده باید به سیستمها در پیشبینی و طبقهبندی ویدئوها کمک کنند. لیکان اذعان میکند که توسعه سیستمهای AI که درک خوبی از جهان پیرامون دارند و به درستی میتوانند اتفاق بعدی را در یک فیلم پیشبینی کنند مسئلهای است که سالها ذهن مهندسان کامپیوتر را به خود مشغول کرده است. یکی دیگر از موضوعات پژوهشی «یادگیری چندگانه Multimodal learning» است که در آن سیستم AI به صورت همزمان بر روی تصاویر و متن آموزش میبیند.
سیستم SEER به الگوریتمی مجهز است که فیس بوک آن را SwAV مینامد؛ SwAV مخفف “swapping assignments between multiple views” است که وظیفه خوشهبندی تصاویر را بر عهده دارد. در گام اول الگوریتم تغییراتی در یک تصویر ایجاد میکند، در این مورد تصویر چندین بار برش داده میشود تا از یک تصویر نماهای مختلفی داشته باشد. سپس الگوریتم تلاش میکند تا بر مبنای نماهای گوناگون خوشهای که تصویر اصلی باید در آن قرار بگیرد را پیشبینی کند.
طبق مطالبی که بخش هوش مصنوعی فیس بوک منتشر کرده این متد به سیستم کمک میکند بهتر آموزش ببیند. برای آموزش سیستم به این روش به یک ششم دادههایی نیاز است که در متدهای قبلی استفاده میشده است و بر مبنای مقایسه دو تصویر بودهاند.
فیس بوک قصد دارد الگوریتم AwAV را به صورت متن باز و رایگان در اختیار دیگران قرار دهد. در ضمن این شرکت قصد دارد مجموعهای از مؤلفههای مورد نیاز برای ساخت سیستمهای خودناظر بینایی ماشین و ابزارهایی برای محکزنی این سیستمها موسوم به VISSL در اختیار عموم قرار دهد.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید