شاهکار بخش هوش مصنوعی فیس بوک: جهشی در حوزه بینایی کامپیوتر

تیم تحریریه
۳۰ فروردین ۱۴۰۰
زمان مطالعه 4 دقیقه

بخش هوش مصنوعی فیس بوک نرم‌افزار جدیدی ساخته و شاید بهتر باشد شرکت‌ها هم برای انجام برخی مسائل بینایی کامپیوتر، از جمله تشخیص چهره و توابع مورد استفاده در وسایل نقلیه خودران، چنین نرم‌افزاری را آموزش دهند.

در حال حاضر برای آنکه بتوانیم سیستم‌های بینایی کامپیوتر را برای انجام چنین مسائلی آموزش دهیم به صدها هزار و شاید میلیون‌ها دیتاست‌ برچسب‌‌دار نیاز داریم. از سوی دیگر ایجاد دیتاست‌هایی که به درستی برچسب‌گذاری شده‌اند، هزینه‌بر و زمان‌بر است.

فهرست مقاله پنهان

1 یادگیری به شیوه نوزادان

2 مقدمه‌ای بر SEER

3 پلتفرم‌های اجتماعی

4 تنگنا‌های اخلاقی

یادگیری به شیوه نوزادان

در نتیجه پیشرفتی که بخش هوش مصنوعی فیس بوک به آن نائل آمده می‌توانیم مدل‌های هوش مصنوعی را بر روی مجموعه بزرگی از داده‌های تصویری بدون برچسب آموزش دهیم و سپس با استفاده از بخش بسیار کوچکی از داده‌های برچسب‌دار- که لازمه آموزش چنین نرم‌افزارهایی است- آن‌ها را برای انجام برخی مسائل مرتبط با بینایی کامپیوتر به صورت دقیق تنظیم کنیم.

به گفته یان لی‌کان ،دانشمند ارشد بخش هوش مصنوعی فیس بوک، هدف‌ آن‌ها ساخت یک سیستم هوش مصنوعی بوده که بتواند به شیوه کودکان بیاموزد. به بیان دیگر، سیستمی که بتوانند از طریق مشاهده و ساخت مدل‌های ذهنی روابط میان اشیاء را یاد بگیرد.

لی‌کان در گفت‌وگو با Fortune گفت: « نوزادان از طریق مشاهده ساز و کار جهان پیرامون خود را یاد می‌گیرند»، وی در ادامه اظهار داشت: «پس از اینکه درک و شناخت کافی از جهان پیرامون خود به دست آوردید، روش انجام کارها را به سرعت یاد می‌گیرید.»

به اعتقاد لی‌کان دلیل اینکه بیشتر نوجوانان فقط پس از گذراندن چندین ساعت آموزش می‌توانند رانندگی کنند هم به همین موضوع برمی‌گردد. از سوی دیگر، نرم‌افزارهایی که امروزه در وسایل نقلیه خودران مورد استفاده قرار می‌گیرد برای دستیابی به چنین عملکردی به میلیون‌ها ساعت شبیه‌سازی نیاز دارند.

به گفته لی‌کان نباید از اهمیت آموزش سیستم‌های تجاری AI بر روی حجم کمی از داده‌های برچسب‌دار غافل شویم. برای مثال، نرم‌افزارهای بینایی کامپیوتر برای اینکه بتوانند در رادیولوژی (تصویربرداری تشخیصی) به دقتی برابر با رادیولوژیست‌ها دست پیدا کنند به ده‌ها هزار نمونه حاشیه نویسی شده نیاز دارند. اما برای آموزش سیستم بر روی گونه‌ای نادر از بیماری‌های ریوی ممکن است به این حجم از نمونه دسترسی نداشته باشیم.

مقدمه‌ای بر SEER

طی سال‌های اخیر، در نتیجه استفاده از چنین تکنیک‌هایی در حوزه NLP، قابلیت‌های نرم‌افزارهای AI تا حد زیادی ارتقا پیدا کرده است. فناوری‌ای که از آن یاد شد می‌تواند ترجمه کند، اسناد را خلاصه کند، به سؤالات مرتبط با متن پاسخ دهد و از روی یک متن کوتاه متنی طولانی و منسجم بنویسد. علاوه بر این، استفاده از چنین تکنیک‌هایی موجب شده عملکرد دستیاران دیجیتالی از جمله Alexa و Google Assistant در تشخیص صوت تا حد زیادی بهبود پیدا کند.

امید است سیستم جدیدی که بخش هوش مصنوعی فیس بوک ساخته به ارتقای عملکرد سیستم‌های بینایی کامپیوتری و هم‌چنین سیستم‌هایی که قادر به یادگیری روابط میان تصاویر و کلماتی به کار رفته در وصف آن‌ها دامن بزند.

سیستم جدید بخش هوش مصنوعی فیس بوک موسوم به SEER جهش بزرگی در حوزه یادگیری خودنظارتی، زیرشاخه‌ای از یادگیری ماشین، به حساب می‌آید. این مدل AI به تنهایی می‌تواند با استفاده از متدهای آماری و بدون نیاز به داده‌های برچسب‌دار پرده از روابط میان داده‌ها بردارد. ( SEER عبارت کوتاه‌شده “self-supervised” است.)

SEER یک مدل بینایی فوق‌العاده بزرگ است که ورودی آن بیش از یک میلیارد متغیر است و بیش از ۱ میلیارد تصویر برای آموزش به آن داده شده است؛ تصاویری که برای آموزش این مدل استفاده شده از حساب‌های عمومی اینستاگرام گرفته شده است. در یادگیری خودنظارتی در حوزه پردازش زبان طبیعی هم چنین روندی طی می‌شود. تعدادی از بهترین سیستم‌ها میلیاردها متغیر را به عنوان ورودی دریافت می‌کنند و تقریباً هر چیزی که در اینترنت به صورت همگانی در دسترس است به آن‌ها آموزش داده می‌شود.

SEERبر روی ImageNet، تست تشخیص تصاویر امضا، به نرخ دقتی برابر با ۲/۸۴% دست پیدا کرد و این در حالی‌ است که اصلاً بر روی چنین داده‌هایی آموزش ندیده بود. این سیستم توانست از سیستم‌های قبلی خودناظر که بر روی این مسائل آموزش دیده بودند پیشی بگیرد.

علاوه بر این، عملکرد SEER از بهترین سیستم‌هایی که داده‌های برچسب‌دار مسائلی همچون تشخیص اشیاء، تقطیع تصویر و طبقه‌بندی تصویر به آن‌ها آموزش داده شده بود، نیز به مراتب بهتر بود. حتی زمانی‌که فقط ۱۰% از نمونه‌های برچسب‌دار ImageNet به SEER آموزش داده شد هم توانست بر روی کل دیتاست ImageNet به نرخ دقتی برابر با ۹/۷۷% دست پیدا کند. زمانی‌هم که فقط ۱% از نمونه‌های حاشیه‌نویسی شده ImageNet به آن آموزش داده شد، توانست به نرخ دقتی معادل % دست پیدا کند.

پلتفرم‌های اجتماعی

هرچند شرکت فیس بوک تا به امروز از SEER یا دیگر سیستم‌های بینایی کامپیوتری کاملاً خودناظر در شبکه‌های اجتماعی خود استفاده نکرده اما لی‌کان می‌گوید این شرکت از یک سیستم AI که نظارت کمی بر یادگیری آن صورت می‌گیرد و بر روی تصاویر مرتبط با هشتگ‌های اینستاگرامی آموزش دیده، استفاده می‌کند. فیس بوک با اتکا به همین سیستم توانسته تصاویر کاربران خود را بر اساس موضوع گروه‌بندی کند و تصاویر ناپسند و تبلیغات تروریستی را تشخیص دهد. به اعتقاد لی‌کان این احتمال وجود دارد که SEER و هر نرم‌افزار دیگری که از الگوریتم‌هایی مشابه این سیستم استفاده می‌کند، به اصلی‌ترین و مهم‌ترین سیستم بینایی این شرکت بدل شود و در آینده‌ای نزدیک برای انجام مسائل خاصی به صورت دقیق تنظیم شود.

لی‌کان با قبول این مطلب که اندازه سیستم‌های AI خودناظر و قیمت سخت‌افزارهای مورد نیاز برای آموزش و اجرای این سیستم‌ها دغدغه بزرگی برای مدیران کسب‌و‌کارها و پژوهشگران دانشگاهی است، خاطر نشان می‌کند که پیشرفت‌های چشمگیری در طراحی تراشه‌هایی که به اجرای شبکه‌های عصبی بزرگ کمک می‌کنند حاصل شده است؛ شبکه های عصبی که نوعی نرم‌افزار‌ یادگیری ماشین هستند و از مغز انسان الگوبرداری شده‌اند، زیربنای بیشتر پیشرفت‌هایی را تشکیل می‌دهند که در هوش مصنوعی از جمله SEER حاصل شده و رشد سیستم‌های یادگیری ماشینی بزرگ را سرعت می‌بخشند. به عبارت دیگر، هزینه آموزش این سیستم‌ها در آینده باید کاهش پیدا کند.

لی‌کان می‌گوید تعداد اتصالات شبکه‌های عصبی بزرگ با تعداد اتصالات مغز یک موش برابری می‌کند. برای ساخت ماشین‌هایی که بتوانند هوشی هم‌سطح انسان‌ها داشته باشند، به سیستم‌های نرم‌افزاری بزرگ‌تری نیاز است.

لی‌کان که یک‌بار موفق به دریافت جایزه تورینگ، معتبرترین جایزه در حوزه علوم کامپیوتر، شده است نگرانی در مورد اثرات کربنی مدل‌های AI بزرگ و خودناظر را بی مورد دانست. وی می‌گوید مراکز داده سراسر جهان حدود ۱% تا ۲% از برق کل جهان را مصرف کرده‌اند و در این میان آموزش و به کار گیری الگوریتم‌های AI هم درصد کوچکی از این میزان برق را مصرف می‌کنند. به گفته وی میزان برق مصرفی تراشه‌های کامپیوتری که برای AI طراحی شده‌اند، نسبت به تراشه‌های قدیمی کمتر است. در نتیجه می‌توان نتیجه گرفت حتی اگر اندازه این نرم‌افزار باز هم افزایش یابد اثرات کربنی آن با گذشت زمان کاهش پیدا خواهد کرد.

تنگنا‌های اخلاقی

یکی از مسائل اخلاقیِ پیرامون استفاده از سیستم‌های فوق‌العاده بزرگ خودناظر که لی‌کان را نگران کرده این است که: به دلیل اینکه این سیستم‌ها بر روی حجم بالایی از داده‌های موجود در اینترنت آموزش می‌بینند، سوگیری – سوگیری نژادی و جنسیتی – دارند که ویژگی ذاتی اینگونه داده‌ها است. برخی اوقات تا زمانی که این سیستم‌ها را پیاده‌سازی و اجرا نکنیم متوجه وجود چنین سوگیری‌هایی در آن‌ها نمی‌شویم. به دلیل اینکه دیتاست‌های آموزش بیش از اندازه بزرگ هستند، بررسی وجود چنین سوگیری‌هایی دشوار است.

به عقیده لی‌کان برای حذف چنین سوگیری‌هایی از سیستم‌های خودناظر ممکن است لازم باشد هوش مصنوعی را به صورت تخصصی آموزش دهیم و علاوه بر این به یک دیتاست کوچک نیاز داشته باشیم تا سیستم این چنین سوگیری‌هایی را فراموش کند. برای حذف سوگیری از این سیستم‌ها لازم است مطالعات بیشتری انجام شود.

به گفته لی‌کان حذف چنین سوگیری‌هایی «دشوار است» اما احتمالاً سوگیری سیستم‌های خودناظر نسبت به برخی نرم‌افزارهای AI که بر روی نمونه‌های برچسب‌دار آموزش می‌بینند کمتر است، چرا که این برچسب‌ها را معمولاً افرادی تعیین می‌کنند که سوگیری دارند و دیتاست‌ها کوچک‌تر است، به همین دلیل نمونه‌های دارای سوگیری، تأثیر بیشتری بر جای خواهند گذاشت.

اعتقاد لی‌کان به سوگیری سیستم‌های هوش مصنوعی قبلاً او را به دردسر انداخته است. سال گذشته، لی‌کان پس از مشاجره با تیمنیت گبرو، کارمند بخش هوش مصنوعی گوگل، بر سر شبکه‌های اجتماعی، به طور موقت توئیتر را ترک کرد. تیمنیت گبرو که پیش از این در سِمت پژوهشگر اصول اخلاقی AI در شرکت گوگل مشغول به کار بود به دلیل اعتراض به تأثیرات مدل‌های زبانی بزرگ خودناظر از سِمت خود برکنار شد. برخی از مهندسان کامپیوتر لی‌کان را به منصف نبودن و داشتن لحنی آمرانه در مشاجره با گبرو متهم می‌کنند. گبرو یکی از چندین زن پژوهشگر سیاه‌پوست و شناخته شده در حوزه AI است. این مشاجره بر سر آسیب‌های سیستم‌های AI و هم‌چنین مسئولیت‌پذیری پژوهشگران یادگیری ماشین در رسیدگی به آن‌ها بوده است.

لی‌کان می‌گوید تکنیک‌های خودناظر به کار رفته در SEER در آینده باید به سیستم‌ها در پیش‌بینی و طبقه‌بندی ویدئوها کمک کنند. لی‌کان اذعان می‌کند که توسعه سیستم‌های AI که درک خوبی از جهان پیرامون دارند و به درستی می‌توانند اتفاق بعدی را در یک فیلم پیش‌بینی کنند مسئله‌ای است که سال‌ها ذهن مهندسان کامپیوتر را به خود مشغول کرده است. یکی دیگر از موضوعات پژوهشی «یادگیری چندگانه Multimodal learning» است که در آن سیستم‌ AI به صورت همزمان بر روی تصاویر و متن آموزش می‌بیند.

سیستم SEER به الگوریتمی مجهز است که فیس بوک آن را SwAV می‌نامد؛ SwAV مخفف “swapping assignments between multiple views” است که وظیفه خوشه‌بندی تصاویر را بر عهده دارد. در گام اول الگوریتم تغییراتی در یک تصویر ایجاد می‌کند، در این مورد تصویر چندین بار برش داده می‌شود تا از یک تصویر نماهای مختلفی داشته باشد. سپس الگوریتم تلاش می‌کند تا بر مبنای نماهای گوناگون خوشه‌ای که تصویر اصلی باید در آن قرار بگیرد را پیش‌بینی کند.

طبق مطالبی که بخش هوش مصنوعی فیس بوک منتشر کرده این متد به سیستم کمک می‌کند بهتر آموزش ببیند. برای آموزش سیستم به این روش به یک ششم داده‌هایی نیاز است که در متدهای قبلی استفاده می‌شده است و بر مبنای مقایسه دو تصویر بوده‌اند.

فیس بوک قصد دارد الگوریتم AwAV را به صورت متن باز و رایگان در اختیار دیگران قرار دهد. در ضمن این شرکت قصد دارد مجموعه‌ای از مؤلفه‌های مورد نیاز برای ساخت سیستم‌های خودناظر بینایی ماشین و ابزارهایی برای محک‌زنی این سیستم‌ها موسوم به VISSL در اختیار عموم قرار دهد.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید