تفاوت یادگیری خودنظارتی و نیمه نظارتی چیست؟
وقتی بحث از مدلهای یادگیری ماشین به میان میآید، دو روش اصلی در ذهن تداعی میشود: یادگیری نظارت شده supervised learning و یادگیری نظارت نشده unsupervised learning. اما تفاوت یادگیری خودنظارتی و نیمه نظارتی چیست؟ تفاوت اصلی این دو روش در دادههای برچسبدار میباشد. فقط یادگیری نظارت شده حاوی این نوع دادهها است.
هر دو روش معایب خاص خود را دارند. دانشمندان به تدریج روشهای مبتکرانهای برای بهرهبرداری حداکثری از آنها به کار بردهاند. یادگیری خود نظارت شده و یادگیری نیمه نظارت شده دو نمونه از محبوبترین روشها هستند. هر دو روش رویکردی ترکیبی دارند، اما از ویژگیهای متمایزی برخوردارند.
یادگیری خود نظارت شده
در توضیح تفاوت یادگیری خودنظارتی و نیمه نظارتی چیست باید گفت در یادگیری با نظارت، دادههای برچسبدار در اختیار سامانههای هوش مصنوعی قرار میگیرد. اما اگر با مدلهای بزرگتری کار کنید، برچسب زدن به همه دادهها دشوار خواهد شد. افزون بر این، برای برخی از کارها دادههای برچسبدارِ کافی وجود ندارد. برای نمونه، آموزش سامانههای ترجمه برای زبانهایی که منبع کمتری دارند، نیازمند این نوع دادهها میباشد. یان لیکان – دانشمند هوش مصنوعی فیسبوک – در کنفرانس AAAI سال 2020 به معرفی یادگیری نیمه نظارت شده پرداخت تا بر این چالشها فائق آید.
این رویکرد یک سیگنال نظارتی را با استفاده از ساختارهای پنهان به دست میآورد. رویکرد کلی در یادگیری خود نظارت شده این است که بخشهای مشاهده نشده یا پنهان ورودی را پیشبینی کند. برای مثال، واژههای یک خط در پردازش زبان طبیعی با استفاده از بقیه واژههای موجود در جمله پیشبینی میشود. چون یادگیری نیمه نظارت شده از ساختار داده برای یادگیری استفاده میکند، میتواند بدون تکیه بر برچسبها از سیگنالهای نظارتی گوناگونی در مجموعهدادههای بزرگ استفاده نماید.
سیستم یادگیری خود نظارت شده درصددِ ایجاد نوعی سامانه هوش مصنوعی است که کارایی دادهای بالایی داشته باشد. این روش معمولاً نسخه بسطیافته یا پیشرفتهی روشهای یادگیری نظارت نشده میباشد. با این حال، بر خلاف یادگیری نظارت نشده، روش یادگیری خود نظارت شده بر خوشه بندی یا گروهبندی تمرکز نمیکند. دلیل نامگذاری آن به «یادگیری خود نظارت شده» این است که «غیر نظارت شده» اصطلاح سنگین و گیجکنندهای است.
مزایای یادگیری خود نظارت شده
در یادگیری خود نظارت شده، سیستم یاد میگیرد بخشی از ورودی را از سایر بخشهای آن ورودی پیشبینی کند. البته میتوان آن را نسخه مستقلی از یادگیری نظارت شده نیز در نظر گرفت زیرا به هیچ دادهی ورودی در قالب «برچسبزنی داده» نیاز ندارد. یادگیری خود نظارت شده سه مزیت عمده دارد:
مقیاسپذیری: روش یادگیری نظارت شده برای پیشبینی دادههای نامعلوم به دادههای برچسبدار احتیاج دارد. با این حال، ممکن است نیازمندِ مجموعهدادهی بزرگی برای ساخت مدلهایی باشد که پیشبینیهای دقیقی انجام میدهند. برچسبزنی دادهها به صورت دستی، زمانبر و معمولاً غیرعملی است. لذا، یادگیری خود نظارت شده حتی با وجود حجم عظیمی از داده میتواند این فرایند را به صورت خودکار انجام دهد.
قابلیتهای بهبود یافته: یادگیری خود نظارت شده کاربردهای قابلملاحظهای در بینایی ماشین دارد و میتواند نقش موثری در انجام برخی کارها از قبیل رنگدهی colourisation، چرخش سهبعدی، تکمیل عمق و پر کردن بافت داشته باشد. بازشناسی گفتار نیز از جمله حوزههای دیگری است که یادگیری خود نظارت شده در آن میدرخشد.
مداخله انسان: یادگیری خود نظارت شده برچسبها را بدون دخالت انسان و به صورت خودکار ایجاد میکند.
علیرغم مزایای گوناگونی که یادگیری خود نظارت شده دارد، این روش از عدمقطعیت رنج میبرد. در مواردی نظیر مدل BERT شرکت گوگل که متغیرها گسستهاند، این روش عملکرد بسیار خوبی از خود بر جای میگذارد. با این حال، اگر متغیرها توزیع پیوستهای داشته باشند، روش فوق در حصول نتایج مطلوب ناکام میماند.
یادگیری نیمه نظارت شده
برای درک بهتر تفاوت یادگیری خودنظارتی و نیمه نظارتی به ادامه مطلب دقت کنید. یادگیری نیمه نظارت شده ترکیبی از یادگیری نظارت نشده و نظارت شده میباشد. این روش از مقدار کمی دادهی برچسبدار و مقدار زیادی دادهی بدون برچسب استفاده میکند. روش یادگیری نیمه نظارت شده شامل مراحل زیر است:
- در ابتدا، مدل تا جایی با مقدار اندکی دادهی برچسبدار آموزش داده میشود که نتایج مطلوبی به دست آید.
- از مدل حاویِ مجموعهداده آموزش بدون برچسب یا برچسب ساختگی برای پیشبینی خروجی استفاده میشود.
- برچسبهای حاصل از دادههای آموزش برچسبدار با برچسبهای ساختگی و همچنین، ورودی دادههای حاصل از دادههای آموزش برچسبدار با ورودیهای موجود در دادههای بدون برچسب تجمیع میشوند.
- به همان ترتیبی که در مجموعهدادهی کاملاً برچسبدار عمل شد، مدل آموزش داده میشود.
یکی از رویکردهای محبوب در یادگیری نیمه نظارت شده این است که الگوریتمهای خوشهبندی و طبقهبندی را ادغام کنیم. الگوریتمهای خوشهبندی به یک سری روشهای یادگیری نظارت نشده اطلاق میشود که دادهها را بر اساس وجوه شباهتشان گروهبندی میکند. این الگوریتمها نقش موثری در شناسایی مرتبطترین نمونهها در مجموعهداده دارند. میتوان به این نمونهها برچسب زد و برای آموزش مدل یادگیری نظارت شده در کار طبقهبندی استفاده کرد.
یادگیری نیمه نظارت شده و یادگیری خود نظارت شده
مهمترین شباهت میان دو روش فوقالذکر این است که هر دو تماماً به دادههای برچسبدار متکی نیستند. با این حال، شباهت آنها فقط به همین مورد ختم میشود. در روش یادگیری خود نظارت شده، مدل از ساختارِ داده برای پیشبینی نتایج استفاده میکند. هیچ داده برچسبداری در این راستا استفاده نمیشود. با وجود این، مقداری داده برچسبدار در یادگیری نیمه نظارت شده به کار برده میشود.