یادگیری بدون نظارت چیست؟ هرآنچه باید درباره آن بدانید
هوش مصنوعی در جایگاه فناوری نوینی که تمامی عرصههای علوم و صنایع و زندگی بشری را تحتالشعاع قرار داده است، هوشی است که از طریق ماشینها امکان ظهور مییابد و برای رسیدن به این منظور میباید در ماشینها قدرت یادگیری ایجاد گردد. از همین رو یکی از زیرشاخههای مهم فناوری هوش مصنوعی، یادگیری ماشین (Machine learning) است که گاه به اختصار امال (ML) خوانده میشود. در یک نگاه کلی یادگیری ماشین به سه بخش «یادگیری با نظارت» (supervised learning) و «یادگیری بدون نظارت» (unsupervised learning) و «یادگیری تقویتی» (Reinforcement Learning) تقسیم میشود. البته در این میان شاخههای دیگری نیز تعریف شده است؛ ازجمله حد واسط بین «یادگیری با نظارت» و «یادگیری بدون نظارت» را «یادگیری نیمهنظارتی» (Semi-supervised Learning) میخوانند که در آن بخشی از ویژگیهای هر یک از دو نمونه یادگیری دیگر وجود دارد.
یادگیری ماشین به زبان ساده دانشی است که با استفاده از آن رایانهها توانایی فراگرفتن چیزی را پیدا میکنند. فرایند این فراگیری مبتنی بر بهره بردن از الگوریتمها و مدلهایی آماری است. بر این اساس رایانهها بدون برنامهریزی آشکار و دریافت فرمانی مشخص، با استفاده از الگوها و استنباط میتوانند وظایف خود را به انجام برسانند.
این مقاله به قصد معرفی «یادگیری بدون نظارت» نوشته شده است؛ اما به دلیل ارتباط مفاهیم سلبی و ایجابی، بهتر است برای درک مفهوم و موقعیت «یادگیری بدون نظارت» در یادگیری ماشین، ابتدا توضیح بسیار مختصری در مورد نقطه مقابل آن یعنی «یادگیری با نظارت» بدهیم.
در «یادگیری با نظارت» یک ناظر با در اختیار قرار دادن اطلاعات، ماشین را از ورودی و خروجی آگاه میکند و ماشین بر اساس دادههای برچسبگذاریشده قادر به تشخیص خواهد شد؛ اما نحوه عملکرد در «یادگیری بدون نظارت»، که در ادامه به طور مفصل از آن سخن خواهیم گفت، چنین نیست.
تعریف یادگیری بدون نظارت
برای تعریف یادگیری بدون نظارت به زبان ساده باید گفت کاربران در این روش از نظارت بر مدل بینیاز هستند. در این روش مدل خود در جهت کشف الگوها و به دست آوردن اطلاعات نامکشوف وارد عمل میشود. در یادگیری بدون نظارت، ماشین در موقعیتی که میان ورودی و خروجی ارتباطی برقرار نیست، با دادههایی که برچسبگذاری نشدهاند مواجه میشود. یعنی ماشین میباید در دادههایی که از قبل مشخص نشدهاند به دنبال ساختاری ویژه بگردد تا بتواند برای ایجاد یک دستهبندی از آنها استفاده کند.
معمولاً ذهن ناآشنا با یک یا چند مثال بهتر میتواند تعریف مفاهیم را درک کند. به همین دلیل در اینجا تعریف یادگیری بدون نظارت و تفاوت آن با یادگیری با نظارت را با ذکر چند مثال روشنتر میکنیم.
نوزادی را تصور کنید که در خانه با گربهای که والدینش از آن نگهداری میکنند آشنا شده است. اگر والدین نوزاد بعد از مدتی گربهای دیگر را به خانه راه بدهند، نوزاد بدون اینکه نیازی به توضیح والدین داشته باشد یا اینکه قبلاً آن گربه را دیده باشد، با مطابقت دادن ویژگیهای برجسته و اساسی گربه قبلی و گربه جدید، و مواردی مانند هیئت کلی و اندازه جثه، پوشیدگی بدن از مو، نحوه چهار دست و پا راه رفتن، شکل دو چشم و دو گوش و دم و پنجهها، صدای جانور و…، تشخیص میدهد این حیوان تازهوارد هم گربه است؛ این مثالی در تعریف یادگیری بدون نظارت شمرده میشود؛ اما اگر والدین جانور جدید را به نوزاد معرفی کنند یادگیری با نظارت شکل میگیرد.
اگر وارد مثالهای واقعی در تعریف یادگیری بدون نظارت بشویم میتوانیم از نحوه تعریف و تشخیص پیام صحیح (ایمیل دریافتی سالم) و هرزنامه (اسپم) در دو روش یادگیری بدون نظارت و یادگیری با نظارت یاد کنیم. اگر در ابتدا تمامی دادهها را به دو بخش پیام و هرزنامه تقسیم کنیم تا بعد ماشین بر اساس این دادههای برچسبگذاریشده قدرت تشخیص دادن این دو را در ایمیلهای تازهای که میرسد به دست بیاورد از یادگیری با نظارت استفاده کردهایم. در یادگیری بدون نظارت، بدون برچسب زدن اولیه به پیام و هرزنامه، انتظار داریم ماشین خود بر اساس الگوریتمهای طراحیشده و مطابقت دادن ویژگیهای ایمیلهای دریافتی، ایمیل سالم را از ناسالم تشخیص دهد.
مزایای بهرهگیری از یادگیری بدون نظارت
یادگیری بدون نظارت مزایا و ویژگیهای قابل توجهی دارد که ما را مجاب به بهرهگیری از آن میکند. از میان این مزایا و ویژگیها که به عنوان دلایل استفاده از یادگیری بدون نظارت شناخته میشوند، باید به این نکته اشاره کرد که ماشین در یادگیری بدون نظارت قادر به یافتن تمامی انواع دادههای نامکشوف خواهد بود. همچنین اینکه در یادگیری بدون نظارت ما قادریم ویژگیهایی را که برای دستهبندی دادهها به کار میآیند بهتر پیدا کنیم از مزایای آن شمرده میشود.
در مقابل یادگیری با نظارت که در آن فرایند فراگیری زمانبر و نیازمند صرف وقت دادهپژوهان است، یادگیری بدون نظارت در زمان واقعی و بیدرنگ به انجام میرسد. از مزایای دیگر یادگیری بدون نظارت این است که دریافت دادههای برچسبگذارینشده (یعنی دادههای مربوط به یادگیری بدون نظارت) از رایانه در مقایسه با دادههای برچسبدار (مربوط به یادگیری با نظارت) آسانتر است؛ زیرا در دادههای اخیر، برخلاف آنچه در یادگیری بدون نظارت وجود دارد، مداخله دستی نیز مورد نیاز است.
الگوریتمهای یادگیری بدون نظارت در روش خوشهبندی
در یادگیری بدون نظارت الگوریتمهایی مورد استفاده قرار میگیرد که انجام دادن امور پردازشی دشوار و پیچیدهتری را نسبت به یادگیری با نظارت برای کاربران مسیر میسازد. یکی از روشهای بهرهگیری از این الگوریتمها، که در یادگیری بدون نظارت اهمیت ویژهای دارد، روش خوشهبندی (Clustering) است.
البته باید توجه داشت که خوشهبندی نه یک الگوریتم خاص، بلکه فرایندی است که با استفاده از الگوریتمهایی گوناگون پدید میآید و منجر به پیدا کردن الگو یا ساختاری مشخص در میان دادههای دستهبندینشده میگردد.
در خوشهبندی، الگوریتمهای مورد استفاده برای یادگیری بدون نظارت، دادههای متعدد را بر اساس مشابهت میان آنها در خوشه یا گروهی مجزا قرار میدهد. کاربر امکان تعیین تعداد خوشهها در هر خوشهبندی را نیز دارد.
الگوریتمهای یادگیری بدون نظارت در روش پیوستگی
یکی از روشهای دیگر در مورد بهره بردن از الگوریتمها در یادگیری بدون نظارت، روش پیوستگی (Association) است.
در روش پیوستگی، الگوریتمها بر طبق موازین و قوانینی برای رسیدن به یادگیری بدون نظارت کار میکنند تا در پایگاههای کلانداده برقرار کردن ارتباط و پیوستگی میان دادهها مقدور شود. یادگیری بدون نظارت با روش پیوستگی، مبتنی بر کشف رابطههای نهفته در میان متغیرهای مختلف است؛ برای نمونه در میان دو متغیر خرید خانه و تعویض مبلمان ارتباطی برقرار است؛ زیرا کسانی که اقدام به خرید خانهای نو میکنند معمولاً نسبت به تعویض مبلمان خانه هم علاقه نشان میدهند. به همین ترتیب ممکن است میان خرید کالای «الف» با تهیه کالای «ب» پیوستگی و ارتباطی وجود داشته باشد که الگوریتمها در روش پیوستگی آنها را مییابند.
الگوریتمهای کاهش ابعاد در یادگیری بدون نظارت
در یادگیری بدون نظارت از الگوریتمهای کاهش ابعاد (Dimensionality Reduction) هم استفاده میشود. کاهش ابعاد، در جایی به کار میآید که مجموعه دادهها شامل تعداد بسیار زیادی متغیر غیرضروری باشد. در این صورت دادهها به وسیله الگوریتمهای کاهش ابعاد از فضایی بسیار گسترده به فضایی محدود تقلیل پیدا میکند. البته در جریان این کاهش ابعاد خصوصیات معنیدار دادههای اصلی از بین نمیرود و در بهترین شرایط دادههایی که کاهش ابعاد روی آنها صورت گرفته به بعد اصلی بسیار نزدیک خواهد بود.
تشخیص نابهنجاری در یادگیری بدون نظارت
در یادگیری بدون نظارت میتوان از روش تشخیص نابهنجاری (Anomaly detection) هم بهره برد.
تشخیص نابهنجاری، که گاه تشخیص دورافتاده (Outlier detection) هم خوانده میشود و در یادگیری با نظارت و نیمهنظارتی نیز کاربرد دارد، به معنی شناسایی الگوهایی است که در یک مجموعه داده، از محدوده رفتارهای بهنجاری که از قبل برای آنها پیشبینی و تعیین شده تخطی میکنند یا به اصطلاح از هنجار دور میافتند. در یادگیری بدون نظارت، اعمالِ روش تشخیص نابهنجاری زمانی میتواند موفقیتآمیز باشد که دادهها به شکل دقیق و مناسب توزیع شده باشند.
کشف متغیرهای پنهان در یادگیری بدون نظارت
از آنجا که در یادگیری بدون نظارت با دادههایی که برچسبگذاری نشدهاند مواجه هستیم، در این شیوه کشف متغیرهای پنهان از اهمیت ویژهای برخوردار است. منظور از متغیرهای پنهان، که در برابر متغیرهای مشاهدهشده قرار میگیرند و با نامهای مختلف دیگری مانند متغیرهای پنهان، پارامترهای مدل، ساختارها یا متغیرهای فرضی نیز از آنها یاد میشود، متغیرهایی است که مشاهده آنها به شکل مستقیم ممکن نیست. کشف و استنباط این متغیرهای پنهان با استفاده از یک الگوی ریاضی از بین متغیرهای قابل مشاهده دیگر میسر میگردد.