یادگیری بدون نظارت چیست؟ هرآنچه باید درباره آن بدانید

تیم تحریریه
۲۲ فروردین ۱۴۰۱

زمان مطالعه: 4 دقیقه

هوش مصنوعی در جایگاه فناوری نوینی که تمامی عرصه‌های علوم و صنایع و زندگی بشری را تحت‌الشعاع قرار داده است، هوشی است که از طریق ماشین‌ها امکان ظهور می‌یابد و برای رسیدن به این منظور می‌باید در ماشین‌ها قدرت یادگیری ایجاد گردد. از همین رو یکی از زیرشاخه‌های مهم فناوری هوش مصنوعی، یادگیری ماشین (Machine learning) است که گاه به اختصار ام‌ال (ML) خوانده می‌شود. در یک نگاه کلی یاد‌‌‌‌‌‌‌‌‌گیری ماشین به سه بخش «یاد‌‌‌‌‌‌‌‌گیری با نظا‌‌‌‌‌‌‌‌‌‌‌‌رت» (supervised learning) و «یادگیری بدون نظارت» (unsupervised learning) و «یادگیر‌‌‌‌‌‌‌‌‌ی تقویتی» (Reinforcement Learning) تقسیم می‌شود. البته در این میان شاخه‌های دیگری نیز تعریف شده است؛ ازجمله حد واسط بین «یادگیری با نظارت» و «یادگیری بدون نظارت» را «یادگیری نیمه‌نظارتی» (Semi-supervised Learning) می‌خوانند که در آن بخشی از ویژگی‌های هر یک از دو نمونه یادگیری دیگر وجود دارد.

یادگیری ماشین به زبان ساده دانشی است که با استفاده از آن رایانه‌ها توانایی فراگرفتن چیزی را پیدا می‌کنند. فرایند این فراگیری مبتنی بر بهره بردن از الگوریتم‌ها و مدل‌هایی آماری است. بر این اساس رایانه‌ها بدون برنامه‌ریزی آشکار و دریافت فرمانی مشخص، با استفاده از الگوها و استنباط می‌توانند وظایف خود را به انجام برسانند.

این مقاله به قصد معرفی «یاد‌‌‌‌‌‌‌گیری بدون نظار‌‌‌‌‌‌‌‌‌‌ت» نوشته شده است؛ اما به دلیل ارتباط مفاهیم سلبی و ایجابی، بهتر است برای درک مفهوم و موقعیت «یادگیر‌‌‌‌‌‌‌‌‌‌ی بدون نظار‌‌‌‌‌‌‌‌‌ت» در یادگیری ماشین، ابتدا توضیح بسیار مختصری در مورد نقطه مقابل آن یعنی «یادگیری با نظارت» بدهیم.

در «یادگیری با نظارت» یک ناظر با در اختیار قرار دادن اطلاعات، ماشین را از ورودی و خروجی آگاه می‌کند و ماشین بر اساس داده‌های برچسب‌گذاری‌شده قادر به تشخیص خواهد شد؛ اما نحوه عملکرد در «یادگیری بدون نظارت»، که در ادامه به طور مفصل از آن سخن خواهیم گفت، چنین نیست.

تعریف یادگیری بدون نظارت

برای تعریف یادگیری بدون نظارت به زبان ساده باید گفت کاربران در این روش از نظارت بر مدل بی‌نیاز هستند. در این روش مدل خود در جهت کشف الگوها و به دست آوردن اطلاعات نامکشوف وارد عمل می‌شود. در یادگیری بدون نظارت، ماشین در موقعیتی که میان ورودی و خروجی ارتباطی برقرار نیست، با داده‌هایی که برچسب‌گذاری نشده‌اند مواجه می‌شود. یعنی ماشین می‌باید در داده‌هایی که از قبل مشخص نشده‌اند به دنبال ساختاری ویژه بگردد تا بتواند برای ایجاد یک دسته‌بندی‌ از آن‌ها استفاده کند.

معمولاً ذهن ناآشنا با یک یا چند مثال بهتر می‌تواند تعریف مفاهیم را درک کند. به همین دلیل در اینجا تعریف یادگیری بدون نظارت و تفاوت آن با یادگیری با نظارت را با ذکر چند مثال روشن‌تر می‌کنیم.

نوزادی را تصور کنید که در خانه با گربه‌ای که والدینش از آن نگه‌داری می‌کنند آشنا شده است. اگر والدین نوزاد بعد از مدتی گربه‌ای دیگر را به خانه راه بدهند، نوزاد بدون اینکه نیازی به توضیح والدین داشته باشد یا اینکه قبلاً آن گربه را دیده باشد، با مطابقت دادن ویژگی‌های برجسته و اساسی گربه قبلی و گربه جدید، و مواردی مانند هیئت کلی و اندازه جثه، پوشیدگی بدن از مو، نحوه چهار دست و پا راه رفتن، شکل دو چشم و دو گوش و دم و پنجه‌ها، صدای جانور و…، تشخیص می‌دهد این حیوان تازه‌وارد هم گربه است؛ این مثالی در تعریف یاد‌‌‌‌‌‌‌‌‌گیری بدون نظار‌‌‌‌‌‌‌‌‌‌‌‌‌‌ت شمرده می‌شود؛ اما اگر والدین جانور جدید را به نوزاد معرفی کنند یادگیری با نظارت شکل می‌گیرد.

اگر وارد مثال‌های واقعی در تعریف یادگیری بدون نظارت بشویم می‌توانیم از نحوه تعریف و تشخیص پیام صحیح (ایمیل دریافتی سالم) و هرزنامه (اسپم) در دو روش یادگیری بدون نظارت و یادگیری با نظارت یاد کنیم. اگر در ابتدا تمامی داده‌ها را به دو بخش پیام و هرزنامه تقسیم کنیم تا بعد ماشین بر اساس این داده‌های برچسب‌گذاری‌شده قدرت تشخیص دادن این دو را در ایمیل‌های تازه‌ای که می‌رسد به دست بیاورد از یاد‌‌‌‌‌‌‌‌‌‌گیری با نظار‌‌‌‌‌‌‌‌‌ت استفاده کرده‌ایم. در یادگیر‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ی بدون نظار‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ت، بدون برچسب زدن اولیه به پیام و هرزنامه، انتظار داریم ماشین خود بر اساس الگوریتم‌های طراحی‌شده و مطابقت دادن ویژگی‌های ایمیل‌های دریافتی، ایمیل سالم را از ناسالم تشخیص دهد.

مزایای بهره‌گیری از یادگیری بدون نظارت

یادگیری بدون نظارت مزایا و ویژگی‌های قابل توجهی دارد که ما را مجاب به بهره‌گیری از آن می‌کند. از میان این مزایا و ویژگی‌ها که به عنوان دلایل استفاده از یاد‌‌‌‌‌‌‌‌گیری بدو‌‌‌‌‌ن نظار‌‌‌‌‌‌‌‌‌‌ت شناخته می‌شوند، باید به این نکته اشاره کرد که ماشین در یاد‌‌‌‌‌‌‌‌‌‌‌‌گیری بدون نظار‌‌‌‌‌‌‌‌‌‌‌‌ت قادر به یافتن تمامی انواع داده‌های نامکشوف خواهد بود. همچنین اینکه در یاد‌‌‌‌‌‌‌‌‌گیری بدون نظار‌‌‌‌‌‌‌‌‌‌‌‌‌‌ت ما قادریم ویژگی‌هایی را که برای دسته‌بندی داده‌ها به کار می‌آیند بهتر پیدا کنیم از مزایای آن شمرده می‌شود.

در مقابل یاد‌‌‌‌‌‌‌‌‌‌گیری با نظار‌‌‌‌‌‌‌‌ت که در آن فرایند فراگیری زمان‌بر و نیازمند صرف وقت داده‌پژوهان است، یادگیر‌‌‌‌‌‌‌‌‌ی بدون نظار‌‌‌‌‌‌‌‌‌ت در زمان واقعی و بی‌درنگ به انجام می‌رسد. از مزایای دیگر یادگیر‌‌‌‌‌‌‌ی بدون نظار‌‌‌‌‌‌‌‌ت این است که دریافت داده‌های برچسب‌گذاری‌نشده (یعنی داده‌های مربوط به یادگیر‌‌‌‌‌‌‌ی بدون نظا‌‌‌‌‌‌رت) از رایانه در مقایسه با داده‌های برچسب‌دار (مربوط به یاد‌‌‌‌‌‌گیری با نظار‌‌‌‌‌‌‌‌‌‌‌ت) آسان‌تر است؛ زیرا در داده‌های اخیر، برخلاف آنچه در یاد‌‌‌‌‌‌‌‌‌گیری بدون نظا‌‌‌‌‌‌‌رت وجود دارد، مداخله دستی نیز مورد نیاز است.

الگوریتم‌های یادگیری بدون نظارت در روش خوشه‌بندی

در یادگیری بدون نظارت الگوریتم‌هایی مورد استفاده قرار می‌گیرد که انجام دادن امور پردازشی دشوار و پیچیده‌تری را نسبت به یادگیر‌‌‌‌‌‌‌ی با نظار‌‌‌‌‌‌‌ت برای کاربران مسیر می‌سازد. یکی از روش‌های بهره‌گیری از این الگوریتم‌ها، که در یادگیر‌‌‌‌‌‌‌‌‌‌‌‌‎ی بدون نظا‌‌‌‌‌‌‌‌‌‌رت اهمیت ویژه‌ای دارد، روش خوشه‌بندی (Clustering) است.

البته باید توجه داشت که خوشه‌بندی نه یک الگوریتم خاص، بلکه فرایندی است که با استفاده از الگوریتم‌هایی گوناگون پدید می‌آید و منجر به پیدا کردن الگو یا ساختاری مشخص در میان داده‌های دسته‌بندی‌نشده می‌گردد.

در خوشه‌بندی، الگوریتم‌های مورد استفاده برای یاد‌‌‌‌‌‌‌‌‌گیری بد‌‌‌‌‌‌‌‌‌‌‌ون نظا‌‌‌‌‌‌‌‌‌‌‌رت، داده‌های متعدد را بر اساس مشابهت میان آن‌ها در خوشه یا گروهی مجزا قرار می‌دهد. کاربر امکان تعیین تعداد خوشه‌ها در هر خوشه‌بندی را نیز دارد.

الگوریتم‌های یادگیری بدون نظارت در روش خوشه‌بندی

الگوریتم‌های یادگیری بدون نظارت در روش پیوستگی

یکی از روش‌های دیگر در مورد بهره بردن از الگوریتم‌ها در یادگیری بدون نظارت، روش پیوستگی (Association) است.

در روش پیوستگی، الگوریتم‌ها بر طبق موازین و قوانینی برای رسیدن به یادگیر‌‌‌‌‌‌ی بد‌‌‌‌‌‌‌‌‌ون نظارت کار می‌کنند تا در پایگاه‌های کلان‌داده برقرار کردن ارتباط و پیوستگی میان داده‌ها مقدور شود. یادگیر‌‌‌‌‌‌‌‌‌‌ی بدو‌‌‌‌‌‌‌‌‌ن نظارت با روش پیوستگی، مبتنی بر کشف رابطه‌های نهفته در میان متغیرهای مختلف است؛ برای نمونه در میان دو متغیر خرید خانه و تعویض مبلمان ارتباطی برقرار است؛ زیرا کسانی که اقدام به خرید خانه‌ای نو می‌کنند معمولاً نسبت به تعویض مبلمان خانه هم علاقه نشان می‌دهند. به همین ترتیب ممکن است میان خرید کالای «الف» با تهیه کالای «ب» پیوستگی و ارتباطی وجود داشته باشد که الگوریتم‌ها در روش پیوستگی آن‌ها را می‌یابند.

الگوریتم‌های کاهش ابعاد در یادگیری بدون نظارت

در یادگیری بدون نظارت از الگوریتم‌های کاهش ابعاد (Dimensionality Reduction) هم استفاده می‌شود. کاهش ابعاد، در جایی به کار می‌آید که مجموعه داده‌ها شامل تعداد بسیار زیادی متغیر غیرضروری باشد. در این صورت داده‌ها به وسیله الگوریتم‌های کاهش ابعاد از فضایی بسیار گسترده به فضایی محدود تقلیل پیدا می‌کند. البته در جریان این کاهش ابعاد خصوصیات معنی‌دار داده‌های اصلی از بین نمی‌رود و در بهترین شرایط داده‌هایی که کاهش ابعاد روی آن‌ها صورت گرفته به بعد اصلی بسیار نزدیک خواهد بود.

تشخیص نابهنجاری در یادگیری بدون نظارت

در یادگیری بدون نظارت می‌توان از روش تشخیص نابهنجاری (Anomaly detection) هم بهره برد.

تشخیص نابهنجاری، که گاه تشخیص دورافتاده (Outlier detection) هم خوانده می‌شود و در یاد‌‌‌‌‌‌‌گیری با نظار‌‌‌‌‌‌ت و نیمه‌نظارتی نیز کاربرد دارد، به معنی شناسایی الگوهایی است که در یک مجموعه داده‌، از محدوده رفتارهای بهنجاری که از قبل برای آن‌ها پیش‌بینی و تعیین شده تخطی می‌کنند یا به اصطلاح از هنجار دور می‌افتند. در یادگیری بدون نظارت، اعمالِ روش تشخیص نابهنجاری زمانی می‌تواند موفقیت‌آمیز باشد که داده‌ها به شکل دقیق و مناسب توزیع شده باشند.

کشف متغیرهای پنهان در یادگیری بدون نظارت

از آنجا که در یادگیری بدون نظارت با داده‌هایی که برچسب‌گذاری نشده‌اند مواجه هستیم، در این شیوه کشف متغیرهای پنهان از اهمیت ویژه‌ای برخوردار است. منظور از متغیرهای پنهان، که در برابر متغیرهای مشاهده‌شده قرار می‌گیرند و با نام‌های مختلف دیگری مانند متغیرهای پنهان، پارامترهای مدل، ساختارها یا متغیرهای فرضی نیز از آن‌ها یاد می‌شود، متغیرهایی است که مشاهده آن‌ها به شکل مستقیم ممکن نیست. کشف و استنباط این متغیرهای پنهان با استفاده از یک الگوی ریاضی از بین متغیرهای قابل مشاهده دیگر میسر می‌گردد.