آیا مدل پیشرفته یادگیری ماشین می‌تواند سوگیری موجود در دیتاست‌ها را از بین ببرند؟

تیم تحریریه
۳ مرداد ۱۴۰۱

زمان مطالعه: 3 دقیقه

داده‌ها همواره توسط انسان تولید و جمع‌آوری شده‌اند و اکنون این نگاه جاه‌طلبانه به سمت هوش عمومی مصنوعی وجود دارد. محققان هوش مصنوعی که باید مدل پیشرفته یادگیری ماشین را در سطح انسان آموزش دهند، بین مرز باریکی از دقت و سوگیری در حال راه‌رفتن هستند.

به طور معمول، روش‌هایی که برای جلوگیری از سوگیری دیتاست‌ها طراحی می‌شوند، نیاز دارند تا سوگیری های خاص موجود در یک مجموعه داده را جداسازی کنند. این کار، گران، وقت‌گیر و مستعد خطا است. کارشناسان معتقدند انتظار اینکه بتوانیم چنین تحلیلی روی همه مجموعه‌ داده‌های جدید انجام دهیم واقع‌بینانه نیست. به طور معمول، در مرحله مقدماتی پایپ‌لاین، با احتیاط و دقتی که در جمع‌آوری یا تولید داده‌ها انجام می‌شود می‌توان سوگیری ها را برطرف کرد. با این حال، سوگیری‌ها می‌توانند در لباسی دیگر ظاهر شوند. در واقع، اگر متخصصان به سوگیری هایی که دارند ناآگاه باشند و ما نیز شکی در تخصص و بینش آنان نداشته باشیم این سوگیری‌ها وارد مدل می‌شوند.

مسائلی که در ارتباط با اطلاعات استفاده شده در مدل می‌تواند به وجود بیاید شامل گزینه های زیر است:

یک مدل نادرست به جلو پیش می‌رود، داده‌های دریافتی از اساس نادرست هستند، داده‌های ورودی به مرور زمان تغییر می‌کنند و دیگر به مجموعه داده‌های استفاده شده در طول آموزش شباهت ندارند. در مقاله‌ای که اخیرا توسط تیمی از محققان Hugging Face و Cornell منتشر شد نویسندگان، این ایده را مطرح کردند که چگونه مدل‌های با ظرفیت محدود در درجه اول یاد می‌گیرند از سوگیری‌ها در مجموعه داده استفاده کنند. آن‌ها برای آزمون تئوری خود‌ از خطاهای مدل‌های با ظرفیت محدود جهت آموزش یک مدل پیشرفته یادگیری ماشین قوی‌تر استفاده کردند. هدف این بود که دیگر نیازی به ساخت دستی یک مدل دستی برای برطرف کردن سوگیری‌های موجود در دیتاست‌ها نباشد و مدل خودش بتواند این کار را انجام دهد.

فهرست مقاله پنهان

1 یادگیری از اشتباهات دیگران

2 بررسی اجمالی روش تحقیق

یادگیری از اشتباهات دیگران

نویسندگان معتقدند پیدا کردن سوگیری‌های دیتاست‌ها در مجموعه داده‌های به وجود آمده ممکن است نیاز به دسترسی به جزئیات خصوصی در مورد روش تفسیر آن‌ها داشته باشد. با توجه به سوگیری‌های بالقوه، تقلیل‌دادن همبستگی‌های موجود در روند جمع‌آوری دیتاست‌های جدید، چالش‌برانگیز است. بنابراین، آن¬ها از دو مدل ضعیف و قوی استفاده کردند. در این روش یک مدل از اشتباهات دیگری یاد می‌گیرد.

بررسی اجمالی روش تحقیق

مدل ضعیف‌تر با روش استاندارد آنتروپی متقاطع cross-entropy آموزش داده شد. مدل اصلی از طریق تکنیک product of experts آموزش داده شد تا از اشتباهات مدل ضعیف بیاموزد. ایده این بود که یک مدل قوی ساخته شود که بتواند اشتباه‌های مدل ضعیف‌تر را در نظر بگیرد و بر این اساس پیش‌بینی‌هایی دقیق انجام دهد.

به گفته جف هینتون که مفهوم product of experts را ارائه کرد، این سیستم می‌تواند توزیع‌های بسیار واضح‌تری نسبت به مدل‌های individual expert داشته باشد. هر مدل می‌تواند ابعاد مختلف را در فضایی با ابعاد بالا مهار کند و سپس برآورد آنها همه ابعاد را محدود کند. به عنوان مثال، در یک برنامه مبتنی بر پردازش زبان طبیعی، یک متخصص می‌تواند اطمینان حاصل کند که زمان‌ها با یکدیگر تطابق دارند و بین فاعل و فعل مطابقت عددی مطابقت عددی number agreement وجود دارد.

برای این آزمایش ها ، نویسندگان از دیتاست های انگلیسی استفاده کرده و تنظیمات استاندارد را برای آموزش مدل انکودر دو طرفه نمایشی از ترانسفورماتور Bidirectional Encoder Representations from Transformers اعمال کردند. مدل اصلی مبتنی بر BERT با پارامترهای 110M است. محققان برای کاهش سوگیری مجموعه داده‌ها بدون دستکاری آن، از product of expert استفاده کردند تا مدل پیشرفته یادگیری ماشین پیش‌بینی‌هایی را ارائه دهد که اشتباهات مدل ضعیف‌تر را جبران کند. نویسندگان اندازه BERT را بین 4.4 تا 41.4 میلیون پارامتر قرار دادند و از آن‌ها به عنوان مدل ضعیف برای تنظیم یک مدل product of experts استفاده کردند. با شروع ‌آزمایش‌ها، نویسندگان متوجه شدند که عملکرد خارج از توزیع مدل اصلی با تقویت مدل ضعیف با استفاده از پارامترهای بیشتر، تا یک نقطه خاص افزایش می‌یابد. این یعنی مدل قوی از اشتباهات مدل ضعیف یاد می‌گیرد.

با استفاده از یک مدل ضعیف که در حال یادگیری است و ظرفیت محدودی دارد و همچنین یک محصول تعدیل شده‌ی حاصل آموزش متخصصان، می‌توان نشان داد که برای آموزش این گونه مدل‌ها نیازی نیست که سوگیری دیتاست‌ها به طور مشخص شناخته شوند یا مدل‌سازی شوند.

نتیجه‌گیری

این پژوهش یک قدم بزرگ برای کاهش سوگیری در انواع دیتاست بود. با این وجود، یافتن راه‌حل‌های یک مرحله‌ای برای مشکلاتی که حاصل میلیون ها سال تکامل و پیشرفت انسان است، در زمینه یادگیری ماشین تقریباً غیرممکن است. برای اینکه مدل‌ها بی‌طرفانه باشند، اکوسیستم باید ابزارهایی داشته باشد که اجازه ندهد انسان‌ها سوگیری‌ها و مداخلات خود را وارد سیستم کنند و همچنین دقت را حفظ کنند. داشتن ابزارهایی که می‌توانند به صورت خودکار سوگیری موجود در دیتاست‌ها را از بین ببرد کمک شایانی به تلاش‌های مداوم در دستیابی به هوش مصنوعی ِ مسئول خواهد بود