آیا مدل پیشرفته یادگیری ماشین میتواند سوگیری موجود در دیتاستها را از بین ببرند؟
دادهها همواره توسط انسان تولید و جمعآوری شدهاند و اکنون این نگاه جاهطلبانه به سمت هوش عمومی مصنوعی وجود دارد. محققان هوش مصنوعی که باید مدل پیشرفته یادگیری ماشین را در سطح انسان آموزش دهند، بین مرز باریکی از دقت و سوگیری در حال راهرفتن هستند.
به طور معمول، روشهایی که برای جلوگیری از سوگیری دیتاستها طراحی میشوند، نیاز دارند تا سوگیری های خاص موجود در یک مجموعه داده را جداسازی کنند. این کار، گران، وقتگیر و مستعد خطا است. کارشناسان معتقدند انتظار اینکه بتوانیم چنین تحلیلی روی همه مجموعه دادههای جدید انجام دهیم واقعبینانه نیست. به طور معمول، در مرحله مقدماتی پایپلاین، با احتیاط و دقتی که در جمعآوری یا تولید دادهها انجام میشود میتوان سوگیری ها را برطرف کرد. با این حال، سوگیریها میتوانند در لباسی دیگر ظاهر شوند. در واقع، اگر متخصصان به سوگیری هایی که دارند ناآگاه باشند و ما نیز شکی در تخصص و بینش آنان نداشته باشیم این سوگیریها وارد مدل میشوند.
مسائلی که در ارتباط با اطلاعات استفاده شده در مدل میتواند به وجود بیاید شامل گزینه های زیر است:
یک مدل نادرست به جلو پیش میرود، دادههای دریافتی از اساس نادرست هستند، دادههای ورودی به مرور زمان تغییر میکنند و دیگر به مجموعه دادههای استفاده شده در طول آموزش شباهت ندارند. در مقالهای که اخیرا توسط تیمی از محققان Hugging Face و Cornell منتشر شد نویسندگان، این ایده را مطرح کردند که چگونه مدلهای با ظرفیت محدود در درجه اول یاد میگیرند از سوگیریها در مجموعه داده استفاده کنند. آنها برای آزمون تئوری خود از خطاهای مدلهای با ظرفیت محدود جهت آموزش یک مدل پیشرفته یادگیری ماشین قویتر استفاده کردند. هدف این بود که دیگر نیازی به ساخت دستی یک مدل دستی برای برطرف کردن سوگیریهای موجود در دیتاستها نباشد و مدل خودش بتواند این کار را انجام دهد.
یادگیری از اشتباهات دیگران
نویسندگان معتقدند پیدا کردن سوگیریهای دیتاستها در مجموعه دادههای به وجود آمده ممکن است نیاز به دسترسی به جزئیات خصوصی در مورد روش تفسیر آنها داشته باشد. با توجه به سوگیریهای بالقوه، تقلیلدادن همبستگیهای موجود در روند جمعآوری دیتاستهای جدید، چالشبرانگیز است. بنابراین، آن¬ها از دو مدل ضعیف و قوی استفاده کردند. در این روش یک مدل از اشتباهات دیگری یاد میگیرد.
بررسی اجمالی روش تحقیق
مدل ضعیفتر با روش استاندارد آنتروپی متقاطع cross-entropy آموزش داده شد. مدل اصلی از طریق تکنیک product of experts آموزش داده شد تا از اشتباهات مدل ضعیف بیاموزد. ایده این بود که یک مدل قوی ساخته شود که بتواند اشتباههای مدل ضعیفتر را در نظر بگیرد و بر این اساس پیشبینیهایی دقیق انجام دهد.
به گفته جف هینتون که مفهوم product of experts را ارائه کرد، این سیستم میتواند توزیعهای بسیار واضحتری نسبت به مدلهای individual expert داشته باشد. هر مدل میتواند ابعاد مختلف را در فضایی با ابعاد بالا مهار کند و سپس برآورد آنها همه ابعاد را محدود کند. به عنوان مثال، در یک برنامه مبتنی بر پردازش زبان طبیعی، یک متخصص میتواند اطمینان حاصل کند که زمانها با یکدیگر تطابق دارند و بین فاعل و فعل مطابقت عددی مطابقت عددی number agreement وجود دارد.
برای این آزمایش ها ، نویسندگان از دیتاست های انگلیسی استفاده کرده و تنظیمات استاندارد را برای آموزش مدل انکودر دو طرفه نمایشی از ترانسفورماتور Bidirectional Encoder Representations from Transformers اعمال کردند. مدل اصلی مبتنی بر BERT با پارامترهای 110M است. محققان برای کاهش سوگیری مجموعه دادهها بدون دستکاری آن، از product of expert استفاده کردند تا مدل پیشرفته یادگیری ماشین پیشبینیهایی را ارائه دهد که اشتباهات مدل ضعیفتر را جبران کند. نویسندگان اندازه BERT را بین 4.4 تا 41.4 میلیون پارامتر قرار دادند و از آنها به عنوان مدل ضعیف برای تنظیم یک مدل product of experts استفاده کردند. با شروع آزمایشها، نویسندگان متوجه شدند که عملکرد خارج از توزیع مدل اصلی با تقویت مدل ضعیف با استفاده از پارامترهای بیشتر، تا یک نقطه خاص افزایش مییابد. این یعنی مدل قوی از اشتباهات مدل ضعیف یاد میگیرد.
با استفاده از یک مدل ضعیف که در حال یادگیری است و ظرفیت محدودی دارد و همچنین یک محصول تعدیل شدهی حاصل آموزش متخصصان، میتوان نشان داد که برای آموزش این گونه مدلها نیازی نیست که سوگیری دیتاستها به طور مشخص شناخته شوند یا مدلسازی شوند.
نتیجهگیری
این پژوهش یک قدم بزرگ برای کاهش سوگیری در انواع دیتاست بود. با این وجود، یافتن راهحلهای یک مرحلهای برای مشکلاتی که حاصل میلیون ها سال تکامل و پیشرفت انسان است، در زمینه یادگیری ماشین تقریباً غیرممکن است. برای اینکه مدلها بیطرفانه باشند، اکوسیستم باید ابزارهایی داشته باشد که اجازه ندهد انسانها سوگیریها و مداخلات خود را وارد سیستم کنند و همچنین دقت را حفظ کنند. داشتن ابزارهایی که میتوانند به صورت خودکار سوگیری موجود در دیتاستها را از بین ببرد کمک شایانی به تلاشهای مداوم در دستیابی به هوش مصنوعی ِ مسئول خواهد بود