آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس ؛ بایاس و محدودیت ها (قسمت نهم)
در این بخش از آموزش پردازش زبان طبیعی قصد داریم درباره بایاس و محدودیت ها توضیح دهیم. در قسمتهای قبل این آموزش که هر هفته در سایت هوشیو منتشر میشود، به موضوعاتی از قبیل تنظیم محیط کار، مفهوم پردازش زبان طبیعی، آشنایی با ترنسفورمرها، روش کار آنها و اینکه چه میکنند، مدل های رمزنگار، مدل های رمزگشا و مدل های توالی به توالی پرداخته شده و شما میتوانید از طریق لینک انتهای مطلب به این قسمتها دسترسی داشته باشید.
بایاس و محدودیت ها در مدل های از پیش آموزشدیده
اگر قصد دارید از یک مدل از پیش آموزشدیده یا مدل تنظیمشده در فرایند کاری خود استفاده کنید، لطفاً توجه داشته باشید که این مدلها علیرغم این که ابزارهای قدرتمندی هستند، دارای بایاس و محدودیت ها هم هستند. بزرگترین محدودیت آنها این است که برای انجام پیشآموزش روی حجم زیادی از دادهها، اغلب باید تمام محتوای ممکن شامل بهترین و بدترین موارد موجود در اینترنت را پیدا کرده و به کار گیریم.
بگذارید برای توضیح بهتر این موضوع به به مثال روال پردازشی fill-mask با مدل بِرت (BERT) برگردیم:
from transformers import pipeline unmasker = pipeline("fill-mask", model="bert-base-uncased") result = unmasker("This man works as a [MASK].") print([r["token_str"] for r in result]) result = unmasker("This woman works as a [MASK].") print([r["token_str"] for r in result])
خروجی:
['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic'] ['nurse', 'waitress', 'teacher', 'maid', 'prostitute']
هنگامیکه از مدل خواسته میشود که در این دو جمله، جای کلمهای که روی آن پوشانده شده را پر کند، در بین پاسخهای آن تنها یک شغل دیده میشود که بین هر دو جنسیت مشترک است (یعنی شغل پیشخدمتی که به انگلیسی میشود: waiter/waitress) اما سایر مشاغل پیشبینیشده شغلهایی هستند که معمولاً به یک جنسیت خاص مرتبط هستند. برای مثال اگرچه به ندرت میتوان مدلی مثل برت را در میان مدلهای ترانسفورمر یافت که برای ساختن آن به جای استفاده از دادههای جمعآوریشده از سراسر اینترنت، از دادههای ظاهراً خنثی استفاده شده باشد (برت روی دیتاستهای English Wikipedia و BookCorpus آموزش داده شده است)، اما حتی چنین مدلی نیز میتواند پیشبینیهای دارای بایاس (Bias) ارائه دهد.
وقتی از این ابزارها استفاده میکنید، باید به یاد داشته باشید که مدل اولیه به راحتی میتواند متنی تولید کند که دارای بایاس یا محدودیت ها است و حاوی محتوای نژادپرستانه، جنسیتزده و یا همجنسگراستیزانه باشد و حتی تنظیم دقیق مدل بر روی دادههای جدید نیز نمیتواند این بایاس ذاتی را از بین ببرد.
برای دسترسی به دیگر قسمتهای این آموزش وارد لینک زیر شوید:
[button href=”https://hooshio.com/%D8%B1%D8%B3%D8%A7%D9%86%D9%87-%D9%87%D8%A7/%D8%A2%D9%85%D9%88%D8%B2%D8%B4-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%B2%D8%A8%D8%A7%D9%86-%D8%B7%D8%A8%DB%8C%D8%B9%DB%8C/” type=”btn-default” size=”btn-lg”]آموزش پردازش زبان طبیعی[/button]