الگوریتمها تقریباً به گفتار انسانی مسلط هستند، پس این همه سوگیری برای چیست؟
امروزه، نرمافزارهای بازشناسی گفتار در مقیاس گستردهای به کار برده میشوند. از جمله آنها میتوان به الکسا و کورتانا اشاره کرد. گزارش شده است که در سال 2020، تقریباً دو سوم مردم آمریکا از نوعی دستیار صوتی خودکار استفاده کردهاند. این دستیارهای مجازی دیگر به هوش مصنوعی وابسته نیستند؛ آنها به مثابه «افرادی» هستند که آگاهانه به دستورات پاسخ میدهند.
فناوری بازشناسی گفتار در حوزه پردازش زبان طبیعی قرار میگیرد. پردازش زبان طبیعی شاخهای از علم رایانه است که به آموزش هوش مصنوعی و رایانهها برای شناسایی و پاسخ به کلمات گفتاری و نوشتاری میپردازد.
اما پردازش زبان طبیعی آنطور که از نامش برمیآید، چندان مصنوعی نیست، بلکه عمدتاً کارکردی شبیه مغز انسان دارد.
میلیونها سلول عصبی از طریق جریان نخاع و از گوشه و کنار مغز، در سیستم عصبی بالا و پایین میروند. نورونها پیامهای عصبی را از محلی به محل دیگر منتقل میکنند. به اینصورت که نورونها در سیناپسها به هم میرسند؛ سیناپسها با تحریک نورونهای هدف، پیام را به نورون بعدی منتقل میکنند و به این ترتیب ارسال پیام ادامه مییابد.
سیستم عصبی NLP کاملاً شبیه مغز است. «نقشه» شبکه عصبی مصنوعی شبیه یک تارِ عنکبوت است: بر این اساس، هزاران دایره با خطوط و دایرههای دیگر پیوند برقرار کردهاند. در شبکه عصبی، به سیگنالی که هر نورون دریافت میکند «ورودی» میگوییم؛ سپس نورون تغییرات ریاضی بر روی ورودی اعمال میکند و یک خروجی میدهد. نورونها در «سیناپس» به هم میرسند؛ یک تابع میانگین وزنی، ارتباط عصبیِ سیناپس را کنترل میکند. اطلاعات از طریق نورونها و سیناپسها به نورون بعدی منتقل میشود تا به انتهای مسیر برسد و خروجی نهایی را ایجاد کند.
این فرآیند شباهت بسیار زیادی به فرآیند مغز انسان دارد؛ حتی بیش از حد انسانی است، زیرا NLP نیز مانند انسان، اغلب قربانی سوگیری میشود.
سوگیری شنیداری
سوگیری شنیداری در انسانها، شکلهای مختلفی دارد. برای مثال، زمانی که تنها آنچه مدنظرمان است را میشنویم، دچار سوگیری تصدیق (confirmation bias) شدهایم. در این شرایط، به جزئیاتی توجه میکنیم که تاییدکننده باورهای ما باشند. خطای لنگر انداختن (Anchoring bias) نیز زمانی اتفاق میافتد که اطلاعاتی که اول شنیدهایم، بر نحوه ادراک ما از بقیه اطلاعات تاثیر بگذارد، مانند چانهزنی؛ در چانهزنی، قیمت اولیه مبنای مذاکرات را تا هنگام رسیدن به توافق تشکیل میدهد.
سوگیری در نحوه شنیدن و پردازش گفتار در مناطقی که نژادپرستی، تبعیض جنسیتی و بیگانههراسی به چشم میخورد، به مراتب عمیقتر است. نتایج مطالعهای که در سال 2010 بر روی لهجهها انجام شده است، نشان میدهد که انسانها به جای ظاهر، بیشتر بر اساس نحوهی صحبتکردن دیگران، آنها را قضاوت میکنند.
تاثیر لهجه بر روی برداشت ما از افراد، پیامدهای نسبتاً چشمگیری در دنیای واقعی دارد. نتایج پژوهشی دیگر حاکی از این است که هنگام مصاحبه تلفنی، افرادی که زبان انگلیسی را با لهجه چینی، مکزیکی و هندی صحبت میکنند به شدت مورد تبعیض قرار میگیرند؛ در حالی که، با افرادی که زبان انگلیسی را با لهجه انگلیسی صحبت میکنند به طور برابر رفتار میشود و در مواردی حتی لهجه انگلیسی به لهجه آمریکایی برتری دارد.
سیستمهای پردازش زبان طبیعی، درست مانند انسانها، در قبال لهجههای خاص دچار سوگیری مثبت یا منفی هستند. پژوهشی با عنوان «سوگیری جنسیتی و گویشی در زیرنویسهای خودکار یوتیوب» به بررسی دقت سیستم زیرنویس خودکار یوتیوب پرداخت تا وجود سوگیری در زیرنویس گویشهای انگلیسی را ارزیابی کند.
سیستم زیرنویس خودکار یوتیوب مبتنی بر NLP است. پژوهشگران در این مطالعه از یک روند رایج، موسوم به چالش لهجه (Accent Challenge)، استفاده کردند. در چالش لهجه افراد از نقاط مختلف جهان فهرستی از کلمات از پیش تعیین شده، مانند «آووکادو» یا «هالووین»، را میخوانند. نتایج نشان میدهد که نرخ خطای کلمه (WER) بدست آمده برای افراد دارای گویش اسکاتلندی و نیوزلندی از لحاظ آماری معنادار است. بنابراین، میتوان این چنین نتیجه گرفت که سیستم زیرنویس نسبت به این گروه جمعیتی دارای سوگیری است.
این مطالعه یک گام فراتر نهاده و تأثیر جنسیت بر نرخ خطای کلمه را نیز بررسی کرده است. الگوریتم مورد استفاده در پژوهش تقریباً 40 درصد از گفتار مردان را اشتباه تشخیص داد، در حالی که این رقم برای گفتار زنان بیش از 50 درصد بود. با توجه به لهجه، مغایرت بین گفتار زنان و مردان ممکن است به 30% برسد.
سوگیری جنسیتی
سوگیری جنسیتی در NLP بسیار فراتر از تشخیص اشتباه کلمه است. تعبیه کلمات شاخهای از NLP است که به بازنمایی کلمات با معانی مشابه میپردازد. تعبیه کلمات اغلب شامل ایجاد یک فیلد پُر از نقاط پراکنده است که برخی از آنها کلماتی خاص را نشان میدهند.
برای مثال، کلمات «شام» و «ناهار» ممکن است در یک صفحه کنار هم قرار گیرند ولی کلمه «کفش» دورتر باشد. مقالهای که در سال 2016 منتشر شد، ارتباط کلمات متداول با جنسیت را با استفاده از صفحه تعبیه کلمات، مورد بررسی قرار داد. برای «he» (ضمیر مذکر)، چهار شغل استاد، کاپیتان، محافظ و فیلسوف به شدت تداعیگر مردان بودند.
برای زنان، رایجترین کلمات خانهدار، پرستار، پذیرشگر و کتابدار بوند.
این تیم همچنین از تعبیه کلمات برای ایجاد قیاس (analogy) استفاده کرد، مقولهی معروف «نسبت x به y مانند نسبت a به b است». در میان قیاسهای سوگیرانه، الگوریتم این جملات را تولید کرد: «نسبت پدر برای پزشک مانند نسبت مادر برای پرستار است» و «نسبت مرد برای برنامهنویس کامپیوتر مانند نسبت زن برای خانهدار است».
دادههای مورد استفاده در تعبیه کلمات از مقالات Google News انتخاب شده بودند. این امر نشان میدهد این مقالهها کلیشهها و نقشهای جنسیتی منسوخ شده را تداوم میبخشند. این الگوها حاکی از روندی ناامیدکننده در پردازش زبان طبیعی هستند. رایانهها تعصبات قدیمی انسان را میآموزند: تعصباتی مبنی بر اینکه زنان مطیع و خانهدار و مردان نانآور و مبتکر هستند.
نژادپرستی
نژادپرستی یکی دیگر از مسائل رایج در جهان پردازش زبان طبیعی سوگیرانه است. یک تیم تحقیقاتی در مقالهای با عنوان «نابرابریهای نژادی در تشخیص گفتار خودکار»، عملکرد پنج فناوری فوقپیشرفته در تشخیص گفتار خودکار (ASR) را بین افراد سفید و سیاه بررسی کردند. در این پژوهش برخی از رایجترین فناوریهای ASR امروزی، از جمله فناوریهای آمازون، اپل، گوگل، IBM و مایکروسافت، مورد بررسی قرار گرفتند.
تمایز نژادی فناوریِ ASR تمام این شرکتها به لحاظ آماری معنادار بود.
میانگین نرخ خطای کلمه برای افراد سفیدپوست 0/19 بود. در حالی که، میانگین نرخ خطای کلمه در بین افراد سیاهپوست به 0/35، تقریباً دو برابر، میرسید. فناوری تشخیص گفتار خودکار اپل بدترین عملکرد را به خود اختصاص داد: نرخ خطای کلمه برای افراد سیاه پوست 0/45، و برای افراد سفید پوست 0/23 بود.
این مطالعه گویش انگلیسی آمریکایی-آفریقایی (AAVE) را بخشی از دلیل این تمایز برشمرد. اگرچه این گویش، یک گویش انگلیسی به رسمیت شناخته شده با میلیونها گویشور بومی است، بسیاری از دیتاستها نمونه صوتی کافی از آن ندارند.
گویش انگلیسی آمریکایی-آفریقایی در زمان بردهداری متولد شد. هنگامیکه انسانها را میربودند و به عنوان برده میفروختند، اغلب آنها را از دیگر بردههایی که زبان و گویشی مشابه داشتند جدا میکردند و این افراد مجبور میشدند در کنار کسانی در مزارع کار کنند که نمیتوانستند با آنها ارتباط برقرار کنند.
دو نظریه برای شکلگیری AAVE مطرح است: فرضیه گویش و فرضیه زبان کرئول. فرضیه گویش پیدایش گویش انگلیسی آمریکایی-آفریقایی را برقراری ارتباط بردهها با سفیدپوستان جنوبی میداند: بردهها با سفیدپوستان جنوبی در تماس بوده و از سر ضرورت زبانی انگلیسی را آموختند؛ بعدها، شاخهای ایجاد کردند که به گویش انگلیسی آمریکایی-آفریقایی تبدیل شد. فرضیه کرئول نیز شکلگیری گویش AAVE را بیشتر محصول یک تلفیق میداند: زبانهای آفریقای غربی و انگلیسی در یک زبان کرئولی با هم ترکیب شده و سپس با انگلیسی استاندارد ادغام شده و گویش انگلیسی آمریکایی-آفریقایی را تشکیل میدهند.
امروزه گویش انگلیسی آمریکایی-آفریقایی بسیار دقیق بررسی میشود. برخی از مردم آن را «زبان ناقص»، «زبان افراد تنبل» و زبان غیر دستوری مینامند و آن را با تحصیلات ضعیف و عدم دانش زبانی مرتبط میدانند. دلالتهای منفی AAVE ریشه در نژادپرستی دارد.
طبق تعریف، گویش انگلیسی آمریکایی-آفریقایی، اکثراً توسط آمریکاییهای آفریقاییتبار صحبت میشود، گروهی که در طول تاریخ اغلب استثمار شده، با یک چوب رانده شده و با یک چشم دیده شدهاند. تفاوت عملکرد پردازش زبان طبیعی در افراد سفیدپوست و سیاهپوست این تصور را ایجاد میکند که گویش AAVE، گویشی «با سطحی پایینتر» یا نشان دهنده «تحصیلات اندک» است. گویش انگلیسی آمریکایی-آفریقایی به عنوان یکی از گویشهای انگلیسی به رسمیت شناخته شده است و طی قرنها توسعه یافته و دارای قالبهای دستوری، قالبهای عامیانه و نحو متمایز است؛ به عبارتی تمام جنبههای یک زبان «معتبر» را دارد.
تحول در زبان
زبان پیوسته در حال تحول است. حُسن زبانهای زنده در این است که همواره خود را با ایدهها، فناوریها و نوآوریهای جدید به روز کرده و تطبیق میدهند. افرادی که به زبانهای زنده صحبت میکنند، میتوانند آخرین اصطلاح عامیانهای را که در ویدئوی TikTok مورد علاقه آنها آمده است، درک کنند.
لذا، لازم است هوش مصنوعی نیز با این تغییرات هماهنگ شود. انسانها کلمات و ساختارهای جمله را در دیتاستها برنامهریزی کرده و آنها را به نمونههای گفتار اضافه میکنند. برای انسان، غلبه بر سوگیریهای اجتماعی صدها یا حتی هزاران سال طول کشید؛ سیستمهای پردازش زبان طبیعی مبتنی بر هوش مصنوعی، برخلاف انسان، میتوانند در مدت زمان بسیار کوتاهتری بر سوگیریها غلبه کنند. میتوان آنها را به راحتی با ارتقاء و اضافه کردن نمونه به دیتاست تنظیم کرد. به عبارتی از بین بردن سوگیری در پردازش زبان طبیعی بسیار سریعتر از از بین بردن آن برای 8 میلیارد انسان ساکن زمین انجام میشود.
اگر شما تجربهای از سوگیری نرمافزارهای بازشناسی گفتار دارید با ما در میان بگذارید؟