گفتار
آموزش‌های پیشرفته هوش مصنوعیپردازش زبان طبیعیپردازش گفتار

الگوریتم‌ها تقریباً به گفتار انسانی مسلط هستند، پس این همه سوگیری برای چیست؟

    0
    مدت زمان مطالعه: ۶ دقیقه

    امروزه، نرم‌افزارهای بازشناسی گفتار در مقیاس گسترده‌ای به کار برده می‌شوند. از جمله آنها می‌توان به الکسا و کورتانا اشاره کرد. گزارش شده است که در سال ۲۰۲۰‌، تقریباً دو سوم مردم آمریکا از نوعی دستیار صوتی خودکار استفاده کرده‌اند. این دستیارهای مجازی دیگر به هوش مصنوعی وابسته نیستند؛ آن‌ها به مثابه «افرادی» هستند که آگاهانه به دستورات پاسخ‌ می‌دهند.

    فناوری بازشناسی گفتار در حوزه پردازش زبان طبیعی قرار‌ می‌گیرد. پردازش زبان طبیعی شاخه‌ای از علم رایانه است که به آموزش هوش مصنوعی و رایانه‌ها برای شناسایی و پاسخ به کلمات گفتاری و نوشتاری می‌پردازد.

    اما پردازش زبان طبیعی آنطور که از نامش برمی‌آید، چندان مصنوعی نیست، بلکه عمدتاً کارکردی شبیه مغز انسان دارد.

    میلیون‌ها سلول عصبی از طریق جریان نخاع و از گوشه و کنار مغز‌، در سیستم عصبی بالا و پایین‌ می‌روند. نورون‌ها پیام‌های عصبی را از محلی به محل دیگر منتقل‌ می‌کنند. به اینصورت که نورون‌ها در سیناپس‌ها به هم می‌رسند؛ سیناپس‌ها‌ با تحریک نورون‌های هدف‌، پیام را به نورون بعدی منتقل می‌کنند و به این ترتیب ارسال پیام ادامه می‌یابد.

    سیستم عصبی NLP کاملاً شبیه مغز است. «نقشه» شبکه عصبی مصنوعی شبیه یک تارِ عنکبوت است‌: بر این اساس، هزاران دایره با خطوط و دایره‌های دیگر پیوند برقرار کرده‌اند. در شبکه عصبی، به سیگنالی که هر نورون دریافت‌ می‌کند «ورودی» می‌گوییم‌؛ سپس نورون تغییرات ریاضی بر روی ورودی اعمال می‌کند و یک خروجی می‌دهد. نورون‌ها در «سیناپس» به هم‌ می‌رسند؛ یک تابع‌ میانگین وزنی‌، ارتباط عصبیِ سیناپس را کنترل‌ می‌کند. اطلاعات از طریق نورون‌ها و سیناپس‌ها به نورون بعدی منتقل می‌شود تا به انتهای مسیر برسد و خروجی نهایی را ایجاد‌ کند.

    این فرآیند شباهت بسیار زیادی به فرآیند مغز انسان دارد؛ حتی بیش از حد انسانی‌ است، زیرا NLP نیز مانند انسان‌‌، اغلب قربانی سوگیری می‌شود.

    سوگیری شنیداری

    سوگیری شنیداری در انسان‌ها، شکل‌های مختلفی دارد. برای مثال‌، زمانی که تنها آنچه مدنظرمان است را می‌شنویم، دچار سوگیری تصدیق (confirmation bias) شده‌ایم. در این شرایط، به جزئیاتی توجه‌ می‌کنیم که تاییدکننده باورهای ما باشند. خطای لنگر انداختن (Anchoring bias) نیز زمانی اتفاق‌ می‌افتد که اطلاعاتی که‌ اول شنیده‌ایم، بر نحوه ادراک ما از بقیه اطلاعات تاثیر بگذارد، مانند چانه‌زنی؛ در چانه‌زنی، قیمت اولیه مبنای مذاکرات را تا هنگام رسیدن به توافق تشکیل می‌دهد.

    سوگیری در نحوه شنیدن و پردازش گفتار در مناطقی که نژادپرستی‌، تبعیض جنسیتی و بیگانه‌هراسی به چشم می‌خورد، به مراتب عمیق‌تر است‌. نتایج مطالعه‌ای که در سال ۲۰۱۰ بر روی لهجه‌ها انجام شده است، نشان می‌دهد که انسان‌ها به جای ظاهر، بیشتر بر اساس نحوه‌ی صحبت‌کردن دیگران، آن‌ها را قضاوت می‌کنند.

    تاثیر لهجه بر روی برداشت ما از افراد، پیامدهای نسبتاً چشمگیری در دنیای واقعی دارد. نتایج پژوهشی دیگر حاکی از این است که هنگام مصاحبه تلفنی‌، افرادی که زبان انگلیسی را با لهجه چینی‌، مکزیکی و هندی صحبت‌ می‌کنند به شدت مورد تبعیض قرار می‌گیرند؛ در حالی که، با افرادی که زبان انگلیسی را با لهجه انگلیسی صحبت می‌کنند به طور برابر رفتار می‌شود و در مواردی حتی لهجه انگلیسی به لهجه آمریکایی برتری دارد.

    سیستم‌های پردازش زبان طبیعی، درست مانند انسان‌ها، در قبال لهجه‌های خاص دچار سوگیری مثبت یا منفی هستند. پژوهشی با عنوان «سوگیری جنسیتی و گویشی در زیرنویس‌های خودکار یوتیوب» به بررسی دقت سیستم زیرنویس خودکار یوتیوب پرداخت تا  وجود سوگیری در زیرنویس گویش‌های انگلیسی را ارزیابی کند.

    سیستم زیرنویس خودکار یوتیوب مبتنی بر NLP است. پژوهشگران در این مطالعه از یک روند رایج‌، موسوم به چالش لهجه (Accent Challenge‌)، استفاده کردند. در چالش لهجه افراد از نقاط مختلف جهان فهرستی از کلمات از پیش تعیین شده، مانند «آووکادو» یا «هالووین»، را‌ می‌خوانند. نتایج نشان می‌دهد که نرخ خطای کلمه (WER) بدست آمده برای افراد دارای گویش اسکاتلندی و نیوزلندی از لحاظ آماری معنادار است. بنابراین، می‌توان این چنین نتیجه گرفت که سیستم زیرنویس نسبت به این گروه جمعیتی دارای سوگیری است.

    این مطالعه یک گام فراتر نهاده و تأثیر جنسیت بر‌ نرخ خطای کلمه را نیز بررسی کرده است. الگوریتم مورد استفاده در پژوهش تقریباً ۴۰ درصد از گفتار مردان را اشتباه تشخیص‌ داد، در حالی که این رقم برای گفتار زنان بیش از ۵۰ درصد بود. با توجه به لهجه‌، مغایرت بین گفتار زنان و مرد‌ان ممکن است به ۳۰% برسد.

    سوگیری جنسیتی

    سوگیری جنسیتی در NLP بسیار فراتر از تشخیص اشتباه کلمه است. تعبیه کلمات شاخه‌ای از NLP است که به بازنمایی کلمات با معانی مشابه‌ می‌پردازد. تعبیه کلمات اغلب شامل ایجاد یک‌ فیلد پُر از نقاط پراکنده‌ است که برخی از آن‌ها کلماتی خاص را نشان‌ می‌دهند.

    برای مثال‌، کلمات «شام» و «ناهار» ممکن است در یک صفحه کنار هم قرار گیرند‌ ولی کلمه «کفش» دورتر باشد. مقاله‌ای که در سال ۲۰۱۶ منتشر شد، ارتباط کلمات متداول با جنسیت را با استفاده از صفحه تعبیه کلمات، مورد بررسی قرار داد. برای «he» (ضمیر مذکر)‌، چهار شغل استاد‌، کاپیتان‌، محافظ و فیلسوف به شدت تداعی‌گر مردان بودند.

    برای زنان‌، رایج‌ترین کلمات خانه‌دار‌، پرستار‌، پذیرشگر و کتابدار بوند.

    این تیم همچنین از تعبیه کلمات برای ایجاد قیاس (analogy) استفاده کرد، مقوله‌ی معروف «نسبت x به y مانند نسبت a به b است». در‌ میان قیاس‌های سوگیرانه، الگوریتم این جملات را تولید کرد: «نسبت پدر برای پزشک مانند نسبت مادر برای پرستار است» و «نسبت مرد برای برنامه‌نویس کامپیوتر مانند نسبت زن برای خانه‌دار است».

    داده‌های مورد استفاده در تعبیه کلمات از مقالات Google News انتخاب شده بودند. این امر نشان‌ می‌دهد این مقاله‌ها کلیشه‌ها و نقش‌های جنسیتی منسوخ شده را تداوم‌ می‌بخشند. این الگوها حاکی از روندی ناامیدکننده در پردازش زبان طبیعی هستند. رایانه‌ها تعصبات قدیمی ‌انسان را می‌آموزند: تعصباتی مبنی بر اینکه زنان مطیع و خانه‌دار و مردان نان‌آور و مبتکر هستند.

    نژادپرستی

    نژادپرستی یکی دیگر از مسائل رایج در جهان پردازش زبان طبیعی سوگیرانه است. یک تیم تحقیقاتی در مقاله‌ای با عنوان «نابرابری‌های نژادی در تشخیص گفتار خودکار»‌، عملکرد پنج فناوری فوق‌پیشرفته در تشخیص گفتار خودکار (ASR) را بین افراد سفید و سیاه بررسی کردند. در این پژوهش برخی از رایج‌ترین فناوری‌های ASR امروزی، از جمله فناوری‌های آمازون‌، اپل‌، گوگل‌، IBM و مایکروسافت، مورد بررسی قرار گرفتند.

    تمایز نژادی فناوریِ ASR تمام این شرکت‌ها به لحاظ آماری معنادار بود.

    میانگین نرخ خطای کلمه برای افراد سفیدپوست ۰/۱۹ بود‌. در حالی که، میانگین نرخ خطای کلمه در بین افراد سیاه‌پوست به ۰/۳۵‌، تقریباً دو برابر، می‌رسید. فناوری تشخیص گفتار خودکار اپل‌ بدترین عملکرد‌ را به خود اختصاص داد: نرخ خطای کلمه برای افراد سیاه پوست ۰/۴۵، و برای افراد سفید پوست ۰/۲۳ بود.

    این مطالعه گویش انگلیسی آمریکایی-آفریقایی (AAVE) را بخشی از دلیل این تمایز برشمرد. اگرچه این گویش، یک گویش انگلیسی به رسمیت شناخته شده با‌ میلیون‌ها گویش‌ور بومی است، بسیاری از دیتاست‌ها نمونه صوتی کافی از آن ندارند.

    گویش انگلیسی آمریکایی-آفریقایی در زمان برده‌داری متولد شد. هنگامی‌که انسان‌ها را می‌ربودند و به عنوان برده می‌فروختند‌، اغلب آن‌ها را از دیگر برده‌هایی که زبان‌ و گویشی مشابه داشتند جدا‌ می‌کردند و این افراد مجبور‌ می‌شدند در کنار کسانی در مزارع کار کنند که نمی‌توانستند با آن‌ها ارتباط برقرار کنند.

    دو نظریه برای شکل‌گیری AAVE مطرح است: فرضیه گویش و فرضیه زبان کرئول. فرضیه گویش پیدایش گویش انگلیسی آمریکایی-آفریقایی را برقراری ارتباط برده‌ها با سفیدپوستان جنوبی می‌داند: برده‌ها با سفیدپوستان جنوبی در تماس بوده و از سر ضرورت زبانی انگلیسی را آموختند؛ بعدها، شاخه‌ای ایجاد کردند که به گویش انگلیسی آمریکایی-آفریقایی تبدیل شد. فرضیه کرئول نیز شکل‌گیری گویش AAVE را بیشتر محصول یک تلفیق می‌داند: زبان‌های آفریقای غربی و انگلیسی در یک زبان کرئولی با هم ترکیب شده و سپس با انگلیسی استاندارد ادغام شده و گویش انگلیسی آمریکایی-آفریقایی را تشکیل‌ می‌دهند.

    گفتار

    امروزه گویش انگلیسی آمریکایی-آفریقایی بسیار دقیق بررسی‌ می‌شود. برخی از مردم آن را «زبان ناقص»‌، «زبان افراد تنبل» و زبان غیر دستوری می‌نامند و آن را با تحصیلات ضعیف و عدم دانش زبانی مرتبط‌ می‌دانند. دلالت‌های منفی AAVE ریشه در نژادپرستی دارد.

    طبق تعریف‌، گویش انگلیسی آمریکایی-آفریقایی، اکثراً توسط آمریکایی‌های آفریقایی‌تبار صحبت‌ می‌شود‌، گروهی که در طول تاریخ اغلب استثمار شده، با یک چوب رانده شده و با یک چشم دیده شده‌اند. تفاوت عملکرد پردازش زبان طبیعی در افراد سفیدپوست و سیاه‌پوست این تصور را ایجاد می‌کند که گویش AAVE، گویشی «با سطحی پایین‌تر» یا نشان دهنده «تحصیلات اندک» است. گویش انگلیسی آمریکایی-آفریقایی به عنوان یکی از گویش‌های ‌انگلیسی به رسمیت شناخته‌ شده ‌است و طی قرن‌ها توسعه یافته و دارای قالب‌های دستوری‌، قالب‌های عامیانه و نحو متمایز است؛ به عبارتی تمام جنبه‌های یک زبان «معتبر» را دارد.

    تحول در زبان

    زبان پیوسته در حال تحول است. حُسن زبان‌های زنده در این است که همواره خود را با ایده‌ها‌، فناوری‌ها و نوآوری‌های جدید به روز کرده و تطبیق‌ می‌دهند. افرادی که به زبان‌های زنده صحبت می‌کنند، می‌توانند آخرین اصطلاح عامیانه‌ای را که در ویدئوی TikTok مورد علاقه آن‌ها آمده است، درک کنند.

    لذا، لازم است هوش مصنوعی نیز با این تغییرات هماهنگ شود. انسان‌ها کلمات و ساختارهای جمله را در دیتاست‌ها برنامه‌ریزی‌ کرده و آن‌ها را به نمونه‌های گفتار اضافه می‌کنند. برای انسان، غلبه‌ بر سوگیری‌های اجتماعی صدها یا حتی هزاران سال طول کشید؛ سیستم‌های پردازش زبان طبیعی مبتنی بر هوش مصنوعی، برخلاف انسان‌، می‌توانند در مدت زمان بسیار کوتاه‌تری بر سوگیری‌ها غلبه کنند. می‌توان آن‌ها را‌ به راحتی با ارتقاء و اضافه کردن نمونه به دیتاست تنظیم کرد.  به عبارتی از بین بردن سوگیری در پردازش زبان طبیعی بسیار سریع‌تر از از بین بردن آن برای ۸ میلیارد انسان ساکن زمین انجام می‌شود.

    اگر شما تجربه‌ای از سوگیری نرم‌افزارهای بازشناسی گفتار دارید با ما در میان بگذارید؟

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۱ میانگین: ۵]

    کاربرد هوش مصنوعی در بهینه سازی جذب دی اکسیدکربن

    مقاله قبلی

    سیستم پردازشگر صوتی خود را بسازید: تشخیص واژه‌ی فعال‌سازی و رده‌بندی صدا  

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *