زبان تمثیلی، رباتهای سخنگو را به اشتباه میاندازد
پژوهشگران علوم کامپیوتر به تازگی عملکرد سیستمهای مکالمه از قبیل رباتهای سخنگو را که به منظور تعامل با انسان طراحی شدهاند، بررسی کردهاند. این گروه دریافتند که وقتی این سیستمها با مکالمههای حاوی اصطلاحات یا تشبیهات مواجه میشوند، عملکردشان بین 10 تا 20 درصد کاهش مییابد. همچنین این گروه پژوهشی به یک راهحل نسبی هم دست یافت. آنها قطعه کُدی نوشتهاند که عبارتهای زبان تمثیلی را شناسایی میکند و آنها را با معنای لغویشان جایگزین میکند. در نتیجه، عملکرد سیستمهای مکالمه تا 15 درصد بهبود پیدا کرد. این پژوهشگران، یافتههای خود را در همایش روشهای تجربی در پردازش زبان طبیعی که از 7 تا 11 نوامبر 2021 برگزار میشود، ارائه میدهند.
کاربرد برای گوگل
این دستاورد نهتنها میتواند برای دستیاران شخصی مفید باشد، بلکه در سیستمهای طراحیشده برای خلاصه کردن اطلاعات، مانند کادری که نتایج جستوجو را در بالای صفحه گوگل خلاصه میکند نیز کاربرد داشته باشد. سیستمهای خودکاری که باید به پرسش، پاسخ دهند، مانند زمانی که باید یک قبض پرداخت شود یا قرار ملاقاتی تنظیم شود هم، از این کار بهره میبرند.
هارش جامتانی، نویسنده اول مقاله گفت: «ما میخواهیم گفتوگوهای طبیعیتری بین انسان و سیستمهای مکالمه، ایجاد کنیم.»
جامتانی که دانشجوی دکتری دانشگاه کارنگی ملون است، اکنون به عنوان پژوهشگر مدعو با نویسنده ارشد، تیلور برگ کیرکپاتریک، عضو گروه علوم کامپیوتری و مهندسی دانشکده UC سن دیگو، همکاری میکند.
ایده مقاله از مشکل شخصی جامتانی با زبان تمثیلی نشئت گرفته است. او سخنگوی بومی زبان هندی است و به زبان انگلیسی (دیگر زبان رسمی هندوستان) نیز مسلط است؛ اما مجبور بود بسیاری از اصطلاحات و استعارههای آمریکایی را بیاموزد که همکارانش استفاده میکردند.
به عنوان مثال، وقتی همکارش به او گفت که دارد از گرسنگی میمیرد، حسابی ترسید، زیرا در زبان هندی این عبارت نشانه یک موقعیت اورژانسی است. همکارش به او توضیح داد که منظورش این بوده است که گرسنه است. از آن زمان، جامتانی از خود میپرسید که آیا سیستمهای مکالمه مصنوعی هم، مشکلی مشابه مشکل او دارند.
آزمایش سیستمها
در طی پژوهش، محققان پنج سیستم مختلف را که برای صحبت با انسان طراحی شده بودند، آزمایش کردند. این سیستمها شامل GPT-2 بودند که برای پیشبینی کلمه بعدی در یک متن اینترنتی 40 گیگابایتی آموزش دیده بود و از طریق شرکت تحقیقاتی OpenAI توسعه یافته بود.
پژوهشگران ابتدا سیستمهای مکالمه را در مجموعهدادههایی از 13100 گفتوگو با موضوعات محاورهای مانند گردشگری، سلامت و غیره اجرا کردند. سپس گفتوگوهایی را که شامل زبان تمثیلی بودند، از مجموعهداده استخراج کردند و سیستم را فقط روی آنها اجرا کردند. آنان مشاهده کردند که عملکرد سیستم 10 تا 20 درصد کاهش پیدا کرد.
سپس پژوهشگران دستوری نوشتند که به سیستم امکان میداد به سرعت لغتنامهها را بررسی کند و گفتار تمثیلی را به گفتار ساده تبدیل کند. این کار از آموزش دوباره سیستمها برای یادگیری محتوای کامل این لغتنامهها، سادهتر و کارآمدتر است. پژوهشگران مشاهده کردند که عملکرد سیستم تا 15 درصد افزایش پیدا کرد.
همچنان، پژوهشگران باید پیش از تبدیل متن، برای تشخیص زبان تمثیلی در مجموعهداده تا حدی به ناظران انسانی متکی باشند. پس پژوهشهای بیشتری در این زمینه باید انجام شوند.
پیش از پیادهسازی الگوریتمهایی که محققان توسعه دادهاند، باید آنها را چندین بار تکرار کرد. به عنوان مثال، پژوهشگران متوجه شدند که در موارد نادری، جایگزین کردن زبان تمثیلی با معادل ساده آن، نظم دستور جمله را به حدی به هم میزند که سیستم مکالمه، دیگر آن را نمیفهمد.