آموزش شبکههای عصبی با دیدن سریالهای کمدی معروف
هوش مصنوعی با تماشای سریال «فرندز»، طعنه زدن را آموخت!
طبق اعلام محققان، الگوریتم جدید آنها که بر اساس پایگاه دادهای سریال فرندز آموزش دیده است، میتواند در ۷۵ درصد مواقع طعنههای کلامی را تشخیص دهد.
سال ۲۰۱۹ (۱۳۹۸)، زمانی که هوش مصنوعی مولد هنوز در قلمرو داستانهای علمی تخیلی قرار داشت و چند ماهی تا معرفی GPT-2 باقی بود، گروهی از محققان برای نشست سالانه انجمن زبانشناسی محاسباتی در تابستان آن سال مقالهای را ارسال کردند.
آن مقاله در حقیقت روی «تشخیص طعنههای چندوجهی» تمرکز داشت و به بررسی پایگاه دادهای از نمونههای حاشیهنویسی طعنه در گفتار، در سریالهای پرطرفداری مثل Friends و The Big Bang Theory میپرداخت. ایده محققان آن بود که این پایگاه داده که متشکل از مجموعه دادههای تشخیص طعنه چندوجهی یا بهاختصار «MUStARD» است، میتواند بهعنوان منبعی برای تحقیق درباره تشخیص طعنه در مکالمات مورداستفاده قرار بگیرد.
بررسی معنا و مفهوم طعنه زدن
ماهیت طعنه زدن، به نحوی است که تشخیص دادن آن به صرف نگاه کردن به کلمات، سخت خواهد بود. جملات طعنهآمیز معمولاً به نحوی است که شما در ظاهر چیزی میگوئید که معنای دیگری دارد و این، مستلزم آن است که معنای واقعی گزاره، از نشانههای ظریف دیگر مشتق شود.
در مقاله اصلی MUSTARD به چندین نمونه از این نشانهها اشاره شده است که عبارتاند از: تغییر لحن، تأکید بیشازحد روی یک کلمه، هجایی کشیده یا چهرهای خنثی. طبق استدلال محققان، چنین تحلیل چندوجهیای برای تحلیل درست کنایهها ضروری است.
در پنج سال گذشته، ایده زبان طبیعی تعاملات انسان- رایانه با سرعت سرسامآوری پیشرفت کرده؛ اما بااینوجود تشخیص طعنه همچنان دشوار به نظر میرسد. در دو نشست مشترک انجمن آکوستیک آمریکا و انجمن آکوستیک کانادا به بررسی راههایی برای بهبود تشخیص طعنه پرداختهشده است.
تشخیص ۷۵ درصدی طعنه توسط محققان هلندی
در اولین نشست، تیمی در دانشگاه خرونینگن هلند، شبکهای عصبی را توصیف کرد که بر اساس رویکرد ارائهشده در مقاله سال ۲۰۱۹ طراحی شده است. این شبکه با بهرهگیری از دادههای MUStARD آموزش دیده است و در ۷۵ درصد مواقع توانسته تا نمونههای طعنه را از سریالهای موجود در پایگاه داده شناسایی کند.
در چکیده کوتاهی از تحقیق منتشرشده درباره نحوه عملکرد این مدل میخوانیم: «کلمات با تشخیص خودکار گفتار از دادههای صوتی استخراج میشوند و سپس یک ایموجی برای نشان دادن احساس اساسی آنها اختصاص داده میشود. در ادامه این ایموجی به نشانههای چندوجهی مختلفی مثل لحن صدا یا زمینه گفتگوی گستردهتر مبدل میشوند.» یکی از نویسندگان درباره رویکردشان توضیح داد: «این مدل از نقاط قوت هر روش، نهایت بهره را میبرد و با ارائه نشانههای مکمل ضروری برای تفسیر دقیق طعنهها این قابلیت را دارد که محدودیتها را در درک زیر و بم جبران کند.»
درک زیروبمهای کلامی یکی از شناختهشدهترین روشها در جستجوی طعنه در گفتار افراد است.
تشخیص طعنه با تحلیل درک زیر و بم کلام
مبحث دیگری که در این نشست مطرح شد، بررسی تشخیص طعنه به روش تجزیهوتحلیل درک زیر و بمی بود و بهطور خاص، روی تغییرات F۰ یا فرکانسی اساسی که پایینترین فرکانس صدای یک فرد است، تمرکز داشت.
تغییرات خاص در این فرکانس معمولاً مشخصه طعنه و کنایه در زبان انگلیسی است، و از همین رو، شناسایی این تغییرات روش قابلاعتمادی در راستای شناسایی یک عبارت طعنهآمیز خواهد بود.
این موضوع که توسط تیمی از دانشگاه میشیگان ارائه شد، با جزئیات به بررسی تغییراتی که در فرکانس F۰ رخ میدهد پرداخته است؛ یعنی دقیقاً زمانی که یک شخص بهصورت طعنهآمیز صحبت میکند. اعضای این تیم نشانههای آکوستیک خاص مثل سخنان بیمعنی را که در بسیاری از سوژهها تکرار میشدند، شناسایی کرده و با تجزیهوتحلیل بیشتر از ۹ سوژه گفتاری متوجه شدند که همین نشانههای آکوستیک خاص، بهتنهایی میتوانند برخی از تفاوتهای بین لحن صمیمانه و طعنهآمیز را نشان دهند.
البته در جمعبندی این ارائه، این نکته یادآوری شد که گرچه هر فردی که صحبت میکند، ممکن است زمینههایی از طعنه یا صداقت در کلامش داشته باشد، ولی این زمینهها در گویندهای با گوینده دیگر متفاوت است.
این یافته بیانگر آن است که تشخیص طعنه تنها با اتکا بر یک جنبه از مکالمه چقدر کار دشواری خواهد بود. این ماجرا همان اندازه که برای کامپیوترها صادق است، در مورد افراد نیز صدق میکند.
درحالیکه تمرکز اصلی پوشش این جلسات، عمدتاً بر امکان گنجاندن تشخیص طعنه توسط رباتهای گفتگوی بزرگ مبتنی بر مدل زبانی مانند ChatGPT است، ولی مزایای بالقوهای برای افراد نیز دارد.
اعضای تیم دانشگاه خرونینگن بر این باورند که تحقیقات آنها میتواند برای افرادی که با چالشهای پردازش شنوایی روبرو هستند، مفید باشد؛ مخصوصاً برای افرادی که دارای اختلالاتی در ادراک زیر و بم تأثیر هستند یا کسانی که نشانههای شنوایی متنی ندارند. آنها درعینحال این تحقیقات را برای پیشرفت کاربردهای فناوری گفتار نیز مؤثر میدانند.
منبع: popsci