افزایش نرخ توهم در مدلهای جدید هوش مصنوعی
مدلهای جدید هوش مصنوعی با افزایش نرخ توهم مواجه شدهاند، که تهدیدی برای دقت و کاربردهای این فناوریها بهویژه در زمینههای حساس است.
با وجود ارتقای مدلهای استدلالی در چتباتهای هوش مصنوعی مانند ChatGPT و Gemini، بررسیهای تازه نشان میدهد که این نسخههای جدید نسبت به مدلهای قبلی خطاهای بیشتری تولید میکنند. این خطاها که در زبان تخصصی هوش مصنوعی «توهم» نامیده میشوند، نهتنها کاهش نیافتهاند، بلکه در برخی مدلها حتی افزایش هم داشتهاند.
توهم؛ خطای مزمن مدلهای زبانی
توهم اصطلاحی است برای توصیف اشتباهاتی که مدلهای زبانی بزرگ مرتکب میشوند؛ مانند ارائه اطلاعات نادرست بهعنوان واقعیت، یا پاسخهایی که گرچه صحیح هستند، اما ربطی به سؤال ندارند یا دستورالعمل را بهدرستی دنبال نمیکنند.
بر اساس گزارشی فنی از شرکت OpenAI، مدلهای جدید این شرکت به نامهای o3 و o4-mini که در آوریل ۲۰۲۵ عرضه شدند، نسبت به مدل قبلی یعنی o1 (منتشرشده در اواخر ۲۰۲۴) نرخ توهم بیشتری داشتهاند. بهعنوان مثال، مدل o3 در هنگام خلاصهسازی اطلاعات عمومی درباره افراد، در ۳۳٪ موارد دچار توهم شد و این عدد برای o4-mini حتی به ۴۸٪ رسید. در حالی که مدل o1 تنها ۱۶٪ نرخ توهم داشت.
مسئله فقط OpenAI نیست
مشکل توهم تنها محدود به محصولات OpenAI نیست. دادههای ارائهشده در رتبهبندی شرکت Vectara نشان میدهد برخی مدلهای استدلالی دیگر مانند مدل DeepSeek-R1 نیز نسبت به نسخههای قبلی خود افزایش قابل توجهی در نرخ توهم داشتهاند. این مدلها برای پاسخدادن، مراحل متعددی از استدلال را طی میکنند.
با این حال، OpenAI معتقد است که مدلهای استدلالی ذاتاً مستعد توهم نیستند. سخنگوی این شرکت اعلام کرده: «ما فعالانه در حال کاهش نرخ بالای توهم در مدلهای جدید هستیم و به تحقیقات برای بهبود دقت ادامه خواهیم داد.»
توهم و کاربردهای خطرناک
توهم در مدلهای زبانی میتواند کارایی آنها را در بسیاری از کاربردها زیر سؤال ببرد. از دستیار تحقیقاتی که نیازمند اطلاعات دقیق است گرفته تا چتبات حقوقی که نباید به پروندههای خیالی استناد کند. حتی اشتباه یک چتبات خدمات مشتری که به قوانین منقضیشده استناد میکند میتواند برای شرکت دردسرساز شود.
شرکتهای هوش مصنوعی زمانی وعده داده بودند که توهم با گذشت زمان کاهش خواهد یافت؛ اما نرخ بالای توهم در نسخههای اخیر این خوشبینی را با تردید مواجه کرده است.
آیا رتبهبندیها قابل اعتمادند؟
رتبهبندی Vectara براساس توانایی مدلها در خلاصهسازی دقیق اسناد تنظیم شده، اما کارشناسانی مانند «امیلی بندر» از دانشگاه واشینگتن هشدار میدهند که این روش نمیتواند معیاری جامع برای ارزیابی مدلها در تمام وظایف باشد. او همچنین تأکید میکند که مدلهای زبانی اساساً برای درک معنایی طراحی نشدهاند، بلکه بر اساس پیشبینی کلمه بعدی کار میکنند و به همین دلیل ممکن است پاسخهایی غیرقابل اعتماد تولید کنند.
بندر همچنین استفاده از واژه «توهم» را گمراهکننده میداند، چراکه هم به اشتباهات هوش مصنوعی رنگ و بوی انسانی میدهد و هم این تصور را ایجاد میکند که خطاها موارد استثنایی هستند، در حالی که ممکن است ساختاری و دائمی باشند.
خطاهای فراتر از توهم
«آروویند نارایانان» از دانشگاه پرینستون معتقد است که مسئله فقط به توهم محدود نمیشود. به گفته او، مدلها گاهی از منابع نامعتبر استفاده میکنند یا به اطلاعات منسوخ استناد میکنند. افزایش حجم دادههای آموزشی یا قدرت پردازش نیز لزوماً این خطاها را کاهش نداده است.
او پیشنهاد میکند که شاید بهترین راه استفاده از مدلهای زبانی، محدود کردن آنها به وظایفی باشد که در آنها صحت پاسخ را بتوان سریعتر از روشهای سنتی بررسی کرد. بندر نیز توصیه میکند که بهطور کلی نباید برای دریافت اطلاعات واقعی به چتباتهای هوش مصنوعی اعتماد کرد.