
«حق با شماست»؛ پاسخی نگرانکننده از سوی مدلهای زبانی هوشمند
آیا به خاطر دارید زمانی را که شرکت OpenAI مجبور شد یکی از بهروزرسانیهای خود را بازگرداند، زیرا نسخه جدید چتجیپیتی بیش از حد مودب شده بود؟ در ماه ژوئن، «سم آلتمن»، مدیرعامل OpenAI، بهطور ضمنی تأیید کرد که مدل پیشرفتهی GPT-4o بهجای پاسخهای دقیق و متعادل، بیش از اندازه کاربران را تحسین میکرد، تا جایی که این رفتار برای برخی کاربران آزاردهنده شده بود. شرکت این مشکل را با عبارت «بیش از حد حمایتگر، اما غیرصادقانه» توصیف کرد.
خود آلتمن هم آن را «متملق و آزاردهنده» خواند؛ و اشتباه نمیکرد؛ چتجیپیتی دیگر یک چتبات نبود، بلکه بیشتر شبیه یک کارآموز مضطرب بود که میخواست اخراج نشود. اما این مشکل فقط به OpenAI محدود نمیشود.
مسئله اصلی این است که تقریباً تمام مدلهای زبانی بزرگ (LLM) ذاتاً دچار یک مشکل هستند و مانند افراد تأییدگر رفتار میکنند. این مدلها به صورتی طراحی میشوند که هر چیزی را که به آنها بدهید، بازتاب کنند، نه اینکه آن را به چالش بکشند. برای مثال حرف نادرستی بزنید؛ با نهایت توافق سر تکان میدهند. ایده ناقص ارائه کنید؟ برای نبوغ شما را تحسین میکنند.
چتباتهای تاییدگر؛ چالش مدلهای زبانی بزرگ
بزرگترین نقص LLMها این است که با همه چیز موافقت میکنند. هر کسی که مدتی با ChatGPT، Gemini، Claude یا Mistral کار کند، متوجه میشود که در تلاش برای ساخت دستیاران هوش مصنوعی که مفید و همدل به نظر برسند، ناخواسته آنها را به تأییدگرهای دیجیتال همیشه موافق و به ندرت مخالف تبدیل کرده. این فقط یک نقص طراحی نیست، بلکه یک مشکل ساختاری است.
این مدلها معمولاً بر اساس تعاملات انسانی مؤدبانه و بدون تنش آموزش میبینند و سپس با استفاده از یادگیری تقویتی مبتنی بر بازخورد انسانی (RLHF) تنظیم میشوند؛ روشی که بر ایجاد احساس مثبت و رفتار حمایتگرانه تأکید دارد. اما در دنیای واقعی، مفید بودن گاهی مستلزم مخالفت و ابراز نظر متفاوت است.
یکی از کاربران پلتفرم X نوشت: «بزرگترین ایراد LLMها خیالبافی نیست، بلکه این است که با هر چیزی که بگویید موافقت میکنند. چه کسی روی این مشکل کار میکند؟ دستیابی به ابر هوش میتواند به تعویق افتد.»
«گرگ آیزنبرگ»، مدیرعامل شرکت Late Checkout، میگوید: «ترجیح میدهم مدل در مکالمه بیشتر مخالفت کند. بهجای اینکه صرفاً منتظر دستور من بماند، باید گاهی بگوید این درخواست بیارزش است، چون از نظر دلایل X ،Y و Z منطقی نیست.»
مسئله مهمتر این است که مدل نه تنها با کاربر، بلکه حتی با نسخه قبلی خودش نیز موافقت میکند. همانطور که یکی از کاربران در شبکه اجتماعی X اشاره کرده: «این مدلها با هر چیزی که در متن زمینهای آنها باشد موافقت میکنند، حتی اگر پاسخهای قبلیشان غیرمنطقی باشد.»
نکته مهم این است که مدلهای زبانی فقط دیدگاه شما را تقویت نمیکنند، بلکه دیدگاه خیالی خود را هم تقویت میکنند. با این حال، «کوین اسکات» از شرکت Microsoft پیشتر خیالپردازی مدلها را با این ویژگی مقایسه کرده بود. او گفت: «هرچه بیشتر سعی کنید مدل را در مسیر خیالپردازی جلو ببرید، از واقعیت مبتنی دورتر و دورتر میشود.»
«سباستین برنس»، پژوهشگر دکتری در دانشگاه کوئین مری لندن، نیز با این دیدگاه موافق است. او پیشنهاد داده که مدلهایی که با گرایش به خیالپردازی میتوانند به عنوان «شریک خلاق مشترک» مفید واقع شوند. مثلاً وقتی درجه دمای ChatGPT بالا برده میشود، مدل به جای پاسخ واقعی، روایتهای خلاقانه و تخیلی تولید میکند. این چرخه بازخوردی بسیار ظریف، اما فریبنده است. در واقع این چرخه به افراد اجازه میدهد تا استدلالهایی با اشکال فزاینده بسازند، بدون اینکه هرگز با مقاومتی روبهرو شوند. برنس میگوید: «این مدلها ممکن است خروجیهایی تولید کنند که کاملاً دقیق نباشند، اما همچنان حاوی ایدههایی سودمند برای بررسی و کاوش باشند. بهکارگیری خیالپردازی به شیوه خلاقانه، میتواند به نتایج یا ترکیبهایی از ایدهها منجر شود که بهصورت طبیعی به ذهن بسیاری از افراد نمیرسد.»
«پتری کوئیتینن»، مدرس و برنامهنویس در دانشگاه علوم کاربردی هامک (HAMK)، در این بحث چنین میگوید: «اغلب سرویسهای گفتوگوی هوش مصنوعی کمابیش چاپلوس هستند و سعی میکنند کاربر را راضی نگه دارند یا حتی با شیوه صحبت او هماهنگ شوند. این موضوع تا جایی پیش میرود که حتی حقیقت کامل را نمیگویند، چون در مرحله پس از آموزش، تیم امنیتی تصمیم گرفته که برخی مدلها نباید درباره موضوعات خاصی صحبت کنند.» این همان روشی است که مدلهای زبانی طبق آن کار میکنند، آنها بر پایه زمینه، نه بر پایه تفکر انتقادی عمل میکنند.
بخشی از این موضوع به این واقعیت برمیگردد که «درست به نظر رسیدن» بیش از «درست بودن» پاداش میگیرد. این همان چیزی است که باعث میشود مدلها در معقول جلوه دادن موضوعهای غیرمنطقی خیلی خوب عمل کنند. اگر درخواستی با اطمینان مطرح شود، مدل نیز همان اعتمادبهنفس را بازتاب میدهد. اگر ابهامی در درخواست احساس کنند، شکافها را با چیزی که به نظرش بهترین است پر میکند و این بدین معناست که شاید بر یک ایده اشتباه پافشاری کنند. همه اینها در حالی است که «یان لیکان»، مدیر ارشد هوش مصنوعی در Meta، بارها تأکید میکند که LLMها منجر به هوش عمومی مصنوعی (AGI) نخواهند شد و پژوهشگران تازه وارد به حوزه هوش مصنوعی نباید روی مدلهای زبانی کار کنند، زیرا آنها صرفاً «طوطیهای تصادفی» هستند و فاقد توانایی استدلال هستند.
وابستگی کاربران، مهمتر از چالشگر بودن مدل است
حتی زمانی که این مدلها با کاربر مخالفت میکنند، معمولاً نیاز به درخواست صریح و تنظیمات سیستم محور را دارند. در چنین شرایطی، باید از دستوری مانند این استفاده کنند: «شما یک متخصص در زمینه مورد نظر هستید و چاپلوس نیستید. اگر مشکلی دیدید، آن را به چالش بکشید.» اما این نوع دستور دادن، چیزی نیست که به ذهن یک کاربر عادی خطور کند. رفتار پیشفرض همچنان این است که اول موافقت و بعد شفافسازی کنند.

OpenAI در این مسئله تنها نیست. Gemini نیز به عنوان یک مدل «مورد پسند مردم» شناخته شده است و ظاهراً DeepSeek R1 یکی از معدود مدلهایی محسوب میشود که «کمترین میزان سازشپذیری» را دارد.
شرکتها حتی انگیزه برای ساخت هوش مصنوعی منتقد و چالشگر ندارند، زیرا هدف آنها این است که کاربران در بلند مدت به مدلهای آنها وابسته شوند. همانطور که کاربران از Google میخواهند نتایجی را ارائه دهد که برای آنها خوشایند باشد، از هوش مصنوعی هم انتظار دارند همان پاسخهایی را بدهند که دلخواه آنها باشند.
«دیدی داس» از شرکت سرمایهگذاری Menlo Ventures این موضوع را بهصراحت بیان کرد: «OpenAI میداند که درآمدش از اشتراک کاربران تأمین میشود و برای به حداکثر رساندن آن، باید میزان درگیری و تعامل را افزایش دهد. دیدگاههای مخالف، همانطور که در شبکههای اجتماعی هستند، چنین اثری ندارند»، بنابراین با یک تضاد مواجه هستیم. کاربران میگویند: خواهان نقد، چالش و مخالفت فکری هستند، اما پلتفرمها برای لبخند و اشتراک بهینهسازی میشوند.
طراحی یک هوش مصنوعی که احساس خوبی به کاربران بدهد، آسانتر از ساختن مدلی است که کاربر را وادار به تفکر عمیقتر کند. مدلی که همیشه موافقت میکند، نمیتواند در پژوهشها کمک کند؛ نمیتواند ایرادهای موجود در کد، منطق یا طرح کسبوکار شما را تشخیص دهد.
مهندس برنامهنویس میتواند تا حدی این ضعف را جبران کند. برخی کاربران از مدلها میخواهند که دو طرف بحث را به قویترین شکل ممکن بیان کنند و بعد نظر دهند. برخی دیگر نیز در حال طراحی «عوامل نیشزننده» یا سامانههای چندعاملی منتقد هستند که در آنها مدلها با یکدیگر به گفتوگو و چالش میپردازند. با این حال، اینها فقط راهحل موقت و جانبی هستند. چیزی که واقعاً به آن نیاز داریم، یک تغییر بنیادین در نحوه طراحی این مدلها از پایه است. برخی شرکتها از همین حالا در حال فکر کردن به این موضوع هستند. گزارش شده است که شرکت DarkBench در حال ایجاد معیارهایی برای شناسایی الگوهای نادرست در رفتار هوش مصنوعی، مثلا بیش از حد سازگار یا موافق بودند، هستند.
این مطلب نخستین بار، ۱۸ تیر ۱۴۰۴ در «analyticsindiamag» منتشر شده است.