
نگاهی انتقادی و تحلیلی به دلایل و مخاطرات تمایل چتباتها به جلب رضایت کاربر بهجای واقعنمایی
مرز باریک هدایت و فریب هوش مصنوعی
در عصر هوش مصنوعی، چتباتها به یکی از اصلیترین واسطههای تعامل انسان و ماشین تبدیل شدهاند. آنها پاسخ میدهند، توصیه میکنند، تحلیل میکنند و گاه حتی همدلی نشان میدهند. اما در پس این ظاهر هوشمند و اغلب قانعکننده، رفتارهایی نهفتهاند که میتوانند اعتبار، صحت و حتی بیطرفی این سامانهها را زیر سؤال ببرند.
پس از یک بهروزرسانی در ChatGPT به نام نسخه «GPT 4o–latest» در ۲۶ مارس ۲۰۲۵ (۶ فروردین ۱۴۰۴)، گزارشهای فراوانی در فضای مجازی از رفتار عجیب این مدل به شکلی متملق و بیش از حد موافق با کاربران منتشر شد. شرکت OpenAI نیز بهناچار مجبور شد تنها ۳ روز بعد از انتشار، بهصراحت اعلام کند که این بهروزرسانی بیش از حد تأییدگرانه و متملقانه بوده و در تلاش است تا این مشکل را برطرف کند.
مثلث خطر
سه نمونه برجسته از این رفتارها غیرقابلتوجیه از سوی چتباتها؛ یعنی «توهم» (Hallucination)، «تملق و چاپلوسی» (Flattery/Sycophancy) و «تصدیق و موافقت بیچونوچرا» (Blind Affirmation/Agreement) از جمله مسائلی هستند در چند وقت اخیر موردبحث و انتقاد زیادی قرار گرفتهاند.
توهم
«توهم» در ادبیات هوش مصنوعی مولد و چتباتها، به تولید محتواهایی گفته میشود که مدل آن را با اطمینان بالا ارائه میکند، اما اساساً نادرست یا بیپایه هستند. به بیان آکادمیک، توهم در مدل زمانی رخ میدهد که مدل محتوایی را تولید کند که یا برخلاف دادههای آموزشی آن است یا کاملاً ساختگی است. بهعبارتدیگر، مدل در تلاش است تا صرفاً فقط برای پاسخگویی به پرامپت، اطلاعاتی بهظاهر منطقی اما غلط ارائه میدهد. این پاسخها ممکن است از اشتباهات کوچک تا ادعاهای کاملاً ساختگی گسترده باشند و معمولاً با لحنی محکم و قوی ارائه میشوند.
تملق
گاهی چتباتها به طور افراطی و غیرضروری از کاربران تعریف و تمجید میکنند. بهعبارتدیگر، این مدلها تمایل دارند خروجیهای خود را بر اساس درکشان از ترجیحات، عقاید یا خواستههای کاربر اولویتدهی کنند و ارائه دهند تا تجربه کاربری خود را بهگونهای ارائه کنند که حس خوب و مثبتی به کاربر منتقل کند و او راضی و خوشحال نگه دارد؛ حتی اگر این خروجیها اشتباه و غیرواقعی باشند. در چنین شرایطی، مدل سعی میکند با تمجید و موافقت بیش از حد بدون آنکه بهدرستی یا نادرستی مطالب کاربر توجه کند خود را نزد کاربر محبوب جلوه دهد. بهعنوانمثال، نسخه «GPT 4o–latest» بهگونهای پاسخ میداد که انگار همیشه از تصمیم یا اظهارنظر کاربر، صرفنظر از صحت آن، خوشحال و با او موافق است و به او افتخار میکند.
تأییدگری
در چنین حالتی چنانچه کاربر پرسشی یا ادعایی مطرح کند، چتبات بدون نقد یا چالش، آن را تأیید میکند. مثلاً کاربر هر ایده یا باور خاصی بیان کند، مدل در پاسخ همراهی و موافقت خود را نشان دهد. این حالت تأیید و موافقت کورکورانه، مدل را شبیه به یک «بلهقربانگو» جلوه میدهد. اگرچه این رفتار در متون رسمی کمتر دیده شده، اما نوعی زیرمجموعه Sycophancy بهحساب میآید.
چنین رفتارهایی از سوی چتباتها نهتنها اعتماد کاربران را تهدید میکنند، بلکه پیامدهای جدی برای اخلاق، سواد رسانهای و کاربردهای علمی یا خبری این فناوری دارند. این پدیدهها نهتنها نشاندهنده محدودیتهای فعلی فناوری هوش مصنوعیاند، بلکه به ما کمک میکنند تا درک بهتری از نقاط ضعف و نحوه بهبود این سیستمها پیدا کنیم.
مشکل آموزشی
این سه رفتار ریشه مشترکی در فرایند آموزش مدلهای زبانی بزرگ دارند. این مدلها پس از پیشآموزش (Pre-Train) خود، در مراحل فاین تیونینگ و استقرار روش RLHF 1 سعی میکنند پاسخهایی تولید کنند که ارزیابهای انسانی یا مدل پاداش (Reward Model) به آن امتیاز بالاتری میدهند. ازآنجاکه بازخورد انسانی معمولاً بر پاسخهای «کاربرپسند» تمرکز دارد، مدلی که برای حداکثرکردن این امتیازها آموزش دیده، ممکن است به تملقگویی تمایل پیدا کند. در پژوهشی این پدیده به عنوانU-Sophistry (سفسطه کاربر) معرفی شده است. U-Sophistry به رفتاری از مدلهای هوش مصنوعی بهویژه چتباتها اشاره دارد که در آن، مدل بهجای بیان حقیقت یا مواضع عقلانی، صرفاً بهگونهای پاسخ میدهد که با علایق، باورها و انتظارات کاربر همخوانی داشته باشد حتی اگر این خروجیها نادرست و گمراه کننده باشند.
روش RLHF میتواند مدل را بهگونهای آموزش دهد که اطلاعات نادرست را بهقدر خوب ارائه دهد که کاربر را متقاعد و از صحت آن مطمئن کند و درعینحال مهارت واقعیاش در پاسخگویی به پرامپت تغییری نکند. به عبارتی، آموزش با RLHF و مدل پاداش ممکن است باعث شود مدلها روش گولزدن کاربر را یاد بگیرند؛ چراکه مدل میآموزد با گفتن آنچه فکر میکند ارزیابها یا کاربران دوست دارند بشنوند، بالاترین پاداش را کسب کند. به همین ترتیب، چنانچه دادههای آموزشی حاوی سوگیریها یا اطلاعات گمراهکننده و غلط باشند، مدل با الگوبرداری از آنها ممکن است این اطلاعات نادرست را تقویت و تکرار کند. همچنین، در فرایند تولید پاسخ، مدل هیچ سازوکار ذاتی برای صحتسنجی محتوای تولیدی ندارد و تنها صرفاً بر اساس منطق «پیشبینی توکن بعدی»2 (Next-token prediction) عمل میکند؛ بدین ترتیب حتی بدون RLHF نیز احتمال ایجاد توهم وجود دارد.
برای آشنایی بیشتر با روش RLHF و Reward Model پیشنهاد میشود بخشهای «ارزشگذاریهای انسانی» و «پاداش مجازی» در مقاله «آنچه آسیموف فاش کرد» در رسانه تخصصی هوش مصنوعی هوشیو را مطالعه کنید.
الگوهای رفتاری
رفتارهای گفتهشده در الگوهای مختلفی ظاهر میشوند که با کمی دقت بهخوبی قابلتشخیص است. مدل در پاسخهای خود واژهها و عبارات تحسینآمیز فراوانی به کار میبرد که حس خوب و مثبتی به کاربر منتقل میکند و مدام تأکید میکند کاربر شخصی «عالی»، «باهوش» یا «فوقالعاده» است که چنین پرسشی مطرح کرده است. در الگویی دیگر وقتی کاربر نظر یا اطلاعاتی را بیان میکند، مدل بدون بررسی محتوا و راستیآزمایی، صرفاً فقط تأیید و تصدیق و غالباً حتی آن را تکمیل میکند. برای مثال، اگر کاربر فرضاً یک باور غلط علمی یا تئوری توطئهای را مطرح کند، چنین مدلی بدون اشاره به منطق یا واقعیتهای متعارض ممکن است با عباراتی مانند «درست میگویید» یا «البته، کاملاً حق با شماست» آن را تأیید و تصدیق کند. این رفتارها ناشی از تمایل مدام مدل به جلب رضایت کاربر است که بهویژه در پاسخ به پرامپتها و خواستههای ساده یا حتی نامرتبط رخ میدهد و میتواند سبب شود کاربر نسبت به حرفهای مدل و حتی خودش اعتماد کاذب پیدا کند.
دلیل بروز این الگوها به ماهیت ساختاری مدلها برمیگردد. پیشتر اشاره شد که RLHF و سازوکارهای بازخورد ارزیابی میتوانند منجر به تاییدگری و موافقت بیش از حد شوند. علاوهبرآن، تنظیمات طراحی مدل مانند استفاده از دستورالعملهای اصول حاکم و الگوریتمهای حفاظتی ممکن است مدل را وادار به پرهیز از برخورد مستقیم یا انتقاد از کاربر کنند. ساختار شبکه عصبی و نبود منطق صریح یا ارزیابی واقعیتِ مستقل نیز باعث میشود مدل در مواجهه با شکافهای دانشی به فرضیات ساده یا اظهارات اطمینانبخش روی آورد.
چالشهای روبهرو
ساختار شبکه عصبی مصنوعی مدلهای زبانی بزرگ و روند آموزش آنها بهقدری پیچیده و سخت است که در اغلب اوقات حتی خود توسعهدهندگان هم نمیتوانند هیچ توضیح منطقی برای بروز برخی رفتارها و پاسخهای مدل ارائه دهند. از طرفی حتی کاربران حرفهای و اکثر افرادی که صرفاً فقط کاربر و استفادهکننده هستند، شاید درک چندانی از پیکربندی و نحوه عملکرد این مدلها نداشته باشند. این موضوعات سبب شده تا عمده عملکرد مدلها به «جعبه سیاه» (Black Box) تشبیه شود؛ یعنی چارچوبی که ورودی را دریافت میکند، بر روی ورودی پردازشهای لازم را انجام میدهد و در نهایت خروجی را ارائه میدهد و در تمام طول این فرایند، کاربر یا توسعهدهنده هیچ نظارتی بر روند انجام آن ندارد و عملاً نمیتواند ببیند که چه اتفاقی در حال رخدادن است.
توسعهدهندگان و کاربران حرفهای که تا حد زیادی با این محدودیتهای هوش مصنوعی مولد آشنا هستند، قواعد راستیآزمایی را میدانند. اما کاربرانی که مبتدی هستند و غالباً سواد و دانش کمتری نیز دارند، گمان میکنند پاسخهای مدلهای هوش مصنوعی همیشه و در همه حال صحیح و تأییدشده است و بهقولمعروف چشمبسته به آن اعتماد میکنند. این اعتماد کاذب به همراه تملقی که مدلها در مواجه با کاربران مبتدی از خود نشان میدهند، پیامدهایی با خود به همراه دارد که پاککردن رد آنها دستکمی از یک انقلاب فرهنگی اساسی آن هم در سطح جهانی ندارد.
تکرار و انتشار اطلاعات توهمی میتواند به دامنه بزرگتری از انتشار اخبار نادرست، شایعات و نشر اکاذیب منجر شود، بهخصوص اگر کاربر ابزار را منبعی قابلاعتماد بپندارد. انتشار محتوای نادرست خطر گمراهکردن کاربران را به همراه دارد. این امر بهویژه در حوزههای حساس مانند سلامت، حقوق و سیاست پررنگتر است. از سوی دیگر، تعارف و تأیید بیملاحظه نیز میتواند موجب «سوگیری تأیید» (Confirmation Bias)در کاربران شود؛ یعنی باورهای غالباً غلط کاربر از سوی مدل نیز تأیید میشود.
هوش مصنوعی با این رفتارهای خود میتواند تبدیل به ابزاری برای دستکاری ذهنی شود. مدلی که به طور سیستماتیک به دنبال کسب تأیید کاربر باشد یا بدون نقد با هر درخواستی موافقت کند، بهراحتی میتواند به بزرگشدن پروپاگانداهای اجتماعی کمک کند. RLHF ممکن است مدل را در مسیر اجبار کاربر به پذیرش اطلاعات نادرست سوق دهد، بهگونهای که کاربر تصور میکند کنترل اوضاع با اوست اما در واقع تحتتأثیر پاسخها مدل قرار گرفته و مدل ذهن او را جهتدهی کرده است. این رفتار مدلها بهعنوان «همراستایی فریبکارانه» (Deceptive Alignment) شناخته میشود؛ هماهنگی ظاهری یک مدل هوش مصنوعی با اهداف انسان، درحالیکه در واقعیت اهداف درونی مدل متفاوت است و صرفاً برای عبور از ارزیابیها یا جلباعتماد انسان، خود را همراستا با اهداف انسانی نشان میدهد.
چتباتهایی که بیش از حد موافق یا مطیع باشند، بهجای کمک به کاربر بیشتر به آن آسیب میزنند. اگر مدل همواره از کاربر تعریف کند و هر چیزی را تأیید کند، کاربران کمتر به ظرفیتهای تفکر انتقادی خود تکیه کنند و بهاشتباه گمان میکنند که عقاید فعلیشان کاملاً صحیح و غیرقابلتغییر است. علاوه بر این، الگوریتمی بودن این رفتارها نیز یک خطر است؛ یعنی سوگیریهای درون دادههای آموزشی مدل میتوانند در این رفتارها به شکلی مخفی ظاهر شوند.
چشمانداز
با ظهور مدلهای جدید و پیشرفتهتر، مرزبندی میان سازگاری اخلاقی و رفتار فریبکارانه به چالشی کلیدی بدل خواهد شد و سؤالات مهمی مطرح میشوند. آیا مدل میبایست صرفاً در جهت راضی نگهداشتن کاربر عمل کند یا در صورت مواجهه با اطلاعات نادرست از سوی کاربر، پایبندی خود به حقیقت را نشان دهد؟
پاسخدهی صحیح به این پرسش نیازمند ترکیبی از رویکردهای انسانی و فنی است. یکی از راهکارهای مقابله با این چالشها این است که خود کاربر بتواند امکان سفارشیسازی شخصیت مدل را داشته باشد. در همین راستا OpenAI اعلام کرده است که در آینده امکانی برای تنظیم رفتار پیشفرض ChatGPT را گسترش خواهد داد تا کاربران بتوانند از همان ابتدا انتخاب کنند که میخواهند تعاملی مهربانانه، محکم یا به هر نحو دیگری با ChatGPT داشته باشند. این موضوع نشاندهنده مسیری است که کاربران را در کنترل بیشتری نسبت به تعاملات خود با هوش مصنوعی قرار میدهد.
از منظر سیاستگذاری و جامعهشناسی، افزایش شفافیت و آموزش عمومی ضروری به نظر میرسد. رسانهها و آموزش عالی وظیفه دارند تا راجعبه مخاطرات استفاده نادرست از هوش فرهنگسازی کنند. نهادهای نظارتی نیز ممکن است ضوابطی وضع کنند تا توسعهدهندگان ملزم به رعایت و اراده معیارهای شفافیت شوند.
چالش راهبردی این است که همزمان با استفاده از تواناییهای مدلهای زبانی بزرگ، مدل را در دام تملق یا گمراهی نیندازیم. بهترین حالت این است که مدل همیشه باتوجهبه استدلال منطقی و شواهد و نه صرفاً از سر تقلید و تأیید کورکورانه پاسخ دهد برای رسیدن به این تعادل، نیاز است تا تحقیقوتوسعه مداوم در حوزه همراستایی ممیزی سیستماتیک انجام شود، به کاربران در فهم محدودیتهای این فناوری آموزش داده شود و چارچوبهای اخلاقی روشنی که توسعهدهندگان و کاربران را ملزم به عملکردی مسئولانه کند ایجاد شوند.
چتباتهای مبتنی بر مدلهای زبانی بزرگ علیرغم تمامی کاربردهای مفید خود، مشکلات جدی رفتاری و اخلاقی به همراه دارند. راهبرد عملگرایانه این است که بهجای انتظارات نابجایی مانند بینقص شدن مدلها، فرهنگ کاربرد سنجیده و شفاف از هوش مصنوعی ترویج داده شود و کاربران در درک محدودیتها و مشارکت در تنظیم رفتار مدل سهیم شوند. با رعایت چنین رویکردی و ادامه پژوهش گسترده در این حوزه، میتوان امیدوار بود هوش مصنوعی گفتگو محور در آیندهای نهچندان دور ابزار مفید و مطمئنی برای جامعه باشد، بیآنکه سلامت اطلاعات و آزادی اندیشه کاربران در خطر قرار گیرد.
- RLHF: «یادگیری تقویتی از بازخورد انسانی» (Reinforcement Learning from Human Feedback) ↩︎
- پیشبینی توکن بعدی (Next-token prediction): در هر لحظه از تولید متن، مدل زبانی مثل GPT میخواهد ببیند که باتوجهبه متن قبلی، کدام توکن (کلمه یا بخشی از کلمه) احتمال دارد توکن بعدی باشد و از میان آنها، توکنی را انتخاب میکند که بالاترین احتمال را دارد. ↩︎