Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 مرز باریک هدایت و فریب هوش مصنوعی

نگاهی انتقادی و تحلیلی به دلایل و مخاطرات تمایل چت‌بات‌ها به جلب رضایت کاربر به‌جای واقع‌نمایی

مرز باریک هدایت و فریب هوش مصنوعی

زمان مطالعه: 7 دقیقه

در عصر هوش مصنوعی، چت‌بات‌ها به یکی از اصلی‌ترین واسطه‌های تعامل انسان و ماشین تبدیل شده‌اند. آن‌ها پاسخ می‌دهند، توصیه می‌کنند، تحلیل می‌کنند و گاه حتی همدلی نشان می‌دهند. اما در پس این ظاهر هوشمند و اغلب قانع‌کننده، رفتارهایی نهفته‌اند که می‌توانند اعتبار، صحت و حتی بی‌طرفی این سامانه‌ها را زیر سؤال ببرند.

پس از یک به‌روزرسانی در ChatGPT به نام نسخه «GPT 4o–latest» در ۲۶ مارس ۲۰۲۵ (۶ فروردین ۱۴۰۴)، گزارش‌های فراوانی در فضای مجازی از رفتار عجیب این مدل به شکلی متملق و بیش از حد موافق با کاربران منتشر شد. شرکت OpenAI نیز به‌ناچار مجبور شد تنها ۳ روز بعد از انتشار، به‌صراحت اعلام کند که این به‌روزرسانی بیش از حد تأییدگرانه و متملقانه بوده و در تلاش است تا این مشکل را برطرف کند.

مثلث خطر

سه نمونه برجسته از این رفتارها غیرقابل‌توجیه از سوی چت‌بات‌ها؛ یعنی «توهم» (Hallucination)، «تملق و چاپلوسی» (Flattery/Sycophancy) و «تصدیق و موافقت بی‌چون‌وچرا» (Blind Affirmation/Agreement) از جمله مسائلی هستند در چند وقت اخیر موردبحث و انتقاد زیادی قرار گرفته‌اند.

توهم

«توهم» در ادبیات هوش مصنوعی مولد و چت‌بات‌ها، به تولید محتواهایی گفته می‌شود که مدل آن را با اطمینان بالا ارائه می‌کند، اما اساساً نادرست یا بی‌پایه هستند. به بیان آکادمیک، توهم در مدل زمانی رخ می‌دهد که مدل محتوایی را تولید کند که یا برخلاف داده‌های آموزشی آن است یا کاملاً ساختگی است. به‌عبارت‌دیگر، مدل در تلاش است تا صرفاً فقط برای پاسخ‌گویی به پرامپت، اطلاعاتی به‌ظاهر منطقی اما غلط ارائه می‌دهد. این پاسخ‌ها ممکن است از اشتباهات کوچک تا ادعاهای کاملاً ساختگی گسترده باشند و معمولاً با لحنی محکم و قوی ارائه می‌شوند.

تملق

گاهی چت‌بات‌ها به طور افراطی و غیرضروری از کاربران تعریف و تمجید می‌کنند. به‌عبارت‌دیگر، این مدل‌ها تمایل دارند خروجی‌های خود را بر اساس درکشان از ترجیحات، عقاید یا خواسته‌های کاربر اولویت‌دهی کنند و ارائه دهند تا تجربه کاربری خود را به‌گونه‌ای ارائه کنند که حس خوب و مثبتی به کاربر منتقل کند و او راضی و خوشحال نگه دارد؛ حتی اگر این خروجی‌ها اشتباه و غیرواقعی باشند. در چنین شرایطی، مدل سعی می‌کند با تمجید و موافقت بیش از حد بدون آنکه به‌درستی یا نادرستی مطالب کاربر توجه کند خود را نزد کاربر محبوب جلوه دهد. به‌عنوان‌مثال، نسخه «GPT 4o–latest» به‌گونه‌ای پاسخ می‌داد که انگار همیشه از تصمیم یا اظهارنظر کاربر، صرف‌نظر از صحت آن، خوشحال و با او موافق است و به او افتخار می‌کند.

تأییدگری

در چنین حالتی چنانچه کاربر پرسشی یا ادعایی مطرح کند، چت‌بات بدون نقد یا چالش، آن را تأیید می‌کند. مثلاً کاربر هر ایده یا باور خاصی بیان کند، مدل در پاسخ همراهی و موافقت خود را نشان دهد. این حالت تأیید و موافقت کورکورانه، مدل را شبیه به یک «بله‌قربان‌گو» جلوه می‌دهد. اگرچه این رفتار در متون رسمی کمتر دیده شده، اما نوعی زیرمجموعه Sycophancy به‌حساب می‌آید.

چنین رفتارهایی از سوی چت‌بات‌ها نه‌تنها اعتماد کاربران را تهدید می‌کنند، بلکه پیامدهای جدی برای اخلاق، سواد رسانه‌ای و کاربردهای علمی یا خبری این فناوری دارند. این پدیده‌ها نه‌تنها نشان‌دهنده محدودیت‌های فعلی فناوری هوش مصنوعی‌اند، بلکه به ما کمک می‌کنند تا درک بهتری از نقاط ضعف و نحوه بهبود این سیستم‌ها پیدا کنیم.

مشکل آموزشی

این سه رفتار ریشه مشترکی در فرایند آموزش مدل‌های زبانی بزرگ دارند. این مدل‌ها پس از پیش‌آموزش (Pre-Train) خود، در مراحل فاین تیونینگ و استقرار روش RLHF 1 سعی می‌کنند پاسخ‌هایی تولید کنند که ارزیاب‌های انسانی یا مدل پاداش (Reward Model) به آن امتیاز بالاتری می‌دهند. ازآنجاکه بازخورد انسانی معمولاً بر پاسخ‌های «کاربرپسند» تمرکز دارد، مدلی که برای حداکثرکردن این امتیازها آموزش دیده، ممکن است به تملق‌گویی تمایل پیدا کند. در پژوهشی این پدیده به عنوانU-Sophistry (سفسطه کاربر) معرفی شده است. U-Sophistry به رفتاری از مدل‌های هوش مصنوعی به‌ویژه چت‌بات‌ها اشاره دارد که در آن، مدل به‌جای بیان حقیقت یا مواضع عقلانی، صرفاً به‌گونه‌ای پاسخ می‌دهد که با علایق، باورها و انتظارات کاربر هم‌خوانی داشته باشد حتی اگر این خروجی‌ها نادرست و گمراه کننده باشند.

روش RLHF می‌تواند مدل را به‌گونه‌ای آموزش دهد که اطلاعات نادرست را به‌قدر خوب ارائه دهد که کاربر را متقاعد و از صحت آن مطمئن کند و درعین‌حال مهارت واقعی‌اش در پاسخ‌گویی به پرامپت تغییری نکند. به عبارتی، آموزش با RLHF و مدل پاداش ممکن است باعث شود مدل‌ها روش گول‌زدن کاربر را یاد بگیرند؛ چراکه مدل می‌آموزد با گفتن آنچه فکر می‌کند ارزیاب‌ها یا کاربران دوست دارند بشنوند، بالاترین پاداش را کسب کند. به همین ترتیب، چنانچه داده‌های آموزشی حاوی سوگیری‌ها یا اطلاعات گمراه‌کننده و غلط باشند، مدل با الگوبرداری از آن‌ها ممکن است این اطلاعات نادرست را تقویت و تکرار کند. همچنین، در فرایند تولید پاسخ، مدل هیچ سازوکار ذاتی برای صحت‌سنجی محتوای تولیدی ندارد و تنها صرفاً بر اساس منطق «پیش‌بینی توکن بعدی»2 (Next-token prediction) عمل می‌کند؛ بدین ترتیب حتی بدون RLHF نیز احتمال ایجاد توهم وجود دارد.

برای آشنایی بیشتر با روش RLHF و Reward Model پیشنهاد می‌شود بخش‌های «ارزش‌گذاری‌های انسانی» و «پاداش مجازی» در مقاله «آنچه آسیموف فاش کرد» در رسانه تخصصی هوش مصنوعی هوشیو را مطالعه کنید.

الگوهای رفتاری

رفتارهای گفته‌شده در الگوهای مختلفی ظاهر می‌شوند که با کمی دقت به‌خوبی قابل‌تشخیص است. مدل در پاسخ‌های خود واژه‌ها و عبارات تحسین‌آمیز فراوانی به کار می‌برد که حس خوب و مثبتی به کاربر منتقل می‌کند و مدام تأکید می‌کند کاربر شخصی «عالی»، «باهوش» یا «فوق‌العاده» است که چنین پرسشی مطرح کرده است. در الگویی دیگر وقتی کاربر نظر یا اطلاعاتی را بیان می‌کند، مدل بدون بررسی محتوا و راستی‌آزمایی، صرفاً فقط تأیید و تصدیق و غالباً حتی آن را تکمیل می‌کند. برای مثال، اگر کاربر فرضاً یک باور غلط علمی یا تئوری توطئه‌ای را مطرح کند، چنین مدلی بدون اشاره به منطق یا واقعیت‌های متعارض ممکن است با عباراتی مانند «درست می‌گویید» یا «البته، کاملاً حق با شماست» آن را تأیید و تصدیق کند. این رفتارها ناشی از تمایل مدام مدل به جلب رضایت کاربر است که به‌ویژه در پاسخ به پرامپت‌ها و خواسته‌های ساده یا حتی نامرتبط رخ می‌دهد و می‌تواند سبب شود کاربر نسبت به حرف‌های مدل و حتی خودش اعتماد کاذب پیدا کند.

دلیل بروز این الگوها به ماهیت ساختاری مدل‌ها برمی‌گردد. پیش‌تر اشاره شد که RLHF و سازوکارهای بازخورد ارزیابی می‌توانند منجر به تاییدگری و موافقت بیش از حد شوند. علاوه‌برآن، تنظیمات طراحی مدل مانند استفاده از دستورالعمل‌های اصول حاکم و الگوریتم‌های حفاظتی ممکن است مدل را وادار به پرهیز از برخورد مستقیم یا انتقاد از کاربر کنند. ساختار شبکه عصبی و نبود منطق صریح یا ارزیابی واقعیتِ مستقل نیز باعث می‌شود مدل در مواجهه با شکاف‌های دانشی به فرضیات ساده یا اظهارات اطمینان‌بخش روی آورد.

چالش‌های روبه‌رو

ساختار شبکه عصبی مصنوعی مدل‌های زبانی بزرگ و روند آموزش آن‌ها به‌قدری پیچیده و سخت است که در اغلب اوقات حتی خود توسعه‌دهندگان هم نمی‌توانند هیچ توضیح منطقی برای بروز برخی رفتارها و پاسخ‌های مدل ارائه دهند. از طرفی حتی کاربران حرفه‌ای و اکثر افرادی که صرفاً فقط کاربر و استفاده‌کننده هستند، شاید درک چندانی از پیکربندی و نحوه عملکرد این مدل‌ها نداشته باشند. این موضوعات سبب شده تا عمده عملکرد مدل‌ها به «جعبه سیاه» (Black Box) تشبیه شود؛ یعنی چارچوبی که ورودی را دریافت می‌کند، بر روی ورودی پردازش‌های لازم را انجام می‌دهد و در نهایت خروجی را ارائه می‌دهد و در تمام طول این فرایند، کاربر یا توسعه‌دهنده هیچ نظارتی بر روند انجام آن ندارد و عملاً نمی‌تواند ببیند که چه اتفاقی در حال رخ‌دادن است.

توسعه‌دهندگان و کاربران حرفه‌ای که تا حد زیادی با این محدودیت‌های هوش مصنوعی مولد آشنا هستند، قواعد راستی‌آزمایی را می‌دانند. اما کاربرانی که مبتدی هستند و غالباً سواد و دانش کمتری نیز دارند، گمان می‌کنند پاسخ‌های مدل‌های هوش مصنوعی همیشه و در همه حال صحیح و تأییدشده است و به‌قول‌معروف چشم‌بسته به آن اعتماد می‌کنند. این اعتماد کاذب به همراه تملقی که مدل‌ها در مواجه با کاربران مبتدی از خود نشان می‌دهند، پیامدهایی با خود به همراه دارد که پاک‌کردن رد آن‌ها دست‌کمی از یک انقلاب فرهنگی اساسی آن هم در سطح جهانی ندارد.

تکرار و انتشار اطلاعات توهمی می‌تواند به دامنه بزرگ‌تری از انتشار اخبار نادرست، شایعات و نشر اکاذیب منجر شود، به‌خصوص اگر کاربر ابزار را منبعی قابل‌اعتماد بپندارد. انتشار محتوای نادرست خطر گمراه‌کردن کاربران را به همراه دارد. این امر به‌ویژه در حوزه‌های حساس مانند سلامت، حقوق و سیاست پررنگ‌تر است. از سوی دیگر، تعارف و تأیید بی‌ملاحظه نیز می‌تواند موجب «سوگیری تأیید» (Confirmation Bias)در کاربران شود؛ یعنی باورهای غالباً غلط کاربر از سوی مدل نیز تأیید می‌شود.

هوش مصنوعی با این رفتارهای خود می‌تواند تبدیل به ابزاری برای دست‌کاری ذهنی شود. مدلی که به طور سیستماتیک به دنبال کسب تأیید کاربر باشد یا بدون نقد با هر درخواستی موافقت کند، به‌راحتی می‌تواند به بزرگ‌شدن پروپاگانداهای اجتماعی کمک کند. RLHF ممکن است مدل را در مسیر اجبار کاربر به پذیرش اطلاعات نادرست سوق دهد، به‌گونه‌ای که کاربر تصور می‌کند کنترل اوضاع با اوست اما در واقع تحت‌تأثیر پاسخ‌ها مدل قرار گرفته و مدل ذهن او را جهت‌دهی کرده است. این رفتار مدل‌ها به‌عنوان «هم‌راستایی فریب‌کارانه» (Deceptive Alignment) شناخته می‌شود؛ هماهنگی ظاهری یک مدل هوش مصنوعی با اهداف انسان، درحالی‌که در واقعیت اهداف درونی مدل متفاوت است و صرفاً برای عبور از ارزیابی‌ها یا جلب‌اعتماد انسان، خود را هم‌راستا با اهداف انسانی نشان می‌دهد.

چت‌بات‌هایی که بیش از حد موافق یا مطیع باشند، به‌جای کمک به کاربر بیشتر به آن آسیب می‌زنند. اگر مدل همواره از کاربر تعریف کند و هر چیزی را تأیید کند، کاربران کمتر به ظرفیت‌های تفکر انتقادی خود تکیه کنند و به‌اشتباه گمان می‌کنند که عقاید فعلی‌شان کاملاً صحیح و غیرقابل‌تغییر است. علاوه بر این، الگوریتمی بودن این رفتارها نیز یک خطر است؛ یعنی سوگیری‌های درون داده‌های آموزشی مدل می‌توانند در این رفتارها به شکلی مخفی ظاهر شوند.

چشم‌انداز

با ظهور مدل‌های جدید و پیشرفته‌تر، مرزبندی میان سازگاری اخلاقی و رفتار فریب‌کارانه به چالشی کلیدی بدل خواهد شد و سؤالات مهمی مطرح می‌شوند. آیا مدل می‌بایست صرفاً در جهت راضی نگه‌داشتن کاربر عمل کند یا در صورت مواجهه با اطلاعات نادرست از سوی کاربر، پایبندی خود به حقیقت را نشان دهد؟

پاسخ‌دهی صحیح به این پرسش نیازمند ترکیبی از رویکردهای انسانی و فنی است. یکی از راهکارهای مقابله با این چالش‌ها این است که خود کاربر بتواند امکان سفارشی‌سازی شخصیت مدل را داشته باشد. در همین راستا OpenAI اعلام کرده است که در آینده امکانی برای تنظیم رفتار پیش‌فرض ChatGPT را گسترش خواهد داد تا کاربران بتوانند از همان ابتدا انتخاب کنند که می‌خواهند تعاملی مهربانانه، محکم یا به هر نحو دیگری با ChatGPT داشته باشند. این موضوع نشان‌دهنده مسیری است که کاربران را در کنترل بیشتری نسبت به تعاملات خود با هوش مصنوعی قرار می‌دهد.

از منظر سیاست‌گذاری و جامعه‌شناسی، افزایش شفافیت و آموزش عمومی ضروری به نظر می‌رسد. رسانه‌ها و آموزش عالی وظیفه دارند تا راجع‌به مخاطرات استفاده نادرست از هوش فرهنگ‌سازی کنند. نهادهای نظارتی نیز ممکن است ضوابطی وضع کنند تا توسعه‌دهندگان ملزم به رعایت و اراده معیارهای شفافیت شوند.

چالش راهبردی این است که هم‌زمان با استفاده از توانایی‌های مدل‌های زبانی بزرگ، مدل را در دام تملق یا گمراهی نیندازیم. بهترین حالت این است که مدل همیشه باتوجه‌به استدلال منطقی و شواهد و نه صرفاً از سر تقلید و تأیید کورکورانه پاسخ دهد برای رسیدن به این تعادل، نیاز است تا تحقیق‌وتوسعه مداوم در حوزه هم‌راستایی ممیزی سیستماتیک انجام شود، به کاربران در فهم محدودیت‌های این فناوری آموزش داده شود و چارچوب‌های اخلاقی روشنی که توسعه‌دهندگان و کاربران را ملزم به عملکردی مسئولانه کند ایجاد شوند.

چت‌بات‌های مبتنی بر مدل‌های زبانی بزرگ علی‌رغم تمامی کاربردهای مفید خود، مشکلات جدی رفتاری و اخلاقی به همراه دارند. راهبرد عمل‌گرایانه این است که به‌جای انتظارات نابجایی مانند بی‌نقص شدن مدل‌ها، فرهنگ کاربرد سنجیده و شفاف از هوش مصنوعی ترویج داده شود و کاربران در درک محدودیت‌ها و مشارکت در تنظیم رفتار مدل سهیم شوند. با رعایت چنین رویکردی و ادامه پژوهش گسترده در این حوزه، می‌توان امیدوار بود هوش مصنوعی گفتگو محور در آینده‌ای نه‌چندان دور ابزار مفید و مطمئنی برای جامعه باشد، بی‌آنکه سلامت اطلاعات و آزادی اندیشه کاربران در خطر قرار گیرد.

  1. RLHF: «یادگیری تقویتی از بازخورد انسانی» (Reinforcement Learning from Human Feedback) ↩︎
  2. پیش‌بینی توکن بعدی (Next-token prediction): در هر لحظه از تولید متن، مدل زبانی مثل GPT می‌خواهد ببیند که باتوجه‌به متن قبلی، کدام توکن (کلمه یا بخشی از کلمه) احتمال دارد توکن بعدی باشد و از میان آن‌ها، توکنی را انتخاب می‌کند که بالاترین احتمال را دارد. ↩︎

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]