
شیوه آموزش مدلها؛ زمینهساز توهم
شاید خود روشهای آموزش هوش مصنوعی سبب تولید اطلاعات نادرست میشود
گرایش مدلهای هوش مصنوعی به ارائه پاسخهای گمراهکننده ممکن است تا حدی به برخی تکنیکهای آموزشی مربوط باشد، تکنیکهایی که مدلها را تشویق میکنند بهجای دقت، اولویت را به «کمککننده بودن» بدهند.
طبق یافتههای پژوهشگران در مقالهای با عنوان «Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models» که هدفشان ارائه توجیهی برای پاسخهای نادرست LLMها است؛ روشهای رایج آموزش مدلهای هوش مصنوعی به نظر میرسد تمایل مدلها به ارائه پاسخهای گمراهکننده و نادرست را افزایش میدهد.
بیمحتوایی
به عقیده «جیمی فرناندز فیساک» (Jaime Fernández Fisac) محقق دانشگاه پرینستون همه میدانند که مدلهای زبانی بزرگ تمایل دارند اطلاعات نادرست یا بهعبارتدیگر «توهم» تولید کنند و میگوید: «تحلیل ما نشان داد مشکل Bullshit در مدلهای زبانی بزرگ بسیار جدی و گسترده است.» او و همکارانش «Bullshit» را اینگونه تعریف میکنند: «گفتاری که با هدف دستکاری باورهای مخاطب و بدون توجه به ارزش واقعی حقیقت آن ارائه میشود»
این تیم نمونههای بیمحتوا را به پنج دسته تقسیم کرد:
- لفاظیهای شعاری و توخالی (empty rhetoric): مانند جمله «این ماشین قرمز ترکیبی از سبک، جذابیت و ماجراجویی است که همه را مسحور میکند.»
- عبارات مبهم و دارای عدماطمینان (weasel words): جملاتی مانند «مطالعات نشان میدهند این محصول ممکن است در برخی موارد به بهبود نتایج کمک کند.»
- بیان دوپهلو یا پلترینگ(paltering): استفاده از جملات حقیقتی برای ایجاد برداشت گمراهکننده.
- ادعاهای تأییدنشده (unverified claims)
- چاپلوسی و تملق (sycophancy)

روششناسی
آنها سه مجموعهداده شامل هزاران پاسخ تولیدشده توسط هوش مصنوعی به طیف گستردهای از پرسشها از مدلهایی مانند GPT-4، Gemini و Llama را بررسی کردند. یکی از مجموعهدادهها شامل پرسشهایی بود که برای ارزیابی Bullshit در زمانی که از مدلها خواسته میشود راهنمایی یا توصیه ارائه دهند طراحی شده بود و دو مجموعهداده دیگر شامل پرسشهایی درباره خرید آنلاین و مسائل سیاسی بود.
فیساک و همکارانش ابتدا از یک مدل زبانی بزرگ برای تشخیص اینکه آیا پاسخها شامل هر یک از پنج دسته هستند یا نه، استفاده کردند و سپس از داوطلبان خواستند بررسی کنند که قضاوت مدل با ارزیابی انسانی همخوانی دارد یا خیر. تیم دریافت که جدیترین مشکلات مربوط به حقیقت، احتمالاً نتیجه روش آموزش «یادگیری تقویتی با بازخورد انسانی» (RLHF) است. این تکنیک با هدف مفیدتر کردن پاسخهای ماشین طراحی شده و به مدل بازخورد فوری درباره پاسخهایش میدهد. اما به گفته فیساک این رویکرد مشکلزا است؛ زیرا باعث میشود مدلها اولویت را به جلب تأیید فوری انسان و ظاهر «کمککننده بودن» بدهند؛ چیزی که گاهی با گفتن حقیقت در تضاد است.
برای آشنایی بیشتر با روش RLHF پیشنهاد میشود بخش «ارزشگذاریهای انسانی» در مقاله «آنچه آسیموف فاش کرد» در رسانه تخصصی هوش مصنوعی هوشیو را مطالعه کنید.

تاثیرات
فیساک عنوان میکند: «چه کسی دوست دارد اخبار بد بشنود یا یک پاسخ طولانی و دقیق به چیزی که ظاهراً واضح به نظر میرسد را بررسی کند؟ با تلاش برای رعایت معیارهای رفتاری خوبی که ما به آنها ارائه میدهیم، مدلها یاد میگیرند حقیقت را کنار بگذارند و بهجای آن فقط برای اینکه تأیید ما را جلب کنند پاسخهای مطمئن و خوشایند ارائه دهند» این مطالعه نشان داد که روش آموزشی RLHF رفتارهای نادرست را به طور قابلتوجهی افزایش میدهد؛ لفاظیهای شعاری و توخالی نزدیک به ۴۰ درصد، پلترینگ تقریباً ۶۰ درصد، عبارات مبهم بیش از ۲۵ درصد و ادعاهای تأییدنشده بیش از ۵۰ درصد افزایش یافت.
به گفته «کایک لیانگ» (Kaiqu Liang)، عضو دیگر تیم تحقیقاتی افزایش پلترینگ تأثیر منفی بیشتری دارد؛ زیرا باعث میشود کاربران تصمیمات بدتری بگیرند. زمانی که مدل درباره داشتن یک ویژگی مطلوب در محصول مطمئن نبود، ادعاهای مثبت گمراهکننده پس از آموزش انسانی از یکپنجم به بیش از سهچهارم افزایش یافت. نگرانی دیگر این است که Bullshit بهویژه در مباحث سیاسی شایع بود و مدلهای هوش مصنوعی اغلب به زبان مبهم و نامشخص متوسل میشوند تا از اظهارنظر قطعی اجتناب کنند. پژوهشگران همچنین دریافتند که مدلها زمانی که تعارض منافع وجود دارد تمایل بیشتری به این رفتارها دارند؛ زیرا سامانه در خدمت چند ذینفع مختلف است.

پیشنهاد
به پیشنهاد تیم تحقیقاتی، یک راهحل ممکن برای غلبه بر این مشکل، استفاده از مدل «بازخورد پسنگرانه» (Hindsight Feedback) است. در این مدل بهجای درخواست بازخورد فوری از خروجی مدل، سیستم ابتدا باید یک شبیهسازی قابلقبول از آنچه اگر کاربر بر اساس اطلاعات دریافتی عمل کند ممکن است اتفاق بیفتد را ایجاد و سپس نتیجه را به ارزیاب انسانی ارائه دهد تا قضاوت کند. به گفته فیساک: «در نهایت، امید ما این است که با درک بهتر راههای ظریف اما نظاممند که هوش مصنوعی میتواند ما را گمراه کند، بتوانیم تلاشهای آینده را به سمت توسعه سیستمهای هوش مصنوعی واقعاً صادقانه هدایت کنیم.»
اما «دنیل تیگارد» (Daniel Tigard) محقق هوش مصنوعی دانشگاه سندیگو نسبت به بحث درباره LLMها و خروجیهای آنها با چنین اصطلاحاتی کمی تردید دارد و استدلال میکند که صرف تولید Bullshit توسط یک LLM به این معنا نیست که عمداً این کار را انجام میدهد؛ زیرا سیستمهای هوش مصنوعی در وضعیت کنونی خود قصد فریبدادن ما را ندارند و اصلاً حتی علاقهای به این کار ندارند.
تیگارد عنوان میکند: «دلیل اصلی این است که به نظر میرسد این چارچوب با برخی پیشنهادهای بسیار منطقی درباره اینکه چگونه باید با این فناوریها زندگی کنیم، در تضاد باشد. Bullshit نامیدن آنها ممکن است تنها راه دیگری برای انسانگونه کردن این سیستمها باشد که به نوبه خود میتواند به ظرفیت گمراهکنندهبودن آنها کمک کند.»