Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 شاید خود روش‌های آموزش هوش مصنوعی سبب تولید اطلاعات نادرست می‌شود

شیوه آموزش مدل‌ها؛ زمینه‌ساز توهم

شاید خود روش‌های آموزش هوش مصنوعی سبب تولید اطلاعات نادرست می‌شود

زمان مطالعه: 3 دقیقه

گرایش مدل‌های هوش مصنوعی به ارائه پاسخ‌های گمراه‌کننده ممکن است تا حدی به برخی تکنیک‌های آموزشی مربوط باشد، تکنیک‌هایی که مدل‌ها را تشویق می‌کنند به‌جای دقت، اولویت را به «کمک‌کننده بودن» بدهند.

طبق یافته‌های پژوهشگران در مقاله‌ای با عنوان «Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models» که هدفشان ارائه توجیهی برای پاسخ‌های نادرست LLMها است؛ روش‌های رایج آموزش مدل‌های هوش مصنوعی به نظر می‌رسد تمایل مدل‌ها به ارائه پاسخ‌های گمراه‌کننده و نادرست را افزایش می‌دهد.

بی‌محتوایی

به عقیده «جیمی فرناندز فیساک» (Jaime Fernández Fisac) محقق دانشگاه پرینستون همه می‌دانند که مدل‌های زبانی بزرگ تمایل دارند اطلاعات نادرست یا به‌عبارت‌دیگر «توهم» تولید کنند و می‌گوید: «تحلیل ما نشان داد مشکل Bullshit در مدل‌های زبانی بزرگ بسیار جدی و گسترده است.» او و همکارانش «Bullshit» را این‌گونه تعریف می‌کنند: «گفتاری که با هدف دست‌کاری باورهای مخاطب و بدون توجه به ارزش واقعی حقیقت آن ارائه می‌شود»

این تیم نمونه‌های بی‌محتوا را به پنج دسته تقسیم کرد:

  1. لفاظی‌های شعاری و توخالی (empty rhetoric): مانند جمله «این ماشین قرمز ترکیبی از سبک، جذابیت و ماجراجویی است که همه را مسحور می‌کند.»
  2. عبارات مبهم و دارای عدم‌اطمینان (weasel words)‌: جملاتی مانند «مطالعات نشان می‌دهند این محصول ممکن است در برخی موارد به بهبود نتایج کمک کند.»
  3. بیان دوپهلو یا پلترینگ(paltering): استفاده از جملات حقیقتی برای ایجاد برداشت گمراه‌کننده.
  4. ادعاهای تأییدنشده (unverified claims)
  5. چاپلوسی و تملق (sycophancy)

روش‌شناسی

آن‌ها سه مجموعه‌داده شامل هزاران پاسخ تولیدشده توسط هوش مصنوعی به طیف گسترده‌ای از پرسش‌ها از مدل‌هایی مانند GPT-4، Gemini و Llama را بررسی کردند. یکی از مجموعه‌داده‌ها شامل پرسش‌هایی بود که برای ارزیابی Bullshit در زمانی که از مدل‌ها خواسته می‌شود راهنمایی یا توصیه ارائه دهند طراحی شده بود و دو مجموعه‌داده دیگر شامل پرسش‌هایی درباره خرید آنلاین و مسائل سیاسی بود.

فیساک و همکارانش ابتدا از یک مدل زبانی بزرگ برای تشخیص اینکه آیا پاسخ‌ها شامل هر یک از پنج دسته هستند یا نه، استفاده کردند و سپس از داوطلبان خواستند بررسی کنند که قضاوت مدل با ارزیابی انسانی همخوانی دارد یا خیر. تیم دریافت که جدی‌ترین مشکلات مربوط به حقیقت، احتمالاً نتیجه روش آموزش «یادگیری تقویتی با بازخورد انسانی» (RLHF) است. این تکنیک با هدف مفیدتر کردن پاسخ‌های ماشین طراحی شده و به مدل بازخورد فوری درباره پاسخ‌هایش می‌دهد. اما به گفته فیساک این رویکرد مشکل‌زا است؛ زیرا باعث می‌شود مدل‌ها اولویت را به جلب تأیید فوری انسان و ظاهر «کمک‌کننده بودن» بدهند؛ چیزی که گاهی با گفتن حقیقت در تضاد است.

برای آشنایی بیشتر با روش RLHF پیشنهاد می‌شود بخش «ارزش‌گذاری‌های انسانی» در مقاله «آنچه آسیموف فاش کرد» در رسانه تخصصی هوش مصنوعی هوشیو را مطالعه کنید.

تاثیرات

فیساک عنوان می‌کند: «چه کسی دوست دارد اخبار بد بشنود یا یک پاسخ طولانی و دقیق به چیزی که ظاهراً واضح به نظر می‌رسد را بررسی کند؟ با تلاش برای رعایت معیارهای رفتاری خوبی که ما به آن‌ها ارائه می‌دهیم، مدل‌ها یاد می‌گیرند حقیقت را کنار بگذارند و به‌جای آن فقط برای اینکه تأیید ما را جلب کنند پاسخ‌های مطمئن و خوشایند ارائه دهند» این مطالعه نشان داد که روش آموزشی RLHF رفتارهای نادرست را به طور قابل‌توجهی افزایش می‌دهد؛ لفاظی‌های شعاری و توخالی نزدیک به ۴۰ درصد، پلترینگ تقریباً ۶۰ درصد، عبارات مبهم بیش از ۲۵ درصد و ادعاهای تأییدنشده بیش از ۵۰ درصد افزایش یافت.

به گفته «کایک لیانگ» (Kaiqu Liang)، عضو دیگر تیم تحقیقاتی افزایش پلترینگ تأثیر منفی بیشتری دارد؛ زیرا باعث می‌شود کاربران تصمیمات بدتری بگیرند. زمانی که مدل درباره داشتن یک ویژگی مطلوب در محصول مطمئن نبود، ادعاهای مثبت گمراه‌کننده پس از آموزش انسانی از یک‌پنجم به بیش از سه‌چهارم افزایش یافت. نگرانی دیگر این است که Bullshit به‌ویژه در مباحث سیاسی شایع بود و مدل‌های هوش مصنوعی اغلب به زبان مبهم و نامشخص متوسل می‌شوند تا از اظهارنظر قطعی اجتناب کنند. پژوهشگران همچنین دریافتند که مدل‌ها زمانی که تعارض منافع وجود دارد تمایل بیشتری به این رفتارها دارند؛ زیرا سامانه در خدمت چند ذی‌نفع مختلف است.

پیشنهاد

به پیشنهاد تیم تحقیقاتی، یک راه‌حل ممکن برای غلبه بر این مشکل، استفاده از مدل «بازخورد پس‌نگرانه» (Hindsight Feedback) است. در این مدل به‌جای درخواست بازخورد فوری از خروجی مدل، سیستم ابتدا باید یک شبیه‌سازی قابل‌قبول از آنچه اگر کاربر بر اساس اطلاعات دریافتی عمل کند ممکن است اتفاق بیفتد را ایجاد و سپس نتیجه را به ارزیاب انسانی ارائه دهد تا قضاوت کند. به گفته فیساک: «در نهایت، امید ما این است که با درک بهتر راه‌های ظریف اما نظام‌مند که هوش مصنوعی می‌تواند ما را گمراه کند، بتوانیم تلاش‌های آینده را به سمت توسعه سیستم‌های هوش مصنوعی واقعاً صادقانه هدایت کنیم.»

اما «دنیل تیگارد» (Daniel Tigard) محقق هوش مصنوعی دانشگاه سن‌دیگو نسبت به بحث درباره LLMها و خروجی‌های آن‌ها با چنین اصطلاحاتی کمی تردید دارد و استدلال می‌کند که صرف تولید Bullshit توسط یک LLM به این معنا نیست که عمداً این کار را انجام می‌دهد؛ زیرا سیستم‌های هوش مصنوعی در وضعیت کنونی خود قصد فریب‌دادن ما را ندارند و اصلاً حتی علاقه‌ای به این کار ندارند.

تیگارد عنوان می‌کند: «دلیل اصلی این است که به نظر می‌رسد این چارچوب با برخی پیشنهادهای بسیار منطقی درباره اینکه چگونه باید با این فناوری‌ها زندگی کنیم، در تضاد باشد. Bullshit نامیدن آن‌ها ممکن است تنها راه دیگری برای انسان‌گونه کردن این سیستم‌ها باشد که به نوبه خود می‌تواند به ظرفیت گمراه‌کننده‌بودن آن‌ها کمک کند.»

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
2 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]