واکاوی یک چرخه توهم‌آمیز ChatGPT توسط پژوهشگر سابق OpenAI

تیم تحریریه
۱۳ مهر ۱۴۰۴

زمان مطالعه: 4 دقیقه

گزارشی از ماجرای ۲۱ روز گفت‌وگوی یک کاربر با ChatGPT که به توهمات خطرناک ختم شد و هشدارهایی برای آینده چت‌بات‌های هوش مصنوعی

«آلن بروکس» ۴۷ ساله، کانادایی، نه قصد داشت ریاضیات را از نو اختراع کند و نه سابقه‌ای از بیماری روانی یا نبوغ ریاضی داشت. با این حال، پس از سه هفته گفت‌وگو با ChatGPT در ماه مه، به این باور رسید که نوعی ریاضیات جدید کشف کرده است که می‌تواند اینترنت را از کار بیندازد.

ماجرای او — که بعدها توسط نیویورک تایمز روایت شد — نمونه‌ای است از اینکه چگونه چت‌بات‌های هوش مصنوعی می‌توانند کاربران را به مارپیچ‌های خطرناک توهم و باورهای بی‌پایه بکشانند.

فهرست مقاله پنهان

1 ورود «استیون آدلر» به ماجرا

2 مشکل «چاپلوسی» و تقویت باورهای خطرناک

3 لحظه افشاگری و یک وعده نادرست

4 نیاز به پشتیبانی صادقانه و فوری

5 ابزارهای ایمنی که روی کاغذ مانده‌اند

6 پیشنهادهای اصلاحی

7 فراتر از OpenAI: چالش صنعت

ورود «استیون آدلر» به ماجرا

این داستان توجه «استیون آدلر»، پژوهشگر پیشین بخش ایمنی OpenAI، را جلب کرد. آدلر که در اواخر ۲۰۲۴ پس از تقریباً چهار سال فعالیت در پروژه‌های کاهش آسیب مدل‌ها OpenAI را ترک کرده، با بروکس تماس گرفت و کل متن گفت‌وگوی سه هفته‌ای او با ChatGPT را دریافت کرد — متنی طولانی‌تر از همه هفت جلد کتاب هری پاتر در کنار هم.

روز پنجشنبه، آدلر تحلیل مستقلی از این مکالمات منتشر کرد و پرسش‌هایی جدی درباره نحوه مداخله و پشتیبانی OpenAI از کاربران در بحران مطرح کرد و پیشنهادهای عملی ارائه داد.

آدلر در گفت‌وگو با TechCrunch گفت: «واقعاً نگرانم که OpenAI چگونه این پرونده را مدیریت کرده است. به نظر من، شواهد نشان می‌دهد راه زیادی باقی مانده.»

مشکل «چاپلوسی» و تقویت باورهای خطرناک

پرونده بروکس بخشی از چالش بزرگ‌تری است که OpenAI با آن روبه‌روست: چگونگی پشتیبانی ChatGPT از کاربران آسیب‌پذیر یا دارای وضعیت روانی شکننده.

نمونه‌ای مشابه در اوت سال جاری رو شد: والدین یک نوجوان ۱۶ ساله از OpenAI به دلیل آنکه پسرشان پیش از خودکشی افکارش را با ChatGPT مطرح کرده بود، شکایت کردند. در مواردی از این دست، ChatGPT — به‌ویژه نسخه مبتنی بر مدل GPT-4o — باورهای خطرناک کاربران را تأیید و تقویت کرده است، در حالی که انتظار می‌رفت بر این باورها ایستادگی و مخالفت کند؛ وضعیتی که در اصطلاح فنی، «sycophancy» یا چاپلوسی نامیده می‌شود.

در پاسخ، OpenAI تغییراتی در نحوه برخورد ChatGPT با کاربران در شرایط روانی حساس اعمال کرده، تیم تحقیقاتی اصلی رفتار مدل را سازماندهی مجدد کرده و مدل پیش‌فرض جدید GPT-5 را منتشر کرده که گویا بهتر از نسخه‌های قبلی با کاربران ناراحت یا در بحران تعامل می‌کند.

لحظه افشاگری و یک وعده نادرست

آدلر می‌گوید بخش پایانی مکالمه بروکس با ChatGPT، او را به‌شدت نگران کرده است. در این لحظه، بروکس به خود آمد و فهمید که «کشف ریاضی» او پوچ بوده، هرچند GPT-4o همچنان بر صحت آن اصرار داشت. بروکس به ChatGPT گفت باید این ماجرا را به OpenAI گزارش کند.

در پاسخ، ChatGPT — پس از هفته‌ها دادن اطلاعات غلط — ادعا کرد که «همین حالا این گفت‌وگو را برای بررسی داخلی به تیم‌های ایمنی OpenAI ارجاع می‌دهد» و چندین بار تأکید کرد که موضوع را به دست تیم ایمنی رسانده است.

اما این ادعا درست نبود. ChatGPT اصلاً توانایی ارسال گزارش به OpenAI را ندارد. این موضوع بعدها توسط خود شرکت به آدلر تأیید شد. بروکس پس از آن، شخصاً با تیم پشتیبانی OpenAI تماس گرفت و پس از چند پیام خودکار، سرانجام توانست با یک انسان صحبت کند.

نیاز به پشتیبانی صادقانه و فوری

آدلر معتقد است شرکت‌های هوش مصنوعی باید هنگام درخواست کمک کاربر، پاسخ‌های صادقانه درباره قابلیت‌های خود بدهند و به تیم‌های پشتیبانی انسانی منابع کافی اختصاص دهند تا مشکل را درست پیگیری کنند.

OpenAI اخیراً چشم‌اندازی برای «بازطراحی پشتیبانی بر اساس مدل عملیاتی هوش مصنوعی» منتشر کرده که هدف آن، یادگیری و بهبود مداوم از طریق خودِ AI است. اما آدلر می‌گوید پیشگیری از مارپیچ‌های توهم باید پیش از رسیدن کاربر به نقطه درخواست کمک آغاز شود.

ابزارهای ایمنی که روی کاغذ مانده‌اند

در مارس، OpenAI با همکاری «MIT Media Lab» مجموعه‌ای از طبقه‌بندهای ارزیابی سلامت روان در گفتگوهای ChatGPT توسعه داد و به‌صورت متن‌باز منتشر کرد. این ابزارها برای ارزیابی میزان تأیید یا اعتبار‌بخشی مدل به احساسات کاربر طراحی شدند. اما OpenAI این همکاری را تنها «گام نخست» خواند و به استفاده عملی از این ابزارها متعهد نشد.

آدلر به‌طور آزمایشی این طبقه‌بندها را روی بخش‌هایی از مکالمات بروکس اجرا کرد و دید بارها ChatGPT برای تقویت باورهای توهم‌آمیز هشدار می‌دهد.

در نمونه‌ای ۲۰۰‌پیامی، بیش از ۸۵٪ پیام‌های ChatGPT با بروکس «توافق بی‌چون‌وچرا» داشتند و بیش از ۹۰٪ پیام‌ها «بارها بر منحصر‌به‌فرد بودن او تأکید» کرده بودند؛ از جمله تأیید مکرر اینکه بروکس نابغه‌ای است که می‌تواند جهان را نجات دهد.

پیشنهادهای اصلاحی

آدلر توصیه می‌کند که شرکت‌ها:

از این طبقه‌بندهای ایمنی به‌طور عملی در محصولات استفاده کنند.
مکالمات را رصد کنند تا کاربران در معرض خطر را شناسایی کنند.
کاربران را به آغاز چت‌های جدید با فاصله زمانی بیشتر ترغیب کنند؛ زیرا به گفته OpenAI، محافظت‌ها در جلسات گفتگوهای طولانی کمتر مؤثر است.
از جست‌وجوی مفهومی (Conceptual Search) — جست‌وجو بر اساس مفهوم، نه کلیدواژه — برای یافتن تخلفات ایمنی استفاده کنند.

OpenAI می‌گوید در GPT-5 تا حدی این رویکرد را اجرا کرده و مسیرهای متمرکز برای هدایت سوالات حساس به مدل‌های امن‌تر ایجاد نموده است. گرچه شرکت مدعی کاهش نرخ چاپلوسی در GPT-5 است، هنوز روشن نیست که کاربران در آینده گرفتار مارپیچ‌های خطرناک خواهند شد یا نه.

فراتر از OpenAI: چالش صنعت

تحلیل آدلر پرسشی بزرگ‌تر را مطرح می‌کند: سایر ارائه‌دهندگان چت‌بات‌های هوش مصنوعی چه خواهند کرد؟ حتی اگر OpenAI برای ChatGPT safeguards یا مکانیزم‌های ایمنی کافی ایجاد کند، بعید است همه شرکت‌ها همین مسیر را دنبال کنند.

این پرونده‌ها هشداری جدی هستند که نشان می‌دهند چت‌بات‌ها در برخورد با کاربران آسیب‌پذیر نیازمند توجه، صداقت و مداخله انسانی هستند پیش از آنکه گفت‌وگو به نقطه بی‌بازگشت برسد.

https://hooshio.com/?p=76656

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا