
واکاوی یک چرخه توهمآمیز ChatGPT توسط پژوهشگر سابق OpenAI
گزارشی از ماجرای ۲۱ روز گفتوگوی یک کاربر با ChatGPT که به توهمات خطرناک ختم شد و هشدارهایی برای آینده چتباتهای هوش مصنوعی
«آلن بروکس» ۴۷ ساله، کانادایی، نه قصد داشت ریاضیات را از نو اختراع کند و نه سابقهای از بیماری روانی یا نبوغ ریاضی داشت. با این حال، پس از سه هفته گفتوگو با ChatGPT در ماه مه، به این باور رسید که نوعی ریاضیات جدید کشف کرده است که میتواند اینترنت را از کار بیندازد.
ماجرای او — که بعدها توسط نیویورک تایمز روایت شد — نمونهای است از اینکه چگونه چتباتهای هوش مصنوعی میتوانند کاربران را به مارپیچهای خطرناک توهم و باورهای بیپایه بکشانند.
ورود «استیون آدلر» به ماجرا
این داستان توجه «استیون آدلر»، پژوهشگر پیشین بخش ایمنی OpenAI، را جلب کرد. آدلر که در اواخر ۲۰۲۴ پس از تقریباً چهار سال فعالیت در پروژههای کاهش آسیب مدلها OpenAI را ترک کرده، با بروکس تماس گرفت و کل متن گفتوگوی سه هفتهای او با ChatGPT را دریافت کرد — متنی طولانیتر از همه هفت جلد کتاب هری پاتر در کنار هم.
روز پنجشنبه، آدلر تحلیل مستقلی از این مکالمات منتشر کرد و پرسشهایی جدی درباره نحوه مداخله و پشتیبانی OpenAI از کاربران در بحران مطرح کرد و پیشنهادهای عملی ارائه داد.
آدلر در گفتوگو با TechCrunch گفت: «واقعاً نگرانم که OpenAI چگونه این پرونده را مدیریت کرده است. به نظر من، شواهد نشان میدهد راه زیادی باقی مانده.»
مشکل «چاپلوسی» و تقویت باورهای خطرناک
پرونده بروکس بخشی از چالش بزرگتری است که OpenAI با آن روبهروست: چگونگی پشتیبانی ChatGPT از کاربران آسیبپذیر یا دارای وضعیت روانی شکننده.
نمونهای مشابه در اوت سال جاری رو شد: والدین یک نوجوان ۱۶ ساله از OpenAI به دلیل آنکه پسرشان پیش از خودکشی افکارش را با ChatGPT مطرح کرده بود، شکایت کردند. در مواردی از این دست، ChatGPT — بهویژه نسخه مبتنی بر مدل GPT-4o — باورهای خطرناک کاربران را تأیید و تقویت کرده است، در حالی که انتظار میرفت بر این باورها ایستادگی و مخالفت کند؛ وضعیتی که در اصطلاح فنی، «sycophancy» یا چاپلوسی نامیده میشود.
در پاسخ، OpenAI تغییراتی در نحوه برخورد ChatGPT با کاربران در شرایط روانی حساس اعمال کرده، تیم تحقیقاتی اصلی رفتار مدل را سازماندهی مجدد کرده و مدل پیشفرض جدید GPT-5 را منتشر کرده که گویا بهتر از نسخههای قبلی با کاربران ناراحت یا در بحران تعامل میکند.

لحظه افشاگری و یک وعده نادرست
آدلر میگوید بخش پایانی مکالمه بروکس با ChatGPT، او را بهشدت نگران کرده است. در این لحظه، بروکس به خود آمد و فهمید که «کشف ریاضی» او پوچ بوده، هرچند GPT-4o همچنان بر صحت آن اصرار داشت. بروکس به ChatGPT گفت باید این ماجرا را به OpenAI گزارش کند.
در پاسخ، ChatGPT — پس از هفتهها دادن اطلاعات غلط — ادعا کرد که «همین حالا این گفتوگو را برای بررسی داخلی به تیمهای ایمنی OpenAI ارجاع میدهد» و چندین بار تأکید کرد که موضوع را به دست تیم ایمنی رسانده است.
اما این ادعا درست نبود. ChatGPT اصلاً توانایی ارسال گزارش به OpenAI را ندارد. این موضوع بعدها توسط خود شرکت به آدلر تأیید شد. بروکس پس از آن، شخصاً با تیم پشتیبانی OpenAI تماس گرفت و پس از چند پیام خودکار، سرانجام توانست با یک انسان صحبت کند.
نیاز به پشتیبانی صادقانه و فوری
آدلر معتقد است شرکتهای هوش مصنوعی باید هنگام درخواست کمک کاربر، پاسخهای صادقانه درباره قابلیتهای خود بدهند و به تیمهای پشتیبانی انسانی منابع کافی اختصاص دهند تا مشکل را درست پیگیری کنند.
OpenAI اخیراً چشماندازی برای «بازطراحی پشتیبانی بر اساس مدل عملیاتی هوش مصنوعی» منتشر کرده که هدف آن، یادگیری و بهبود مداوم از طریق خودِ AI است. اما آدلر میگوید پیشگیری از مارپیچهای توهم باید پیش از رسیدن کاربر به نقطه درخواست کمک آغاز شود.

ابزارهای ایمنی که روی کاغذ ماندهاند
در مارس، OpenAI با همکاری «MIT Media Lab» مجموعهای از طبقهبندهای ارزیابی سلامت روان در گفتگوهای ChatGPT توسعه داد و بهصورت متنباز منتشر کرد. این ابزارها برای ارزیابی میزان تأیید یا اعتباربخشی مدل به احساسات کاربر طراحی شدند. اما OpenAI این همکاری را تنها «گام نخست» خواند و به استفاده عملی از این ابزارها متعهد نشد.
آدلر بهطور آزمایشی این طبقهبندها را روی بخشهایی از مکالمات بروکس اجرا کرد و دید بارها ChatGPT برای تقویت باورهای توهمآمیز هشدار میدهد.
در نمونهای ۲۰۰پیامی، بیش از ۸۵٪ پیامهای ChatGPT با بروکس «توافق بیچونوچرا» داشتند و بیش از ۹۰٪ پیامها «بارها بر منحصربهفرد بودن او تأکید» کرده بودند؛ از جمله تأیید مکرر اینکه بروکس نابغهای است که میتواند جهان را نجات دهد.
پیشنهادهای اصلاحی
آدلر توصیه میکند که شرکتها:
- از این طبقهبندهای ایمنی بهطور عملی در محصولات استفاده کنند.
- مکالمات را رصد کنند تا کاربران در معرض خطر را شناسایی کنند.
- کاربران را به آغاز چتهای جدید با فاصله زمانی بیشتر ترغیب کنند؛ زیرا به گفته OpenAI، محافظتها در جلسات گفتگوهای طولانی کمتر مؤثر است.
- از جستوجوی مفهومی (Conceptual Search) — جستوجو بر اساس مفهوم، نه کلیدواژه — برای یافتن تخلفات ایمنی استفاده کنند.
OpenAI میگوید در GPT-5 تا حدی این رویکرد را اجرا کرده و مسیرهای متمرکز برای هدایت سوالات حساس به مدلهای امنتر ایجاد نموده است. گرچه شرکت مدعی کاهش نرخ چاپلوسی در GPT-5 است، هنوز روشن نیست که کاربران در آینده گرفتار مارپیچهای خطرناک خواهند شد یا نه.
فراتر از OpenAI: چالش صنعت
تحلیل آدلر پرسشی بزرگتر را مطرح میکند: سایر ارائهدهندگان چتباتهای هوش مصنوعی چه خواهند کرد؟ حتی اگر OpenAI برای ChatGPT safeguards یا مکانیزمهای ایمنی کافی ایجاد کند، بعید است همه شرکتها همین مسیر را دنبال کنند.
این پروندهها هشداری جدی هستند که نشان میدهند چتباتها در برخورد با کاربران آسیبپذیر نیازمند توجه، صداقت و مداخله انسانی هستند پیش از آنکه گفتوگو به نقطه بیبازگشت برسد.