توهم در مدلهای جدید ChatGPT نگرانیها را افزایش داد
شرکت OpenAI بهتازگی مدلهای پیشرفته هوش مصنوعی خود، o3 و o4-mini، را معرفی کرده که در زمینههایی مانند کدنویسی و حل مسائل ریاضی عملکردی خیرهکننده دارند. اما این مدلها با مشکلی جدی روبهرو هستند: توهمزایی، یعنی تولید اطلاعات نادرست یا ساختگی.
برخلاف انتظار، این مدلها نسبت به مدلهای قبلی OpenAI، مانند o1 و GPT-4o، بیشتر دچار توهم میشوند. این موضوع، که حتی خود OpenAI دلیل دقیق آن را نمیداند، نگرانیهایی درباره دقت این فناوریهای جدید ایجاد کرده است.
بر اساس گزارشهای OpenAI، مدل o3 در ۳۳ درصد از سؤالات مربوط به اطلاعات شخصی (بنچمارک PersonQA) اطلاعات نادرست تولید میکند، در حالی که این رقم برای مدلهای قبلی o1 و o3-mini به ترتیب ۱۶ و ۱۴.۸ درصد بود.
مدل o4-mini حتی بدتر عمل کرده و در ۴۸ درصد موارد توهمزایی داشته است. آزمایشهای مستقل توسط آزمایشگاه Transluce نیز نشان داده که o3 گاهی ادعاهای غیرواقعی درباره فرآیند پاسخگویی خود مطرح میکند، مانند اجرای کد روی دستگاهی خیالی. کارشناسان معتقدند روشهای یادگیری استفادهشده در این مدلها ممکن است این مشکل را تشدید کرده باشد.
این توهمزایی میتواند کاربرد مدلهای جدید را در زمینههایی مانند حقوق یا پزشکی، که دقت حیاتی است، محدود کند. با این حال، OpenAI در حال بررسی راهحلهایی مانند افزودن قابلیت جستجوی وب است که میتواند دقت را بهبود بخشد. برای مثال، مدل GPT-4o با جستجوی وب تا ۹۰ درصد دقت دارد. در حالی که OpenAI و صنعت هوش مصنوعی به سمت مدلهای استدلالی پیشرفته حرکت میکنند، حل مشکل توهمزایی به چالشی کلیدی تبدیل شده که نیازمند تحقیقات بیشتری است.