
هوش مصنوعی «Claude» میتواند گفتگوهای خطرناک یا توهینآمیز را خودش متوقف کند
شرکت Anthropic اعلام کرد برخی از مدلهای جدید هوش مصنوعیاش، مانند Claude Opus 4 و 4.1، توانایی پایان دادن به گفتگوهای آسیبرسان یا توهینآمیز کاربران را دارند. این قابلیت نه برای حفاظت از انسانها، بلکه برای محافظت از خود مدل طراحی شده است.
Anthropic اخیراً برنامهای به نام «رفاه مدل» راهاندازی کرده است تا خطرات احتمالی برای مدلهای هوش مصنوعی را شناسایی و کنترل کند. بر اساس این برنامه، اگر کاربر درخواستهایی مانند محتوای جنسی شامل کودکان یا اطلاعاتی برای ایجاد خشونت یا تروریسم را مطرح کند، مدل Claude پس از تلاشهای متعدد برای هدایت گفتگو به مسیر سالم، میتواند گفتگو را قطع کند.
شرکت Anthropic تأکید کرده است که این قابلیت تنها در «موارد شدید و نادر» فعال میشود. همچنین کاربران پس از قطع گفتگو میتوانند مکالمه جدیدی را با همان حساب کاربری آغاز کنند یا شاخههای جدیدی از گفتگوهای پیشین ایجاد کنند.
این اقدام Anthropic بخشی از آزمایشی گسترده برای بررسی تعاملات انسان و هوش مصنوعی است و هدف آن، بهبود امنیت و رفاه مدلهای هوش مصنوعی بدون محدود کردن عملکرد آنها در گفتگوهای معمولی است.