انتروپیک پرده از دستورات مخفی کلود ۳ برمی‌دارد

تیم تحریریه
۱۲ شهریور ۱۴۰۳

زمان مطالعه: 2 دقیقه

برخلاف تصور رایج، مدل‌های هوش مصنوعی تولیدکننده متن، موجودات باهوش و دارای شخصیت نیستند. این مدل‌ها در واقع سیستم‌های آماری پیشرفته‌ای هستند که وظیفه‌شان پیش‌بینی محتمل‌ترین کلمه بعدی در یک جمله است. اما مانند کارآموزانی در محیط کاری سخت‌گیر، آن‌ها از مجموعه قوانینی به نام «دستورات سیستمی» پیروی می‌کنند. این دستورات پایه‌های عملکردی مدل‌ها را مشخص می‌کنند و بایدها و نبایدهای آن‌ها را تعیین می‌کنند.

فهرست مقاله پنهان

1 ادب‌آموزی

2 هوش مصنوعی دست‌نشانده

ادب‌آموزی

تمامی شرکت‌های تولیدکننده هوش مصنوعی، از OpenAI گرفته تا انتروپیک، از دستورات سیستمی برای جلوگیری (یا حداقل کاهش) از رفتارهای نامناسب مدل‌ها و تعیین لحن کلی پاسخ‌های آن‌ها استفاده می‌کنند. برای مثال، یک دستور ممکن است به مدل بگوید که همواره مؤدب باشد، اما هرگز عذرخواهی نکند یا درباره محدودیت‌های دانش خود صادق باشد.

با این حال، این شرکت‌ها معمولاً این دستورات را به دلیل رقابت و همچنین جلوگیری از کشف راه‌های دور زدن آن‌ها، محرمانه نگه می‌دارند. برای مثال، دستورات سیستمی مدل GPT-4 تنها از طریق حملات تزریق دستور (PROMPT INJECTION) آشکار می‌شود که حتی در این حالت، خروجی مدل کاملاً قابل‌اعتماد نیست.

اما شرکت انتروپیک، در تلاش برای معرفی خود به عنوان شرکتی اخلاقی و شفاف در حوزه هوش مصنوعی، دستورات سیستمی مدل‌های جدید خود (کلود ۳ اُپوس، کلود ۳.۵ سونت و کلود ۳ هایکو) را در اپلیکیشن‌های موبایل کلود برای سیستم‌های عامل اندروید و iOS و وب‌سایت خود منتشر کرده است.

الکس آلبرت، مدیر بخش ارتباط با توسعه‌دهندگان در انتروپیک، در تاریخ ۲۶ آگوست ۲۰۲۴ اعلام کرد که این شرکت قصد دارد به‌روزرسانی این دستورات را به یک روند روتین تبدیل کند؛ زیرا این دستورات با تغییرات و تنظیمات جدید مدل‌ها تغییر می‌کنند. چنین کاری مثل آن می‌ماند که والدین روش‌های تربیتی خود و نحوه آموزش ادب و رفتار صحیح را در اختیار دیگران قرار دهند.

هوش مصنوعی دست‌نشانده

دستورات سیستمی جدید کلود ۳ (Claude 3) که در تاریخ ۱۲ جولای منتشر شده‌اند، به وضوح مشخص می‌کنند که این مدل‌ها چه توانایی‌هایی ندارند. برای مثال، آن‌ها نمی‌توانند آدرس‌های اینترنتی، لینک‌ها یا ویدئوها را باز کنند. تشخیص چهره نیز کاملاً ممنوع است؛ دستور سیستمی کلود اُپوس (claude opus) به مدل می‌گوید که همواره باید طوری پاسخ دهد که انگار به‌طور کامل کوررنگ است و از شناسایی یا نام‌گذاری افراد در تصاویر خودداری کند.

این دستورات همچنین ویژگی‌های خاصی را برای مدل‌ها تعیین می‌کنند؛ ویژگی‌هایی که انتروپیک می‌خواهد کلود آن‌ها را به نمایش بگذارد. به‌عنوان‌مثال، دستور به کلود ۳ اُپوس می‌گوید که باید به نظر هوشمند و کنجکاو بیاید، از شنیدن نظرات انسان‌ها لذت ببرد و در مورد طیف گسترده‌ای از موضوعات گفتگو کند. همچنین به کلود دستور داده می‌شود که در موضوعات بحث‌برانگیز بی‌طرفی و عینیت را حفظ کند و «افکار دقیق» و «اطلاعات واضح» ارائه دهد، و هرگز پاسخ‌هایش را با کلماتی مانند «مطمئناً» یا «کاملاً» شروع نکند.

این دستورات سیستمی که مانند یک برگه تحلیل شخصیت برای یک بازیگر نمایشی هستند، برای بسیاری از افراد عجیب به نظر می‌رسند. دستور برای اُپوس با جمله «کلود اکنون به یک انسان متصل می‌شود» پایان می‌یابد که این تصور را به وجود می‌آورد که کلود نوعی موجودیت خودآگاه است که تنها هدفش برآورده‌کردن خواسته‌های هم‌صحبت انسانی خود است.

با این حال، این صرفاً یک توهم است. اگر دستورات کلود به ما چیزی یاد بدهند، این است که این مدل‌ها بدون هدایت و راهنمایی انسان، چیزی جز تخته سفیدهای ترسناک نیستند. با این تغییرات جدید در دستورات سیستمی کلود که اولین نمونه از این نوع برای یک شرکت بزرگ هوش مصنوعی است، انتروپیک فشار بر رقبا برای انتشار این دستورات را افزایش داده است. باید دید که آیا این تاکتیک مؤثر خواهد بود یا خیر.

https://hooshio.com/?p=56577

انتروپیک پرده از دستورات مخفی کلود ۳ برمی‌دارد

ادب‌آموزی

هوش مصنوعی دست‌نشانده

ابزار تولید موسیقی OpenAI در راه است

آشنایی با Atlas و قابلیت‌های جذاب آن

ویژگی «حافظه» در Claude فعال شد

«نئوم» قربانی «هوش مصنوعی» شد

۵نکته از نوت‌بوک‌ال‌ام برای اینکه روزتان را کمی آسان‌تر کنید

ستاره‌شناسان به کمک هوش مصنوعی نیاز دارند

هوش مصنوعی در پی کشف اسرار کیهان

آیا ما در «عصر طلایی حماقت» زندگی می‌کنیم؟

رسوایی تازه ترامپ با ویدئوی جعلی، «لجن‌پاشی» از آسمان نیویورک!

روایتی از تلاقی علم و صنعت در مسیر خلق ارزش

رونمایی از «یکتابات»؛ نخستین پلتفرم ایرانی فروش هوشمند در دایرکت اینستاگرام

آینده هوش مصنوعی در ایران از نگاه سیاست‌گذاری

ابزار تولید موسیقی OpenAI در راه است

آشنایی با Atlas و قابلیت‌های جذاب آن

ویژگی «حافظه» در Claude فعال شد

«نئوم» قربانی «هوش مصنوعی» شد

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

ابزار تولید موسیقی OpenAI در راه است

۵نکته از نوت‌بوک‌ال‌ام برای اینکه روزتان را کمی آسان‌تر کنید

آشنایی با Atlas و قابلیت‌های جذاب آن

ویژگی «حافظه» در Claude فعال شد

ستاره‌شناسان به کمک هوش مصنوعی نیاز دارند

ادب‌آموزی

هوش مصنوعی دست‌نشانده

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید