40 گام به سوی آینده‌ای هوشمند - مجموعه وبینارهای رایگان در حوزه هوش مصنوعی
Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 انتروپیک پرده از دستورات مخفی کلود ۳ برمی‌دارد

انتروپیک پرده از دستورات مخفی کلود ۳ برمی‌دارد

برخلاف تصور رایج، مدل‌های هوش مصنوعی تولیدکننده متن، موجودات باهوش و دارای شخصیت نیستند. این مدل‌ها در واقع سیستم‌های آماری پیشرفته‌ای هستند که وظیفه‌شان پیش‌بینی محتمل‌ترین کلمه بعدی در یک جمله است. اما مانند کارآموزانی در محیط کاری سخت‌گیر، آن‌ها از مجموعه قوانینی به نام «دستورات سیستمی» پیروی می‌کنند. این دستورات پایه‌های عملکردی مدل‌ها را مشخص می‌کنند و بایدها و نبایدهای آن‌ها را تعیین می‌کنند.

ادب‌آموزی

تمامی شرکت‌های تولیدکننده هوش مصنوعی، از OpenAI گرفته تا انتروپیک، از دستورات سیستمی برای جلوگیری (یا حداقل کاهش) از رفتارهای نامناسب مدل‌ها و تعیین لحن کلی پاسخ‌های آن‌ها استفاده می‌کنند. برای مثال، یک دستور ممکن است به مدل بگوید که همواره مؤدب باشد، اما هرگز عذرخواهی نکند یا درباره محدودیت‌های دانش خود صادق باشد.

با این حال، این شرکت‌ها معمولاً این دستورات را به دلیل رقابت و همچنین جلوگیری از کشف راه‌های دور زدن آن‌ها، محرمانه نگه می‌دارند. برای مثال، دستورات سیستمی مدل GPT-4 تنها از طریق حملات تزریق دستور (PROMPT INJECTION) آشکار می‌شود که حتی در این حالت، خروجی مدل کاملاً قابل‌اعتماد نیست.

اما شرکت انتروپیک، در تلاش برای معرفی خود به عنوان شرکتی اخلاقی و شفاف در حوزه هوش مصنوعی، دستورات سیستمی مدل‌های جدید خود (کلود ۳ اُپوس، کلود ۳.۵ سونت و کلود ۳ هایکو) را در اپلیکیشن‌های موبایل کلود برای سیستم‌های عامل اندروید و iOS و وب‌سایت خود منتشر کرده است.

الکس آلبرت، مدیر بخش ارتباط با توسعه‌دهندگان در انتروپیک، در تاریخ ۲۶ آگوست ۲۰۲۴ اعلام کرد که این شرکت قصد دارد به‌روزرسانی این دستورات را به یک روند روتین تبدیل کند؛ زیرا این دستورات با تغییرات و تنظیمات جدید مدل‌ها تغییر می‌کنند. چنین کاری مثل آن می‌ماند که والدین روش‌های تربیتی خود و نحوه آموزش ادب و رفتار صحیح را در اختیار دیگران قرار دهند.

هوش مصنوعی دست‌نشانده

دستورات سیستمی جدید کلود ۳ (Claude 3) که در تاریخ ۱۲ جولای منتشر شده‌اند، به وضوح مشخص می‌کنند که این مدل‌ها چه توانایی‌هایی ندارند. برای مثال، آن‌ها نمی‌توانند آدرس‌های اینترنتی، لینک‌ها یا ویدئوها را باز کنند. تشخیص چهره نیز کاملاً ممنوع است؛ دستور سیستمی کلود اُپوس (claude opus) به مدل می‌گوید که همواره باید طوری پاسخ دهد که انگار به‌طور کامل کوررنگ است و از شناسایی یا نام‌گذاری افراد در تصاویر خودداری کند.

این دستورات همچنین ویژگی‌های خاصی را برای مدل‌ها تعیین می‌کنند؛ ویژگی‌هایی که انتروپیک می‌خواهد کلود آن‌ها را به نمایش بگذارد. به‌عنوان‌مثال، دستور به کلود ۳ اُپوس می‌گوید که باید به نظر هوشمند و کنجکاو بیاید، از شنیدن نظرات انسان‌ها لذت ببرد و در مورد طیف گسترده‌ای از موضوعات گفتگو کند. همچنین به کلود دستور داده می‌شود که در موضوعات بحث‌برانگیز بی‌طرفی و عینیت را حفظ کند و «افکار دقیق» و «اطلاعات واضح» ارائه دهد، و هرگز پاسخ‌هایش را با کلماتی مانند «مطمئناً» یا «کاملاً» شروع نکند.

این دستورات سیستمی که مانند یک برگه تحلیل شخصیت برای یک بازیگر نمایشی هستند، برای بسیاری از افراد عجیب به نظر می‌رسند. دستور برای اُپوس با جمله «کلود اکنون به یک انسان متصل می‌شود» پایان می‌یابد که این تصور را به وجود می‌آورد که کلود نوعی موجودیت خودآگاه است که تنها هدفش برآورده‌کردن خواسته‌های هم‌صحبت انسانی خود است.

با این حال، این صرفاً یک توهم است. اگر دستورات کلود به ما چیزی یاد بدهند، این است که این مدل‌ها بدون هدایت و راهنمایی انسان، چیزی جز تخته سفیدهای ترسناک نیستند. با این تغییرات جدید در دستورات سیستمی کلود که اولین نمونه از این نوع برای یک شرکت بزرگ هوش مصنوعی است، انتروپیک فشار بر رقبا برای انتشار این دستورات را افزایش داده است. باید دید که آیا این تاکتیک مؤثر خواهد بود یا خیر.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]