بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

تیم تحریریه
۱۱ فروردین ۱۴۰۴

زمان مطالعه: 3 دقیقه

سازمان‌هایی که قصد دارند عامل‌های هوش مصنوعی را به‌کار بگیرند، باید ابتدا آن‌ها را برای انجام وظایف خاص تنظیم کنند، به ویژه در فرآیندهایی که معمولاً تکراری به نظر می‌رسند. در حالی که برخی سازمان‌ها می‌خواهند عامل‌هایی داشته باشند که فقط یک نوع کار را در یک فرآیند خاص انجام دهند، گاهی اوقات این عامل‌ها نیاز دارند با این امید که بتوانند سازگار شوند، به محیط‌های جدید وارد شوند.

فهرست مقاله پنهان

1 اصلاح عملکرد

2 آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

3 بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

اصلاح عملکرد

محققان از دانشگاه پست و ارتباطات پکن یک روش جدید به نام AgentRefine را معرفی کرده‌اند. این روش به عامل‌ها آموزش می‌دهد که خود را اصلاح کنند و باعث می‌شود که عامل‌های هوش مصنوعی عمومی‌تر و سازگارتر شوند.

محققان گفتند که روش‌های فعلی تنظیم دقیق (Finetuning)، عامل‌ها را به انجام کارهای مشابه با داده‌های آموزشی خود یا کارهای «درون‌داده‌ای» (held-in)، محدود می‌کنند و در محیط‌های جدید یا «برون‌داده‌ای» (held-out) عملکرد خوبی ندارند. با پیروی صرف از قوانینی که از طریق داده‌های آموزشی تعیین شده‌اند، عامل‌های آموزش‌دیده با این چارچوب‌ها در «یادگیری» از اشتباهات خود مشکل خواهند داشت و نمی‌توانند به عامل‌های کلی تبدیل شده و در گردش‌های کاری جدید استفاده شوند.

برای مقابله با این محدودیت، AgentRefine می‌خواهد مجموعه‌داده‌های عمومی‌تر برای آموزش عامل‌ها ایجاد کند که به مدل امکان می‌دهد از اشتباهات خود بیاموزد و در محیط‌های کاری جدید قرار گیرد. در یک مقاله جدید، محققان گفتند که هدف AgentRefine «ایجاد داده‌های تنظیم دقیق کلی‌تر برای عامل‌ها و ایجاد ارتباط بین تعمیم‌پذیری عامل‌ها و خوداصلاحی است.» اگر عامل‌ها خود را اصلاح کنند، اشتباهاتی که یاد گرفته‌اند را تکرار نمی‌کنند و این اشتباهات را به محیط‌های دیگری که در آن‌ها مستقر می‌شوند، منتقل نمی‌کنند.

محققان می‌نویسند: «ما دریافتیم که تنظیم دقیق عامل‌ها بر روی داده‌های خوداصلاحی، توانایی عامل را برای کشف اقدامات عملی‌تر در مواجهه با شرایط بد افزایش می‌دهد و در نتیجه منجر به تعمیم‌پذیری بهتر به محیط‌های جدید عامل‌ها می‌شود.»

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

محققان با الهام از بازی نقش‌آفرینی رومیزی، شخصیت‌ها، اسکریپت‌هایی برای پیروی از آن‌ها و چالش‌هایی برای عامل‌ها طراحی کردند. بله، در این روش یک Dungeon Master هم وجود دارد!

آن‌ها ساخت داده‌ها برای AgentRefine را به سه بخش تولید اسکریپت، تولید مسیر (trajectory) و تأیید اعتبار تقسیم کردند.

در بخش تولید اسکریپت، مدل یک اسکریپت یا راهنما ایجاد می‌کند که شامل اطلاعاتی درباره محیط، وظایف و اقداماتی است که شخصیت‌ها می‌توانند انجام دهند. (محققان AgentRefine را با استفاده از Llama-3-8B-Instruct، Llama-3-70B-Instruct، Mistral-7B-Instruct-v0.3، GPT-4o-mini و GPT-4o آزمایش کردند.)

سپس مدل داده‌های عاملی را تولید می‌کند که حاوی خطا هستند و هم به عنوان DM و هم به عنوان بازیکن در مرحله مسیر عمل می‌کند. این مدل اقداماتی که می‌تواند انجام دهد را ارزیابی کرده و بررسی می‌کند که آیا این اقدامات حاوی خطا هستند یا خیر. در مرحله آخر، یعنی تأیید اعتبار، اسکریپت و مسیر بررسی می‌شوند تا امکان خوداصلاحی برای عامل‌هایی که آموزش می‌بینند فراهم شود.

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

محققان دریافتند که عامل‌های آموزش‌دیده با استفاده از روش و مجموعه‌داده‌های AgentRefine، در انجام وظایف متنوع عملکرد بهتری داشته و با سناریوهای جدید سازگار می‌شوند. این عامل‌ها بیشتر خود را اصلاح می‌کنند تا اقدامات و تصمیمات خود را برای جلوگیری از اشتباهات تغییر دهند و در این فرایند مقاوم‌تر می‌شوند.

به طور خاص، AgentRefine عملکرد تمامی مدل‌ها را برای انجام وظایف held-out (وظایفی که خارج از داده‌های آموزش اولیه قرار دارند) بهبود داد.

شرکت‌ها باید عامل‌ها را به گونه‌ای آموزش دهند که قابلیت تطبیق بیشتری با وظایف داشته باشند، به طوری که فقط همان چیزی را که یاد گرفته‌اند تکرار نکنند و بتوانند تصمیمات بهتری بگیرند. هماهنگی عامل‌ها نه تنها ترافیک چندین عامل را هدایت می‌کند، بلکه مشخص می‌کند که آیا عامل‌ها وظایف را بر اساس درخواست‌های کاربر انجام داده‌اند یا نه.

OpenAI o3 قابلیت «سنتز برنامه» (program synthesis) را ارائه می‌دهد که می‌تواند تطبیق‌پذیری وظایف را بهبود بخشد. سایر چارچوب‌های هماهنگ‌سازی و آموزش، مانند Magentic-One از مایکروسافت، اقداماتی را برای عامل‌های نظارتی تعیین می‌کند تا یاد بگیرند چه زمانی وظایف را به عامل‌های مختلف منتقل کنند.

https://hooshio.com/?p=66515

بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

اصلاح عملکرد

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

ورود دلارهای نفتی به تورنتو؛ سرمایه‌گذاری ۵۰ میلیارد دلاری امارات در بازار کانادا

جاسوسی خاموش گوگل از صندوق پستی شما؛ جیمیل نامه‌های خصوصی‌تان را می‌خواند

۸۵٪ عملکرد سازمان نتیجه سیستم است، نه آدم‌ها

ارزش واقعی هوش مصنوعی در ادغام است، نه انزوا

استراتژی ایران در عصر هوش مصنوعی از نگاه تصمیم‌گیران

چالش ها و فرصت‌های پیاده‌سازی هوش مصنوعی در سازمان‌ها

چین در رقابتی متفاوت برای هوش مصنوعی در سال پیش رو

DeepSeek با رمزگذاری تصویری، مسیر تازه‌ای برای حافظه هوش مصنوعی می‌گشاید

استراتژی ایران در عصر هوش مصنوعی از نگاه تصمیم‌گیران

چالش ها و فرصت‌های پیاده‌سازی هوش مصنوعی در سازمان‌ها

آنچه مدیران درباره مسیر هوش مصنوعی در ایران باید بدانند

۸۵٪ عملکرد سازمان نتیجه سیستم است، نه آدم‌ها

ورود دلارهای نفتی به تورنتو؛ سرمایه‌گذاری ۵۰ میلیارد دلاری امارات در بازار کانادا

جاسوسی خاموش گوگل از صندوق پستی شما؛ جیمیل نامه‌های خصوصی‌تان را می‌خواند

چاپلوسی عجیب هوش مصنوعی آقای میلیاردر

رویداد Slush 2025، صحنه نوآوری اروپا

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

استراتژی ایران در عصر هوش مصنوعی از نگاه تصمیم‌گیران

چالش ها و فرصت‌های پیاده‌سازی هوش مصنوعی در سازمان‌ها

ورود دلارهای نفتی به تورنتو؛ سرمایه‌گذاری ۵۰ میلیارد دلاری امارات در بازار کانادا

چین در رقابتی متفاوت برای هوش مصنوعی در سال پیش رو

DeepSeek با رمزگذاری تصویری، مسیر تازه‌ای برای حافظه هوش مصنوعی می‌گشاید

اصلاح عملکرد

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید