
بهبود عملکرد عاملهای هوش برای وظایف ناآشنا
سازمانهایی که قصد دارند عاملهای هوش مصنوعی را بهکار بگیرند، باید ابتدا آنها را برای انجام وظایف خاص تنظیم کنند، به ویژه در فرآیندهایی که معمولاً تکراری به نظر میرسند. در حالی که برخی سازمانها میخواهند عاملهایی داشته باشند که فقط یک نوع کار را در یک فرآیند خاص انجام دهند، گاهی اوقات این عاملها نیاز دارند با این امید که بتوانند سازگار شوند، به محیطهای جدید وارد شوند.
اصلاح عملکرد
محققان از دانشگاه پست و ارتباطات پکن یک روش جدید به نام AgentRefine را معرفی کردهاند. این روش به عاملها آموزش میدهد که خود را اصلاح کنند و باعث میشود که عاملهای هوش مصنوعی عمومیتر و سازگارتر شوند.
محققان گفتند که روشهای فعلی تنظیم دقیق (Finetuning)، عاملها را به انجام کارهای مشابه با دادههای آموزشی خود یا کارهای «دروندادهای» (held-in)، محدود میکنند و در محیطهای جدید یا «بروندادهای» (held-out) عملکرد خوبی ندارند. با پیروی صرف از قوانینی که از طریق دادههای آموزشی تعیین شدهاند، عاملهای آموزشدیده با این چارچوبها در «یادگیری» از اشتباهات خود مشکل خواهند داشت و نمیتوانند به عاملهای کلی تبدیل شده و در گردشهای کاری جدید استفاده شوند.
برای مقابله با این محدودیت، AgentRefine میخواهد مجموعهدادههای عمومیتر برای آموزش عاملها ایجاد کند که به مدل امکان میدهد از اشتباهات خود بیاموزد و در محیطهای کاری جدید قرار گیرد. در یک مقاله جدید، محققان گفتند که هدف AgentRefine «ایجاد دادههای تنظیم دقیق کلیتر برای عاملها و ایجاد ارتباط بین تعمیمپذیری عاملها و خوداصلاحی است.» اگر عاملها خود را اصلاح کنند، اشتباهاتی که یاد گرفتهاند را تکرار نمیکنند و این اشتباهات را به محیطهای دیگری که در آنها مستقر میشوند، منتقل نمیکنند.
محققان مینویسند: «ما دریافتیم که تنظیم دقیق عاملها بر روی دادههای خوداصلاحی، توانایی عامل را برای کشف اقدامات عملیتر در مواجهه با شرایط بد افزایش میدهد و در نتیجه منجر به تعمیمپذیری بهتر به محیطهای جدید عاملها میشود.»
آموزش عاملهای هوش مصنوعی الهام گرفته از Dungeons & Dragons
محققان با الهام از بازی نقشآفرینی رومیزی، شخصیتها، اسکریپتهایی برای پیروی از آنها و چالشهایی برای عاملها طراحی کردند. بله، در این روش یک Dungeon Master هم وجود دارد!
آنها ساخت دادهها برای AgentRefine را به سه بخش تولید اسکریپت، تولید مسیر (trajectory) و تأیید اعتبار تقسیم کردند.
در بخش تولید اسکریپت، مدل یک اسکریپت یا راهنما ایجاد میکند که شامل اطلاعاتی درباره محیط، وظایف و اقداماتی است که شخصیتها میتوانند انجام دهند. (محققان AgentRefine را با استفاده از Llama-3-8B-Instruct، Llama-3-70B-Instruct، Mistral-7B-Instruct-v0.3، GPT-4o-mini و GPT-4o آزمایش کردند.)
سپس مدل دادههای عاملی را تولید میکند که حاوی خطا هستند و هم به عنوان DM و هم به عنوان بازیکن در مرحله مسیر عمل میکند. این مدل اقداماتی که میتواند انجام دهد را ارزیابی کرده و بررسی میکند که آیا این اقدامات حاوی خطا هستند یا خیر. در مرحله آخر، یعنی تأیید اعتبار، اسکریپت و مسیر بررسی میشوند تا امکان خوداصلاحی برای عاملهایی که آموزش میبینند فراهم شود.
بهبود و تنوع بیشتر توانمندیهای وظیفهای
محققان دریافتند که عاملهای آموزشدیده با استفاده از روش و مجموعهدادههای AgentRefine، در انجام وظایف متنوع عملکرد بهتری داشته و با سناریوهای جدید سازگار میشوند. این عاملها بیشتر خود را اصلاح میکنند تا اقدامات و تصمیمات خود را برای جلوگیری از اشتباهات تغییر دهند و در این فرایند مقاومتر میشوند.
به طور خاص، AgentRefine عملکرد تمامی مدلها را برای انجام وظایف held-out (وظایفی که خارج از دادههای آموزش اولیه قرار دارند) بهبود داد.
شرکتها باید عاملها را به گونهای آموزش دهند که قابلیت تطبیق بیشتری با وظایف داشته باشند، به طوری که فقط همان چیزی را که یاد گرفتهاند تکرار نکنند و بتوانند تصمیمات بهتری بگیرند. هماهنگی عاملها نه تنها ترافیک چندین عامل را هدایت میکند، بلکه مشخص میکند که آیا عاملها وظایف را بر اساس درخواستهای کاربر انجام دادهاند یا نه.
OpenAI o3 قابلیت «سنتز برنامه» (program synthesis) را ارائه میدهد که میتواند تطبیقپذیری وظایف را بهبود بخشد. سایر چارچوبهای هماهنگسازی و آموزش، مانند Magentic-One از مایکروسافت، اقداماتی را برای عاملهای نظارتی تعیین میکند تا یاد بگیرند چه زمانی وظایف را به عاملهای مختلف منتقل کنند.