برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
گزارش
مصاحبه
 بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

زمان مطالعه: 3 دقیقه

سازمان‌هایی که قصد دارند عامل‌های هوش مصنوعی را به‌کار بگیرند، باید ابتدا آن‌ها را برای انجام وظایف خاص تنظیم کنند، به ویژه در فرآیندهایی که معمولاً تکراری به نظر می‌رسند. در حالی که برخی سازمان‌ها می‌خواهند عامل‌هایی داشته باشند که فقط یک نوع کار را در یک فرآیند خاص انجام دهند، گاهی اوقات این عامل‌ها نیاز دارند با این امید که بتوانند سازگار شوند، به محیط‌های جدید وارد شوند.

اصلاح عملکرد

محققان از دانشگاه پست و ارتباطات پکن یک روش جدید به نام AgentRefine را معرفی کرده‌اند. این روش به عامل‌ها آموزش می‌دهد که خود را اصلاح کنند و باعث می‌شود که عامل‌های هوش مصنوعی عمومی‌تر و سازگارتر شوند.

محققان گفتند که روش‌های فعلی تنظیم دقیق (Finetuning)، عامل‌ها را به انجام کارهای مشابه با داده‌های آموزشی خود یا کارهای «درون‌داده‌ای» (held-in)، محدود می‌کنند و در محیط‌های جدید یا «برون‌داده‌ای» (held-out) عملکرد خوبی ندارند. با پیروی صرف از قوانینی که از طریق داده‌های آموزشی تعیین شده‌اند، عامل‌های آموزش‌دیده با این چارچوب‌ها در «یادگیری» از اشتباهات خود مشکل خواهند داشت و نمی‌توانند به عامل‌های کلی تبدیل شده و در گردش‌های کاری جدید استفاده شوند.

برای مقابله با این محدودیت، AgentRefine می‌خواهد مجموعه‌داده‌های عمومی‌تر برای آموزش عامل‌ها ایجاد کند که به مدل امکان می‌دهد از اشتباهات خود بیاموزد و در محیط‌های کاری جدید قرار گیرد. در یک مقاله جدید، محققان گفتند که هدف AgentRefine «ایجاد داده‌های تنظیم دقیق کلی‌تر برای عامل‌ها و ایجاد ارتباط بین تعمیم‌پذیری عامل‌ها و خوداصلاحی است.» اگر عامل‌ها خود را اصلاح کنند، اشتباهاتی که یاد گرفته‌اند را تکرار نمی‌کنند و این اشتباهات را به محیط‌های دیگری که در آن‌ها مستقر می‌شوند، منتقل نمی‌کنند.

محققان می‌نویسند: «ما دریافتیم که تنظیم دقیق عامل‌ها بر روی داده‌های خوداصلاحی، توانایی عامل را برای کشف اقدامات عملی‌تر در مواجهه با شرایط بد افزایش می‌دهد و در نتیجه منجر به تعمیم‌پذیری بهتر به محیط‌های جدید عامل‌ها می‌شود.»

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

محققان با الهام از بازی نقش‌آفرینی رومیزی، شخصیت‌ها، اسکریپت‌هایی برای پیروی از آن‌ها و چالش‌هایی برای عامل‌ها طراحی کردند. بله، در این روش یک Dungeon Master  هم وجود دارد!

آن‌ها ساخت داده‌ها برای AgentRefine را به سه بخش تولید اسکریپت، تولید مسیر (trajectory) و تأیید اعتبار تقسیم کردند.

در بخش تولید اسکریپت، مدل یک اسکریپت یا راهنما ایجاد می‌کند که شامل اطلاعاتی درباره محیط، وظایف و اقداماتی است که شخصیت‌ها می‌توانند انجام دهند. (محققان AgentRefine را با استفاده از Llama-3-8B-Instruct، Llama-3-70B-Instruct، Mistral-7B-Instruct-v0.3، GPT-4o-mini و GPT-4o آزمایش کردند.)

سپس مدل داده‌های عاملی را تولید می‌کند که حاوی خطا هستند و هم به عنوان DM و هم به عنوان بازیکن در مرحله مسیر عمل می‌کند. این مدل اقداماتی که می‌تواند انجام دهد را ارزیابی کرده و بررسی می‌کند که آیا این اقدامات حاوی خطا هستند یا خیر. در مرحله آخر، یعنی تأیید اعتبار، اسکریپت و مسیر بررسی می‌شوند تا امکان خوداصلاحی برای عامل‌هایی که آموزش می‌بینند فراهم شود.

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

محققان دریافتند که عامل‌های آموزش‌دیده با استفاده از روش و مجموعه‌داده‌های AgentRefine، در انجام وظایف متنوع عملکرد بهتری داشته و با سناریوهای جدید سازگار می‌شوند. این عامل‌ها بیشتر خود را اصلاح می‌کنند تا اقدامات و تصمیمات خود را برای جلوگیری از اشتباهات تغییر دهند و در این فرایند مقاوم‌تر می‌شوند.

به طور خاص، AgentRefine عملکرد تمامی مدل‌ها را برای انجام وظایف held-out (وظایفی که خارج از داده‌های آموزش اولیه قرار دارند) بهبود داد.

شرکت‌ها باید عامل‌ها را به گونه‌ای آموزش دهند که قابلیت تطبیق بیشتری با وظایف داشته باشند، به طوری که فقط همان چیزی را که یاد گرفته‌اند تکرار نکنند و بتوانند تصمیمات بهتری بگیرند. هماهنگی عامل‌ها نه تنها ترافیک چندین عامل را هدایت می‌کند، بلکه مشخص می‌کند که آیا عامل‌ها وظایف را بر اساس درخواست‌های کاربر انجام داده‌اند یا نه.

OpenAI o3 قابلیت «سنتز برنامه» (program synthesis) را ارائه می‌دهد که می‌تواند تطبیق‌پذیری وظایف را بهبود بخشد. سایر چارچوب‌های هماهنگ‌سازی و آموزش، مانند Magentic-One از مایکروسافت، اقداماتی را برای عامل‌های نظارتی تعیین می‌کند تا یاد بگیرند چه زمانی وظایف را به عامل‌های مختلف منتقل کنند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]