گامی نو برای ساخت مدلهای زبانی هوشمندتر با قدرت استدلال پیشرفته
پژوهشگران مؤسسه فناوری ماساچوست (MIT) روشی نوآورانه توسعه دادهاند که مدلهای زبانی بزرگ (LLMها) را برای انجام وظایف پیچیدهای نظیر برنامهریزی راهبردی و بهینهسازی فرایندها، سازگارتر و کارآمدتر میسازد. با وجود تواناییهای قابلتوجه LLMها، این مدلها اغلب در مواجهه با وظایف جدید و چالشبرانگیزی که نیازمند استدلال پیچیده هستند، عملکرد ضعیفی از خود نشان میدهند.
پژوهشگران مؤسسه فناوری ماساچوست (MIT) روشی نوآورانه توسعه دادهاند که مدلهای زبانی بزرگ (LLMها) را برای انجام وظایف پیچیدهای نظیر برنامهریزی راهبردی و بهینهسازی فرایندها، سازگارتر و کارآمدتر میسازد. با وجود تواناییهای قابلتوجه LLMها، این مدلها اغلب در مواجهه با وظایف جدید و چالشبرانگیزی که نیازمند استدلال پیچیده هستند، عملکرد ضعیفی از خود نشان میدهند.
چالشهای زبانی
برای مثال، یک مدل زبانی که در خلاصهسازی گزارشهای مالی یک شرکت حسابرسی عملکرد مطلوبی دارد، ممکن است در پیشبینی روندهای بازار یا شناسایی تراکنشهای تقلبی با ناکامی مواجه شود. برای رفع این محدودیت، پژوهشگران MIT بررسی کردند که چگونه میتوان از تکنیک «آموزش در زمان آزمون» (Test-time Training) بهصورت راهبردی استفاده کرد تا عملکرد مدل را در مواجهه با مسائل جدید و دشوار بهبود بخشید.
این روش شامل بهروزرسانی موقتی بخشهایی از ساختار داخلی مدل در زمان استفاده واقعی است و میتواند دقت مدل را تا شش برابر افزایش دهد. پژوهشگران چارچوبی طراحی کردند که با بهرهگیری از نمونههایی از وظایف جدید، این استراتژی را بهصورت مؤثری پیادهسازی کرده و کارایی آن را به حداکثر میرساند.
نتایج این پژوهش میتواند انعطافپذیری LLMها را بهطور قابلتوجهی ارتقا دهد، بهگونهای که حتی مدلهای آماده مصرف نیز بتوانند با وظایف پیچیدهای که نیازمند برنامهریزی یا استدلال مفهومی هستند، سازگار شوند. این پیشرفت میتواند به توسعه مدلهایی منجر شود که در کاربردهای نیازمند استدلال منطقی، مانند تشخیص پزشکی یا مدیریت زنجیره تأمین، با دقت و کارایی بالاتری عمل کنند.
«اکین آکیورک» (Ekin Akyürek)، نویسنده اصلی این مطالعه و دانشجوی دکترای سال ۲۰۲۵، اظهار میکند: «یادگیری واقعی، که ما در اینجا از طریق آموزش در زمان آزمون به آن دست یافتیم، قابلیتی است که مدلهای کنونی پس از استقرار نمیتوانند بهتنهایی انجام دهند. آنها قادر به یادگیری مهارتهای جدید یا بهبود عملکرد در یک وظیفه بهصورت خودکار نیستند. اما ما نشان دادیم که با اعمال مقدار اندکی یادگیری واقعی، میتوان عملکرد مدل را بهطور چشمگیری بهبود بخشید.»
تقویت عملکرد مدلهای زبانی بزرگ در وظایف پیچیده
کاربران مدلهای زبانی بزرگ (LLMها) اغلب از روش یادگیری درونمتنی (in-context learning) برای بهبود عملکرد مدل در وظایف جدید استفاده میکنند. در این روش، نمونههایی از وظیفه جدید بهصورت متن (prompt) به مدل ارائه میشود تا بهعنوان راهنما برای تولید پاسخ عمل کند. با این حال، یادگیری درونمتنی در مسائل نیازمند استدلال و منطق پیچیده اغلب کارایی لازم را ندارد.
پژوهشگران مؤسسه فناوری ماساچوست (MIT) بررسی کردند که چگونه میتوان با ترکیب آموزش در زمان آزمون (test-time training) و یادگیری درونمتنی، عملکرد مدلها را در وظایف چالشبرانگیز بهبود بخشید. آموزش در زمان آزمون شامل بهروزرسانی موقت برخی از پارامترهای داخلی مدل، متغیرهایی که مدل برای پیشبینی از آنها استفاده میکند، با استفاده از دادههای محدود و خاص همان وظیفه است.
این پژوهشگران با تحلیل تصمیمات طراحی مختلف، بهینهترین روش برای استخراج حداکثر عملکرد از یک مدل زبانی عمومی را شناسایی کردند. «مهول دامانی» (Mehul Damani)، یکی از پژوهشگران این مطالعه، اظهار میکند: «ما دریافتیم که آموزش در زمان آزمون شکل قدرتمندتری از یادگیری است. ارائه نمونهها بهتنهایی ممکن است دقت را اندکی افزایش دهد، اما بهروزرسانی مستقیم مدل با استفاده از همان نمونهها میتواند بهبود چشمگیری در عملکرد، بهویژه در حوزههای دشوار، ایجاد کند.»
در یادگیری درونمتنی، مجموعهای کوچک از نمونههای مسئله همراه با پاسخهایشان موردنیاز است. پژوهشگران از این نمونهها برای ایجاد پایگاه دادهای ویژه وظیفه استفاده کردند که در فرایند آموزش در زمان آزمون به کار گرفته شد. برای گسترش این پایگاه داده، آنها ورودیهای جدیدی را با تغییر جزئی مسائل و راهحلهای نمونه، مانند وارونهسازی افقی برخی دادهها، ایجاد کردند. نتایج نشان داد که آموزش مدل با این پایگاه داده جدید، بهترین عملکرد را به دنبال دارد.
علاوه بر این، پژوهشگران با استفاده از تکنیک سازگاری با رتبه پایین (low-rank adaptation)، تنها تعداد محدودی از پارامترهای مدل را بهروزرسانی کردند که کارایی فرایند آموزش در زمان آزمون را بهطور قابلتوجهی افزایش داد. اکین آکیورک (Ekin Akyürek) توضیح میدهد: «این روش از نظر کارایی اهمیت دارد، زیرا برای کاربرد در دنیای واقعی باید سریع و مؤثر باشد. ما نشان دادیم که با آموزش محدود پارامترها، میتوان دقت مدل را بهطور چشمگیری بهبود بخشید.»
سادهسازی و کاربردهای عملی
آموزش در زمان آزمون بهصورت موردی اجرا میشود، به این معنا که برای هر وظیفه باید جداگانه اعمال شود. بهروزرسانیهای انجامشده موقتی هستند و پس از انجام پیشبینی، مدل به حالت اولیه خود بازمیگردد. آکیورک خاطرنشان میکند که مدلی که معمولاً در کمتر از یک دقیقه پاسخ میدهد، با استفاده از آموزش در زمان آزمون ممکن است به پنج تا ده دقیقه زمان نیاز داشته باشد. وی میافزاید: «این روش برای هر پرسوجو مناسب نیست، اما برای وظایف بسیار دشوار که نیاز به دقت بالا دارند یا برای مسائلی که بدون این روش برای مدلهای زبانی غیرقابلحل هستند، بسیار مؤثر است.»
این روش روی دو مجموعه داده معیار (benchmark) با مسائل بسیار پیچیده، مانند معماهای هوش (IQ puzzles)، آزمایش شد. نتایج نشان داد که دقت مدل تا شش برابر بیشتر از روشهای مبتنی بر یادگیری درونمتنی است. وظایفی که دارای الگوهای ساختارمند یا دادههای کاملاً ناآشنا بودند، بیشترین بهبود عملکرد را نشان دادند. دامانی تأکید میکند: «برای وظایف سادهتر، یادگیری درونمتنی ممکن است کافی باشد، اما بهروزرسانی مستقیم پارامترها میتواند مهارت جدیدی را در مدل ایجاد کند.»
چشمانداز آینده
پژوهشگران در نظر دارند از این یافتهها برای توسعه مدلهایی با قابلیت یادگیری پیوسته استفاده کنند. هدف بلندمدت، ایجاد مدل زبانی بزرگی است که بتواند بهصورت خودکار تشخیص دهد آیا یک پرسوجو نیازمند آموزش در زمان آزمون است یا با یادگیری درونمتنی قابلحل است، و سپس بهینهترین استراتژی را بدون نیاز به دخالت انسانی اجرا کند.
این پژوهش با حمایت مالی «آزمایشگاه هوش مصنوعی MIT-IBM Watson» و «بنیاد ملی علوم آمریکا» انجام شده است.