
تکنیک جدید rStar-Math مایکروسافت، مدلهای کوچک را در حل مسائل ریاضی از OpenAI o1-preview پیش میاندازد
مایکروسافت با معرفی rStar-Math بهعنوان یک تکنیک جدید در حوزه استدلال ریاضی، گامی بزرگ در بهبود عملکرد مدلهای زبانی کوچک (SLM) برداشته است. این تکنیک میتواند مدلهای کوچک را در حل مسائل ریاضی تقویت کند، بهطوری که نتایج آن با مدل o1-preview شرکت OpenAI برابری کرده یا حتی از آن بهتر باشد.
این روش که هنوز در مرحلهی تحقیقاتی قرار دارد، در مقالهای که در پایگاه arXiv.org منتشر شده، توضیح داده شده است. این مقاله به نام هشت محقق از مایکروسافت، دانشگاه پکن و دانشگاه تسینگهوا در چین ثبت شده است. محققان این تکنیک را بر روی چندین مدل کوچک متنباز از جمله Phi-3 mini (مدل کوچک مایکروسافت)، Qwen-1.5B (مدل ۱.۵ میلیارد پارامتری علیبابا) و Qwen-7B (مدل ۷ میلیارد پارامتری علیبابا) آزمایش کردهاند.
نتایج نشان میدهد که این تکنیک در همه این مدلها باعث بهبود عملکرد شده و حتی در آزمون MATH که شامل ۱۲,۵۰۰ سؤال از شاخههای مختلف ریاضی مانند هندسه و جبر و در سطوح مختلف سختی است، عملکرد بهتری نسبت به مدل پیشرفته OpenAI داشته است.
منتظر انتشار متنباز این پروژه باشید
طبق پستی که در Hugging Face منتشر شده، محققان برنامه دارند کدها و دادههای خود را در گیتهاب منتشر کنند. با این حال، «لی لینا ژانگ»، یکی از نویسندگان مقاله، در بخش نظرات نوشته است که این پروژه هنوز در مرحلهی بررسی داخلی برای انتشار متنباز قرار دارد و فعلاً مخزن گیتهاب خصوصی باقی میماند. وی تأکید کرده که علاقهمندان منتظر بمانند تا در آینده بتوانند به این ابزار دسترسی پیدا کنند.
واکنش جامعه علمی به rStar-Math
این نوآوری با استقبال گرمی از سوی جامعه هوش مصنوعی روبهرو شده است. برخی این روش را «تأثیرگذار» توصیف کردهاند و از ترکیب جستجوی درختی مونتکارلو (MCTS) با استدلال گامبهگام تمجید کردهاند. همچنین، برخی از کاربران به سادگی و کارایی استفاده از مقادیر Q برای امتیازدهی به گامها اشاره کرده و درباره کاربردهای آینده آن در اثباتهای هندسی و استدلال نمادین گمانهزنی کردهاند.
حرکت بعدی مایکروسافت در مدلهای کوچک هوش مصنوعی
این خبر در حالی منتشر شده که مایکروسافت بهتازگی مدل Phi-4 را بهصورت متنباز منتشر کرده است. Phi-4 یک مدل ۱۴ میلیارد پارامتری است که اکنون در Hugging Face تحت مجوز MIT در دسترس است.
با اینکه انتشار Phi-4 به گسترش دسترسی به مدلهای کوچک اما پرمصرف و کارآمد کمک کرده، اما rStar-Math رویکردی تخصصیتر یعنی استفاده از سیستمهای کوچک هوش مصنوعی برای رسیدن به نتایجی در حد پیشرفتهترین مدلها در حل مسائل ریاضی را نشان میدهد.
rStar-Math با استفاده از چندین مدل و مؤلفه مختلف به یک مدل کوچک هدف کمک میکند تا بهصورت خودکار تکامل یابد
نکته اصلی در روش «rStar-Math» این است که از «جستجوی درختی مونتکارلو (MCTS)» استفاده میکند، روشی که با تقلید از «تفکر عمیق»، راهحلهای مسائل ریاضی را به طور گامبهگام اصلاح و بهینه میکند.
محققان این روش را به این دلیل به کار گرفتند که MCTS مسائل پیچیده ریاضی را به وظایف سادهتر و تکمرحلهای تقسیم میکند و در نتیجه مدلهای کوچکتر راحتتر میتوانند آنها را حل کنند.
بااینحال، پژوهشگران مایکروسافت بهسادگی از MCTS مانند سایر محققان استفاده نکردند، بلکه در حرکتی هوشمندانه، مدل خود را ملزم کردند که در تمام خروجیهایش، مراحل استدلال خود را در دو قالب بهصورت «تفکر زنجیرهای» ارائه دهد. یکی از قالبها به زبان طبیعی بهصورت توضیحات متنی، و دیگری به زبان پایتون بهصورت کد ارائه میشود. آنها تعیین کردند که مدل، توضیحات متنی را بهعنوان کامنت داخل کدهای پایتون ثبت کند و تنها خروجیهایی که شامل کد پایتون بودند، برای آموزش مدل استفاده شوند.
علاوه بر این، پژوهشگران یک مدل سیاستی برای تولید مراحل استدلال ریاضی و یک مدل ترجیح فرآیند (PPM) برای انتخاب مؤثرترین مراحل حل مسئله آموزش دادند. این دو مدل در طی چهار مرحلهی تکامل خودکار، یکدیگر را بهبود دادند، به این معنا که هر مرحله، مدل را هوشمندتر از قبل کرد.
برای شروع، پژوهشگران از ۷۴۷,۰۰۰ مسئله ریاضی متنی که از منابع عمومی جمعآوری شده بودند، همراه با راهحلهای آنها استفاده کردند. البته بهجای استفاده مستقیم از این راهحلها، دو مدل کمکی که پیشتر توضیح داده شد، مراحل جدیدی برای حل آنها تولید کردند.
نتایج رکوردشکن
پس از چهار مرحله تکامل خودکار، rStar-Math به موفقیتهای چشمگیری دست یافت:
- در معیار MATH، دقت مدل Qwen2.5-Math-7B از ۵۸.۸٪ به ۹۰.۰٪ افزایش یافت و توانست مدل o1-preview از OpenAI را پشت سر بگذارد.
- در آزمون ریاضیات American Invitational Mathematics Examination (AIME)، این مدل توانست ۵۳.۳٪ از مسائل را حل کند، عملکردی که آن را در میان ۲۰٪ برتر شرکتکنندگان دبیرستانی قرار داد.
این نتایج نشان میدهند که مدلهای زبانی کوچک (SLM) توانایی حل مسائل پیچیده ریاضی را دارند، قلمرویی که تا پیش از این، در انحصار مدلهای بزرگتر بود.
آیا مدلهای کوچک بهتر هستند؟
در سالهای اخیر، پیشرفتهای هوش مصنوعی عمدتاً بر افزایش مقیاس مدلهای زبانی متمرکز بوده است، بهطوری که افزایش تعداد پارامترها بهعنوان راهی برای بهبود عملکرد در نظر گرفته میشد. بااینحال، هزینههای بالای محاسباتی و مصرف انرژی مدلهای عظیم، پرسشهایی را درباره مقیاسپذیری آنها مطرح کرده است.
مایکروسافت مسیر متفاوتی را دنبال میکند و به بهینهسازی و کارایی اهمیت میدهد. انتشار rStar-Math گواهی بر این رویکرد است و نشان میدهد که مدلهای زبانی کوچک میتوانند با مدلهای بزرگ رقابت کنند و حتی در برخی موارد از آنها پیشی بگیرند.
انتشار همزمان مدل Phi-4 و مقاله rStar-Math از سوی مایکروسافت، بر این ایده تأکید دارد که مدلهای فشرده و تخصصی میتوانند جایگزینهای قدرتمندی برای سیستمهای عظیم صنعت باشند.
علاوه بر این، با شکستدادن مدلهای بزرگتر در معیارهای کلیدی، مدلهای کوچک فرضیه «هرچه بزرگتر، بهتر» را به چالش میکشند. این پیشرفتها، امکان دسترسی پژوهشگران دانشگاهی و شرکتهای متوسط به قابلیتهای پیشرفته هوش مصنوعی را بدون هزینههای مالی و زیستمحیطی مدلهای عظیم، فراهم میکند.