
آیا مایکروسافت اسرار OpenAI را فاش کرده است؟
یک تحقیق جدید از سوی مایکروسافت اندازه برخی از قدرتمندترین مدلهای هوش مصنوعی که امروزه وجود دارند را مورد بررسی قرار داده است و اندازه آنها را تخمین زده است، ویژگی خاصی که معمولاً به عنوان یک راز نگهداری میشود. مایکروسافت همچنین ادعا میکند که مدل Claude 3.5 Sonnet شامل ۱۷۵ میلیارد پارامتر و مدل o1 Preview دارای ۳۰۰ میلیارد پارامتر است.
این شرکت فناوری همچنین گفته که مدلهای کوچک OpenAI، یعنی o1 Mini و GPT-40 Mini، به ترتیب شامل ۱۰۰ میلیارد و ۸ میلیارد پارامتر هستند.
اندازه در برابر کیفیت
مدل GPT-40 Mini یک مدل قدرتمند از OpenAI است که در مقایسه با مدلهای بزرگتر GPT-4 و Claude 3.5 Haiku رتبه بالاتری دارد و از نظر شاخص کیفیت در Artificial Analysis با مدلهای جدید Llama 3.3 70B قابلمقایسه است.
مدلی با ۸ میلیارد پارامتر این پتانسیل را دارد که در دستگاههای قابلحمل برای استفاده محلی تعبیه و استفاده شود. «یوچن جین» (Yuchen Jin) مدیر فنی Hyperbolic Labs یک پست در X منتشر کرد و از سم آلتمان (Sam Altman) رئیس OpenAI پرسید: «آیا قصد دارید GPT-40 Mini را متنباز کنید؟ این مدل میتواند روی دستگاههای محلی ما اجرا شود.»
با این حال، برخی حدس میزنند که GPT-40 Mini مانند GPT-40 یک مدل «ترکیب متخصصها» (Mixture of Experts – MoE) است که درون خود از یک مدل کوچک و تخصصی برای حل بخشهای مختلف یک مسئله استفاده میکند.
«اسکار لِه» (Oscar Le) مدیرعامل SnapEdit، یکی از محبوبترین اپلیکیشنهای ویرایش عکس با هوش مصنوعی، گفت: «حدس من این است که GPT-40 Mini یک مدل MoE با مجموعاً حدود ۴۰ میلیارد پارامتر است و احتمالاً ۸ میلیارد پارامتر آن فعال است.»
او در پلتفرم X پستی منتشر کرد و گفت: «متوجه شدم که این مدل نسبت به یک مدل ۸ میلیارد پارامتری، اطلاعات بیشتری در اختیار دارد (زمانی که درباره حقایق سوال میشود) و در عین حال بسیار سریع است. علاوه بر این، GPT-40 یک مدل MoE است، بنابراین احتمالاً از همان معماری برای نسخه مینی نیز استفاده میکنند.»
مایکروسافت در تحقیقات خود از این مدلها برای توسعه یک معیار در شناسایی و اصلاح خطاهای پزشکی در یادداشتهای بالینی استفاده کرده است. با این حال، این عدد تعداد دقیق پارامترها نیست.
مایکروسافت در تحقیق خود اعلام کرده است: «تعداد دقیق پارامترهای برخی از مدلهای بزرگ زبان (LLM) هنوز به طور عمومی منتشر نشده است. بیشتر این اعداد برآوردهایی هستند که برای کمک به درک بهتر عملکرد مدلها ارائه شدهاند.»
اوپنایآی، آنتروپیک و گوگل هنوز گزارشی فنی و کامل درباره جزئیات معماری و روشهای استفادهشده در ساخت جدیدترین مدلهای خود منتشر نکردهاند. به احتمال زیاد این موضوع به دلیل نگرانی از فاششدن فناوریهای اختصاصی است. در واقع، GPT-4 که در سال ۲۰۲۳ منتشر شد، آخرین مدل از OpenAI بود که همراه با گزارش فنی عرضه شد.
با این حال، شرکتهایی مانند مایکروسافت و غولهای چینی هوش مصنوعی علی بابا، Qwen و DeepSeek، مستندات فنی دقیق مدلهای خود را منتشر کردهاند. همچنین اخیراً مدلهای Phi-4 مایکروسافت تمام جزئیات این مدل را منتشر کردند.
«هارکیرات بهل» (Harkirat Behl)، یکی از سازندگان مدلهای Phi-4 مایکروسافت در یک مصاحبه با AIM گفت که این شرکت رویکرد متفاوتی نسبت به OpenAI و گوگل اتخاذ کرده است. او افزود: «ما تمام دستورالعملها و تکنیکهای پیچیدهای که هیچکس در دنیا آنها را پیادهسازی نکرده، منتشر کردهایم.» او همچنین گفت: «در مقاله منتشرشده، تمام این جزئیات را آوردهایم. این نشان میدهد که در مایکروسافت چقدر به متنباز بودن اهمیت میدهیم.»
مدلهای بزرگتر تنها راه حل نیستند
در سالهای اخیر، تعداد پارامترهای مدلهای هوش مصنوعی کاهش یافته و آخرین اطلاعات منتشر شده این روند را تأیید میکند. سال گذشته، EpochAI پارامترهای چندین مدل پیشرفته مانند GPT-4o و Claude 3.5 Sonnet را فاش کرد.
پس از مایکروسافت، EpochAI نیز اعلام کرد که GPT-4o دارای ۲۰۰ میلیارد پارامتر است. این در حالی است که EpochAI اظهار داشت Claude 3.5 Sonnet حدود ۴۰۰ میلیارد پارامتر دارد. در واقع این آمار تضاد شدیدی با برآورد مایکروسافت از ۱۷۵ میلیارد پارامتر دارد. با این حال، این موضوع نشان میدهد که مدلهای هوش مصنوعی دیگر تعداد پارامترها را در اولویت قرار نمیدهند.
بین مدلهای GPT-1 و GPT-3، تعداد پارامترها هزار برابر افزایش پیدا کرد و از GPT-3 به GPT-4، این عدد از ۱۷۵ میلیارد به ۱.۸ تریلیون پارامتر رسید که افزایش ده برابری را نشان میدهد. با این حال، اکنون این روند در حال تغییر است.
«اژه اردیل»، پژوهشگر EpochAI، در دسامبر سال گذشته گفت: «حتی رسیدن به ۱۰ تریلیون پارامتر هم ممکن نیست. مدلهای پیشرفته فعلی مانند GPT-4o و Claude 3.5 Sonnet احتمالاً از نظر اندازه به طور قابل توجهی کوچکتر از GPT-4 هستند.
در ابتدا، افزایش اندازه پارامترها باعث بهبود عملکرد مدل میشد. اما با گذر زمان، افزایش محاسبات و اندازه پارامترها دیگر باعث بهبود بیشتر مدل نشد. البته کمبود دادههای جدید نیز به این کاهش بازدهی کمک میکند.
«یان لِکون» (Yann LeCun) در پلتفرم X پستی منتشر کرد و گفت: «یک مدل با پارامترهای بیشتر لزوماً بهتر نیست. معمولاً هزینه اجرای آن بیشتر است و به حافظه رم بیشتری نیاز دارد که یک کارت گرافیک معمولی نمیتواند آن را تامین کند.»
این موضوع باعث شد که مهندسان روشهای کارآمدی را در سطح معماری برای مقیاسپذیری مدلها مورد بررسی قرار دهند. یکی از این روشها MoE است که گفته میشود مدلهای GPT-4o و GPT-4o Mini از آن استفاده میکنند.
یان لِکون در ادامه گفت: «MoE یک شبکه عصبی است که شامل چندین ماژول تخصصی است و تنها یکی از آنها برای هر ورودی خاص اجرا میشود. بنابراین، تعداد مؤثر پارامترهایی که در هر زمان استفاده میشود، کوچکتر از مجموع پارامترها است.»
با پایان سال ۲۰۲۴، اکوسیستم شاهد مدلهایی با تکنیکهای نوآورانه بود که مدلهای پیشرفتهتر را پشت سر گذاشتند. در دسامبر، مدل Phi-4 مایکروسافت منتشر شد که از مجموعه دادههای کوچک و انتخابشده با کیفیت بالا برای آموزش مدل Phi-4 استفاده میکند. این مدل در بسیاری از آزمونها به نسبت مدلهای پیشرو مانند GPT-4o عملکرد بهتری داشت.
فقط دو هفته پیش، DeepSeek یک مدل MoE متنباز به نام V3 را معرفی کرد. این مدل نهتنها در اکثر تستها از GPT-4o پیشی گرفت، بلکه تنها با هزینه ۵.۵۷۶ میلیون دلار آموزش داده شده است. در واقع، مدل GPT-4 با هزینه ۴۰ میلیون دلار و Gemini Ultra با ۳۰ میلیون دلار آموزش داده شده بودند.
انتظار میرود در سال ۲۰۲۵ تکنیکهای بهینهسازی و مقیاسبندی جدیدی معرفی شوند که مدلها را به سطوح بالاتری برسانند و در عین حال هزینههای آنها را به طور قابل توجهی کاهش دهند.
«فرانسوا شوله»، خالق Keras و سازنده معیار ARC AGI، در شبکه اجتماعی X پستی منتشر کرد و نوشت: «حجم مدلها دیگر در حال افزایش نیست یا حتی ممکن است کاهش پیدا کند. حالا محققان به جای اینکه فقط به بزرگتر کردن مدلها فکر کنند، به حل مشکلات واقعی پرداختهاند. این مشکلات میتوانند شامل روشهای جدیدی مثل آموزش مدلها در حین استفاده یا استفاده از تکنیکهای نوین مانند جستجو در زمان آزمایش، تولید برنامهها و بهرهبرداری از ابزارهای نمادین باشند.» او افزود: «مدلهای بزرگ کافی نیستند. شما به ایدههای بهتر نیاز دارید. حالا این ایدههای بهتر بالاخره به صحنه آمدهاند.»