آیا مایکروسافت اسرار OpenAI را فاش کرده است؟

تیم تحریریه
۱۶ اسفند ۱۴۰۳

زمان مطالعه: 4 دقیقه

یک تحقیق جدید از سوی مایکروسافت اندازه برخی از قدرتمندترین مدل‌های هوش مصنوعی که امروزه وجود دارند را مورد بررسی قرار داده است و اندازه آن‌ها را تخمین زده است، ویژگی خاصی که معمولاً به عنوان یک راز نگهداری می‌شود. مایکروسافت همچنین ادعا می‌کند که مدل Claude 3.5 Sonnet شامل ۱۷۵ میلیارد پارامتر و مدل o1 Preview دارای ۳۰۰ میلیارد پارامتر است.

این شرکت فناوری همچنین گفته که مدل‌های کوچک OpenAI، یعنی o1 Mini و GPT-40 Mini، به ترتیب شامل ۱۰۰ میلیارد و ۸ میلیارد پارامتر هستند.

فهرست مقاله پنهان

1 اندازه در برابر کیفیت

2 مدل‌های بزرگ‌تر تنها راه حل نیستند

اندازه در برابر کیفیت

مدل GPT-40 Mini یک مدل قدرتمند از OpenAI است که در مقایسه با مدل‌های بزرگ‌تر GPT-4 و Claude 3.5 Haiku رتبه بالاتری دارد و از نظر شاخص کیفیت در Artificial Analysis با مدل‌های جدید Llama 3.3 70B قابل‌مقایسه است.

مدلی با ۸ میلیارد پارامتر این پتانسیل را دارد که در دستگاه‌های قابل‌حمل برای استفاده محلی تعبیه و استفاده شود. «یوچن جین» (Yuchen Jin) مدیر فنی Hyperbolic Labs یک پست در X منتشر کرد و از سم آلتمان (Sam Altman) رئیس OpenAI پرسید: «آیا قصد دارید GPT-40 Mini را متن‌باز کنید؟ این مدل می‌تواند روی دستگاه‌های محلی ما اجرا شود.»

با این حال، برخی حدس می‌زنند که GPT-40 Mini مانند GPT-40 یک مدل «ترکیب متخصص‌ها» (Mixture of Experts – MoE) است که درون خود از یک مدل کوچک و تخصصی برای حل بخش‌های مختلف یک مسئله استفاده می‌کند.

«اسکار لِه» (Oscar Le) مدیرعامل SnapEdit، یکی از محبوب‌ترین اپلیکیشن‌های ویرایش عکس با هوش مصنوعی، گفت: «حدس من این است که GPT-40 Mini یک مدل MoE با مجموعاً حدود ۴۰ میلیارد پارامتر است و احتمالاً ۸ میلیارد پارامتر آن فعال است.»

او در پلتفرم X پستی منتشر کرد و گفت: «متوجه شدم که این مدل نسبت به یک مدل ۸ میلیارد پارامتری، اطلاعات بیشتری در اختیار دارد (زمانی که درباره حقایق سوال می‌شود) و در عین حال بسیار سریع است. علاوه بر این، GPT-40 یک مدل MoE است، بنابراین احتمالاً از همان معماری برای نسخه مینی نیز استفاده می‌کنند.»

مایکروسافت در تحقیقات خود از این مدل‌ها برای توسعه یک معیار در شناسایی و اصلاح خطاهای پزشکی در یادداشت‌های بالینی استفاده کرده است. با این حال، این عدد تعداد دقیق پارامترها نیست.

مایکروسافت در تحقیق خود اعلام کرده است: «تعداد دقیق پارامترهای برخی از مدل‌های بزرگ زبان (LLM) هنوز به طور عمومی منتشر نشده است. بیشتر این اعداد برآوردهایی هستند که برای کمک به درک بهتر عملکرد مدل‌ها ارائه شده‌اند.»

اوپن‌ای‌آی، آنتروپیک و گوگل هنوز گزارشی فنی و کامل درباره جزئیات معماری و روش‌های استفاده‌شده در ساخت جدیدترین مدل‌های خود منتشر نکرده‌اند. به احتمال زیاد این موضوع به دلیل نگرانی از فاش‌شدن فناوری‌های اختصاصی است. در واقع، GPT-4 که در سال ۲۰۲۳ منتشر شد، آخرین مدل از OpenAI بود که همراه با گزارش فنی عرضه شد.

با این حال، شرکت‌هایی مانند مایکروسافت و غول‌های چینی هوش مصنوعی علی بابا، Qwen و DeepSeek، مستندات فنی دقیق مدل‌های خود را منتشر کرده‌اند. همچنین اخیراً مدل‌های Phi-4 مایکروسافت تمام جزئیات این مدل را منتشر کردند.

«هارکیرات بهل» (Harkirat Behl)، یکی از سازندگان مدل‌های Phi-4 مایکروسافت در یک مصاحبه با AIM گفت که این شرکت رویکرد متفاوتی نسبت به OpenAI و گوگل اتخاذ کرده است. او افزود: «ما تمام دستورالعمل‌ها و تکنیک‌های پیچیده‌ای که هیچ‌کس در دنیا آن‌ها را پیاده‌سازی نکرده، منتشر کرده‌ایم.» او همچنین گفت: «در مقاله منتشرشده، تمام این جزئیات را آورده‌ایم. این نشان می‌دهد که در مایکروسافت چقدر به متن‌باز بودن اهمیت می‌دهیم.»

مدل‌های بزرگ‌تر تنها راه حل نیستند

در سال‌های اخیر، تعداد پارامترهای مدل‌های هوش مصنوعی کاهش یافته و آخرین اطلاعات منتشر شده این روند را تأیید می‌کند. سال گذشته، EpochAI پارامترهای چندین مدل پیشرفته مانند GPT-4o و Claude 3.5 Sonnet را فاش کرد.

پس از مایکروسافت، EpochAI نیز اعلام کرد که GPT-4o دارای ۲۰۰ میلیارد پارامتر است. این در حالی است که EpochAI اظهار داشت Claude 3.5 Sonnet حدود ۴۰۰ میلیارد پارامتر دارد. در واقع این آمار تضاد شدیدی با برآورد مایکروسافت از ۱۷۵ میلیارد پارامتر دارد. با این حال، این موضوع نشان می‌دهد که مدل‌های هوش مصنوعی دیگر تعداد پارامترها را در اولویت قرار نمی‌دهند.

بین مدل‌های GPT-1 و GPT-3، تعداد پارامترها هزار برابر افزایش پیدا کرد و از GPT-3 به GPT-4، این عدد از ۱۷۵ میلیارد به ۱.۸ تریلیون پارامتر رسید که افزایش ده برابری را نشان می‌دهد. با این حال، اکنون این روند در حال تغییر است.

«اژه اردیل»، پژوهشگر EpochAI، در دسامبر سال گذشته گفت: «حتی رسیدن به ۱۰ تریلیون پارامتر هم ممکن نیست. مدل‌های پیشرفته فعلی مانند GPT-4o و Claude 3.5 Sonnet احتمالاً از نظر اندازه به طور قابل توجهی کوچک‌تر از GPT-4 هستند.

در ابتدا، افزایش اندازه پارامترها باعث بهبود عملکرد مدل می‌شد. اما با گذر زمان، افزایش محاسبات و اندازه پارامترها دیگر باعث بهبود بیشتر مدل نشد. البته کمبود داده‌های جدید نیز به این کاهش بازدهی کمک می‌کند.

«یان لِکون» (Yann LeCun) در پلتفرم X پستی منتشر کرد و گفت: «یک مدل با پارامترهای بیشتر لزوماً بهتر نیست. معمولاً هزینه اجرای آن بیشتر است و به حافظه رم بیشتری نیاز دارد که یک کارت گرافیک معمولی نمی‌تواند آن را تامین کند.»

این موضوع باعث شد که مهندسان روش‌های کارآمدی را در سطح معماری برای مقیاس‌پذیری مدل‌ها مورد بررسی قرار دهند. یکی از این روش‌ها MoE است که گفته می‌شود مدل‌های GPT-4o و GPT-4o Mini از آن استفاده می‌کنند.

یان لِکون در ادامه گفت: «MoE یک شبکه عصبی است که شامل چندین ماژول تخصصی است و تنها یکی از آن‌ها برای هر ورودی خاص اجرا می‌شود. بنابراین، تعداد مؤثر پارامترهایی که در هر زمان استفاده می‌شود، کوچک‌تر از مجموع پارامترها است.»

با پایان سال ۲۰۲۴، اکوسیستم شاهد مدل‌هایی با تکنیک‌های نوآورانه بود که مدل‌های پیشرفته‌تر را پشت سر گذاشتند. در دسامبر، مدل Phi-4 مایکروسافت منتشر شد که از مجموعه داده‌های کوچک و انتخاب‌شده با کیفیت بالا برای آموزش مدل Phi-4 استفاده می‌کند. این مدل در بسیاری از آزمون‌ها به نسبت مدل‌های پیشرو مانند GPT-4o عملکرد بهتری داشت.

فقط دو هفته پیش، DeepSeek یک مدل MoE متن‌باز به نام V3 را معرفی کرد. این مدل نه‌تنها در اکثر تست‌ها از GPT-4o پیشی گرفت، بلکه تنها با هزینه ۵.۵۷۶ میلیون دلار آموزش داده شده است. در واقع، مدل GPT-4 با هزینه ۴۰ میلیون دلار و Gemini Ultra با ۳۰ میلیون دلار آموزش داده شده بودند.

انتظار می‌رود در سال ۲۰۲۵ تکنیک‌های بهینه‌سازی و مقیاس‌بندی جدیدی معرفی شوند که مدل‌ها را به سطوح بالاتری برسانند و در عین حال هزینه‌های آن‌ها را به طور قابل توجهی کاهش دهند.

«فرانسوا شوله»، خالق Keras و سازنده معیار ARC AGI، در شبکه اجتماعی X پستی منتشر کرد و نوشت: «حجم مدل‌ها دیگر در حال افزایش نیست یا حتی ممکن است کاهش پیدا کند. حالا محققان به جای اینکه فقط به بزرگ‌تر کردن مدل‌ها فکر کنند، به حل مشکلات واقعی پرداخته‌اند. این مشکلات می‌توانند شامل روش‌های جدیدی مثل آموزش مدل‌ها در حین استفاده یا استفاده از تکنیک‌های نوین مانند جستجو در زمان آزمایش، تولید برنامه‌ها و بهره‌برداری از ابزارهای نمادین باشند.» او افزود: «مدل‌های بزرگ کافی نیستند. شما به ایده‌های بهتر نیاز دارید. حالا این ایده‌های بهتر بالاخره به صحنه آمده‌اند.»

https://hooshio.com/?p=66075

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

آیا مایکروسافت اسرار OpenAI را فاش کرده است؟

اندازه در برابر کیفیت

مدل‌های بزرگ‌تر تنها راه حل نیستند

رونمایی از GPT-5 تا چند هفته دیگر

صدرنشینی مدل‌های چینی در رقابت جهانی هوش مصنوعی متن‌باز

مکالمات احساسی با ChatGPT می‌تواند علیه شما استفاده شود

روز صفر گوگل

من ربات هستم: آینده بر پرده نقره‌ای

کاربردهای هوش مصنوعی در دنیای سرگرمی و گردشگری

کاربردهای هوش مصنوعی در حمل و نقل

جست‌وجوی حقیقت در عدم قطعیت

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

صدرنشینی مدل‌های چینی در رقابت جهانی هوش مصنوعی متن‌باز

مکالمات احساسی با ChatGPT می‌تواند علیه شما استفاده شود

روز صفر گوگل

مغز متفکر GPT به متا پیوست

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

من ربات هستم: آینده بر پرده نقره‌ای

کاربردهای هوش مصنوعی در دنیای سرگرمی و گردشگری

کاربردهای هوش مصنوعی در حمل و نقل

رونمایی از GPT-5 تا چند هفته دیگر

جست‌وجوی حقیقت در عدم قطعیت

اندازه در برابر کیفیت

مدل‌های بزرگ‌تر تنها راه حل نیستند

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید