توضیحات «متا» درباره عملکرد مدل‌های Llama 4 و شایعات پیرامون آن

تیم تحریریه
۲۱ فروردین ۱۴۰۴

زمان مطالعه: 3 دقیقه

شرکت Meta ادعاهای مطرح‌شده مبنی بر استفاده از مجموعه‌های تست در فرآیند آموزش مدل‌های Llama 4 را رد کرد. در پستی که «احمد الداهل»، معاون بخش هوش مصنوعی مولد (GenAI) Meta، در شبکه اجتماعی X منتشر کرد، گفت: «ما شنیده‌ایم که برخی ادعا کرده‌اند که ما از مجموعه‌های تست در فرآیند آموزش استفاده کرده‌ایم. این ادعا کاملاً نادرست است و ما هرگز چنین کاری نمی‌کنیم.»
او افزود که این مدل‌ها به محض آماده شدن منتشر شده‌اند و ممکن است چند روز طول بکشد تا همه نسخه‌های عمومی به طور کامل پایدار شوند. Meta همچنین عملکرد متفاوت مدل‌ها را به مسائل مربوط به پایداری در پیاده‌سازی نسبت داد و نه نقص در فرآیند آموزش.

فهرست مقاله پنهان

1 مدل‌های جدید Llama 4

2 مدل آزمایشی و شفافیت در نتایج

3 شایعات پیرامون Llama 4

4 فشار برای انتشار Llama 4

مدل‌های جدید Llama 4

متا به تازگی دو مدل جدید از خانواده Llama 4 به نام‌های Scout و Maverick را عرضه کرده است. مدل Maverick به سرعت به رتبه دوم در LMArena، پلتفرم رتبه‌بندی مدل‌های هوش مصنوعی، دست یافت. در این پلتفرم کاربران با مقایسه مستقیم مدل‌ها به بهترین پاسخ‌ها رأی می‌دهند.

در بیانیه مطبوعاتی، متا به امتیاز ELO مدل Maverick اشاره کرد که برابر با 1417 بود و آن را بالاتر از مدل GPT-4o شرکت OpenAI و کمی پایین‌تر از مدل Gemini 2.5 Pro قرار داد.

مدل آزمایشی و شفافیت در نتایج

نسخه‌ای از Maverick که در LMArena ارزیابی شده است، دقیقاً همان نسخه‌ای نیست که متا به صورت عمومی منتشر کرده است. متا در یک پست وبلاگی اعلام کرد که از نسخه‌ای آزمایشی و سفارشی استفاده کرده است که برای بهبود قابلیت‌های مکالمه طراحی شده بود.

پلتفرم Chatbot Arena، که توسط lmarena.ai (قبلاً lmsys.org) اداره می‌شود، در پاسخ به نگرانی‌های جامعه، بیش از 2,000 نتیجه مقایسه مستقیم را برای بررسی عمومی منتشر کرد. این نتایج شامل درخواست‌های کاربران، پاسخ‌های مدل‌ها و ترجیحات کاربران می‌شود. این شرکت اعلام کرد که برای اطمینان از شفافیت کامل، این نتایج را منتشر کرده است. همچنین سیاست‌های خود برای رتبه‌بندی مدل‌ها را به‌روزرسانی کرده تا ارزیابی‌های آینده عادلانه‌تر و قابل‌تکرار باشد. آن‌ها اعلام کردند که نسخه HF مدل Llama-4-Maverick به زودی به Arena اضافه خواهد شد و نتایج رتبه‌بندی نیز منتشر می‌شود.

شایعات پیرامون Llama 4

ماجرای مدل‌های Llama 4 زمانی جنجالی شد که یک پست وایرال در Reddit، با استناد به گزارشی چینی، ادعا کرد که یکی از کارکنان متا فشار داخلی برای ترکیب مجموعه‌های تست در فرآیند پس‌آموزش را مطرح کرده است. در این گزارش آمده بود که رهبران شرکت پیشنهاد داده‌اند مجموعه‌های تست مختلف از معیارهای ارزیابی پس‌آموزش ترکیب شوند تا اهداف عملکردی در معیارهای مختلف برآورده شود.

این پست همچنین مدعی بود که این فرد استعفا داده و درخواست کرده است که از گزارش فنی خارج شود. با این حال، منابع متا تأیید کردند که این فرد از شرکت خارج نشده و گزارش چینی جعلی است.

تفاوت در نتایج ارزیابی

با این وجود، برخی پژوهشگران هوش مصنوعی تفاوت‌هایی بین نتایج گزارش‌شده توسط متا و نتایج مشاهده‌شده توسط آن‌ها اشاره کرده‌اند. یک کاربر در شبکه X گفت:
«Llama 4 در LMSys کاملاً متفاوت از سایر نسخه‌های Llama 4 است، حتی اگر از پیام سیستمی پیشنهادی استفاده کنید. خودم چندین پیام مختلف را امتحان کردم.»

Susan Zhang، مهندس ارشد پژوهشی در Google DeepMind، با کنایه گفت: «حرکت شطرنج چهاربعدی: استفاده از نسخه آزمایشی Llama 4 برای دستکاری LMSys، افشای ترجیحات نادرست، و در نهایت بی‌اعتبار کردن کل سیستم رتبه‌بندی.»

فشار برای انتشار Llama 4

سوالاتی نیز درباره انتشار مدل Llama 4 در روزهای آخر هفته مطرح شد، چرا که معمولاً شرکت‌های بزرگ فناوری اعلامیه‌های مهم خود را در روزهای کاری منتشر می‌کنند. همچنین گفته شده است که متا تحت فشار بود تا Llama 4 را پیش از انتشار مدل استدلالی بعدی DeepSeek با نام R2 منتشر کند.

در همین حال، متا اعلام کرده که مدل استدلالی خود را به زودی عرضه خواهد کرد. پیش از انتشار Llama 4، گزارش شده بود که متا تاریخ انتشار را حداقل دو بار به تعویق انداخته است، زیرا این مدل در معیارهای فنی مورد انتظار، به ویژه در وظایف استدلال و ریاضیات، عملکرد مطلوبی نداشته است. همچنین نگرانی‌هایی وجود داشت که Llama 4 توانایی کمتری نسبت به مدل‌های OpenAI در مکالمات مشابه انسان دارد.

متا همچنان به دفاع از مدل‌های خود ادامه می‌دهد و تلاش دارد با شفاف‌سازی و ارائه اطلاعات بیشتر نگرانی‌های جامعه را کاهش دهد.