توضیحات «متا» درباره عملکرد مدلهای Llama 4 و شایعات پیرامون آن
شرکت Meta ادعاهای مطرحشده مبنی بر استفاده از مجموعههای تست در فرآیند آموزش مدلهای Llama 4 را رد کرد. در پستی که «احمد الداهل»، معاون بخش هوش مصنوعی مولد (GenAI) Meta، در شبکه اجتماعی X منتشر کرد، گفت: «ما شنیدهایم که برخی ادعا کردهاند که ما از مجموعههای تست در فرآیند آموزش استفاده کردهایم. این ادعا کاملاً نادرست است و ما هرگز چنین کاری نمیکنیم.»
او افزود که این مدلها به محض آماده شدن منتشر شدهاند و ممکن است چند روز طول بکشد تا همه نسخههای عمومی به طور کامل پایدار شوند. Meta همچنین عملکرد متفاوت مدلها را به مسائل مربوط به پایداری در پیادهسازی نسبت داد و نه نقص در فرآیند آموزش.
مدلهای جدید Llama 4
متا به تازگی دو مدل جدید از خانواده Llama 4 به نامهای Scout و Maverick را عرضه کرده است. مدل Maverick به سرعت به رتبه دوم در LMArena، پلتفرم رتبهبندی مدلهای هوش مصنوعی، دست یافت. در این پلتفرم کاربران با مقایسه مستقیم مدلها به بهترین پاسخها رأی میدهند.
در بیانیه مطبوعاتی، متا به امتیاز ELO مدل Maverick اشاره کرد که برابر با 1417 بود و آن را بالاتر از مدل GPT-4o شرکت OpenAI و کمی پایینتر از مدل Gemini 2.5 Pro قرار داد.
مدل آزمایشی و شفافیت در نتایج
نسخهای از Maverick که در LMArena ارزیابی شده است، دقیقاً همان نسخهای نیست که متا به صورت عمومی منتشر کرده است. متا در یک پست وبلاگی اعلام کرد که از نسخهای آزمایشی و سفارشی استفاده کرده است که برای بهبود قابلیتهای مکالمه طراحی شده بود.
پلتفرم Chatbot Arena، که توسط lmarena.ai (قبلاً lmsys.org) اداره میشود، در پاسخ به نگرانیهای جامعه، بیش از 2,000 نتیجه مقایسه مستقیم را برای بررسی عمومی منتشر کرد. این نتایج شامل درخواستهای کاربران، پاسخهای مدلها و ترجیحات کاربران میشود. این شرکت اعلام کرد که برای اطمینان از شفافیت کامل، این نتایج را منتشر کرده است. همچنین سیاستهای خود برای رتبهبندی مدلها را بهروزرسانی کرده تا ارزیابیهای آینده عادلانهتر و قابلتکرار باشد. آنها اعلام کردند که نسخه HF مدل Llama-4-Maverick به زودی به Arena اضافه خواهد شد و نتایج رتبهبندی نیز منتشر میشود.
شایعات پیرامون Llama 4
ماجرای مدلهای Llama 4 زمانی جنجالی شد که یک پست وایرال در Reddit، با استناد به گزارشی چینی، ادعا کرد که یکی از کارکنان متا فشار داخلی برای ترکیب مجموعههای تست در فرآیند پسآموزش را مطرح کرده است. در این گزارش آمده بود که رهبران شرکت پیشنهاد دادهاند مجموعههای تست مختلف از معیارهای ارزیابی پسآموزش ترکیب شوند تا اهداف عملکردی در معیارهای مختلف برآورده شود.
این پست همچنین مدعی بود که این فرد استعفا داده و درخواست کرده است که از گزارش فنی خارج شود. با این حال، منابع متا تأیید کردند که این فرد از شرکت خارج نشده و گزارش چینی جعلی است.
تفاوت در نتایج ارزیابی
با این وجود، برخی پژوهشگران هوش مصنوعی تفاوتهایی بین نتایج گزارششده توسط متا و نتایج مشاهدهشده توسط آنها اشاره کردهاند. یک کاربر در شبکه X گفت:
«Llama 4 در LMSys کاملاً متفاوت از سایر نسخههای Llama 4 است، حتی اگر از پیام سیستمی پیشنهادی استفاده کنید. خودم چندین پیام مختلف را امتحان کردم.»
Susan Zhang، مهندس ارشد پژوهشی در Google DeepMind، با کنایه گفت: «حرکت شطرنج چهاربعدی: استفاده از نسخه آزمایشی Llama 4 برای دستکاری LMSys، افشای ترجیحات نادرست، و در نهایت بیاعتبار کردن کل سیستم رتبهبندی.»
فشار برای انتشار Llama 4
سوالاتی نیز درباره انتشار مدل Llama 4 در روزهای آخر هفته مطرح شد، چرا که معمولاً شرکتهای بزرگ فناوری اعلامیههای مهم خود را در روزهای کاری منتشر میکنند. همچنین گفته شده است که متا تحت فشار بود تا Llama 4 را پیش از انتشار مدل استدلالی بعدی DeepSeek با نام R2 منتشر کند.
در همین حال، متا اعلام کرده که مدل استدلالی خود را به زودی عرضه خواهد کرد. پیش از انتشار Llama 4، گزارش شده بود که متا تاریخ انتشار را حداقل دو بار به تعویق انداخته است، زیرا این مدل در معیارهای فنی مورد انتظار، به ویژه در وظایف استدلال و ریاضیات، عملکرد مطلوبی نداشته است. همچنین نگرانیهایی وجود داشت که Llama 4 توانایی کمتری نسبت به مدلهای OpenAI در مکالمات مشابه انسان دارد.
متا همچنان به دفاع از مدلهای خود ادامه میدهد و تلاش دارد با شفافسازی و ارائه اطلاعات بیشتر نگرانیهای جامعه را کاهش دهد.