سه مدل جدید Llama 4 از راه رسیدند؛ از دستیار سبک تا غول پژوهشی

نگار علی
۱۷ فروردین ۱۴۰۴

زمان مطالعه: 3 دقیقه

شرکت متا (Meta) با معرفی مجموعه‌ای از مدل‌های جدید از خانواده Llama 4، گام بزرگی به سوی توسعه هوش مصنوعی چندوجهی و باز متن برداشته است. این مدل‌ها که شامل Llama 4 Scout، Llama 4 Maverick و نسخه آزمایشی Llama 4 Behemoth می‌شوند، تجربه‌ای متفاوت و قدرتمند از هوش مصنوعی را برای توسعه‌دهندگان، کسب‌وکارها و کاربران عمومی فراهم می‌کنند.

فهرست مقاله پنهان

1 Scout و Maverick؛ دو مدل پیشرو با معماری MoE

2 Behemoth؛ مدل معلم ۲ تریلیون پارامتری

3 نوآوری در آموزش و معماری

4 آموزش پیشرفته با داده‌های گسترده و دقیق

5 قابلیت‌های ویژه Scout

6 محافظت، ایمنی و مقابله با تهدیدها

7 آینده Llama؛ آغاز یک مسیر تازه

Scout و Maverick؛ دو مدل پیشرو با معماری MoE

Llama 4 Scout، یک مدل با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص است که در عین قدرتمند بودن، تنها بر روی یک کارت گرافیک H100 اجرا می‌شود. این مدل با پشتیبانی از پنجره متنی ۱۰ میلیون توکن، از نظر عملکرد از مدل‌هایی مانند Gemma 3، Gemini 2.0 Flash-Lite و Mistral 3.1 برتری دارد.

در سوی دیگر، Llama 4 Maverick با همان تعداد پارامتر اما ۱۲۸ متخصص، عملکردی حتی فراتر از GPT-4o و Gemini 2.0 Flash ارائه می‌دهد. این مدل با نسبت قیمت به عملکرد بی‌نظیر، برای کاربردهایی مانند دستیار هوش مصنوعی و گفت‌وگوهای پیشرفته طراحی شده و امتیاز ۱۴۱۷ را در آزمون LMArena به دست آورده است.

Behemoth؛ مدل معلم ۲ تریلیون پارامتری

مدل Llama 4 Behemoth که هنوز در مرحله آموزش است، با ۲۸۸ میلیارد پارامتر فعال، ۱۶ متخصص و مجموعاً نزدیک به دو تریلیون پارامتر، به عنوان یکی از پیشرفته‌ترین مدل‌های زبانی جهان معرفی شده است. این مدل در ارزیابی‌های تخصصی STEM عملکردی بهتر از GPT-4.5، Claude Sonnet 3.7 و Gemini 2.0 Pro داشته و به‌عنوان مدل معلم برای آموزش Scout و Maverick استفاده شده است.

نوآوری در آموزش و معماری

مدل‌های جدید Llama 4 با استفاده از معماری ترکیب متخصصان (Mixture of Experts – MoE) طراحی شده‌اند که در آن، هر توکن فقط بخشی از پارامترها را فعال می‌کند. این روش باعث افزایش کارایی و کاهش هزینه پردازش شده است

این مدل‌ها همچنین به صورت ذاتی چندوجهی طراحی شده‌اند، به گونه‌ای که متن، تصویر و ویدیو را به‌صورت یکپارچه پردازش می‌کنند. استفاده از ساختار early fusion، ادغام اطلاعات متنی و بصری را از همان ابتدا ممکن کرده است.

آموزش پیشرفته با داده‌های گسترده و دقیق

Llama 4 بر پایه داده‌های بیش از ۳۰ تریلیون توکن، از جمله متون، تصاویر و ویدیوهای متنوع آموزش داده شده است. همچنین از تکنیک‌های دقیق‌سازی فوق سبک، یادگیری تقویتی آنلاین و بهینه‌سازی ترجیحات مستقیم (DPO) برای آموزش نهایی استفاده شده است.

برای حفظ تعادل بین توانایی استدلال، گفت‌وگو و پاسخ به ورودی‌های چندوجهی، فرآیند آموزش پس از پیش‌پردازش شامل حذف داده‌های آسان و تمرکز بر پرسش‌های چالش‌برانگیز بوده است. این روش باعث افزایش دقت مدل به‌ویژه در حوزه‌های کدنویسی، ریاضیات و استدلال شده است.

قابلیت‌های ویژه Scout

مدل Scout با داشتن پنجره متنی ۱۰ میلیون توکن، افق‌های جدیدی را برای پردازش اطلاعات وسیع مانند خلاصه‌سازی چند سند، تحلیل فعالیت‌های گسترده کاربر و بررسی کدهای پیچیده گشوده است. این مدل در آزمون‌های تصویری نیز عملکرد بالایی از خود نشان داده و توانایی پاسخ‌گویی دقیق به پرسش‌های بصری را دارد.

محافظت، ایمنی و مقابله با تهدیدها

متا هم‌زمان با توسعه مدل‌های جدید، بر اهمیت امنیت و محافظت از کاربران تأکید کرده است. این شرکت با معرفی ابزارهایی مانند:

Llama Guard برای بررسی ایمنی ورودی‌ها و خروجی‌ها، Prompt Guard برای شناسایی حملات زبانی مانند prompt injection و jailbreakو ابزار ارزیابی CyberSecEval برای تحلیل ریسک‌های امنیتی هوش مصنوعی تولیدی، تلاش کرده تا محیطی امن و قابل اعتماد برای توسعه‌دهندگان و کاربران فراهم آورد.

آینده Llama؛ آغاز یک مسیر تازه

متا با ارائه Llama 4 قصد دارد بستری باز و قابل توسعه برای نسل آینده هوش مصنوعی فراهم کند. این شرکت معتقد است که مدل‌های هوشمند باید بتوانند به طور طبیعی با انسان تعامل داشته، اقدامات عمومی انجام دهند و مسائل جدید را حل کنند. رویداد LlamaCon که در ۲۹ آوریل برگزار می‌شود، قرار است چشم‌انداز آینده این اکوسیستم را بیشتر ترسیم کند.