
مدلهای زبانی بزرگ که در سال 2024 شکست خوردند
به نظر میرسد رقابت برای ساخت مدلهای زبانی بزرگ به پایان رسیده است و تنها چند برنده واضح در این رقابت باقیماندهاند. در میان این مدلها، مدل DeepSeek V3 در سال 2024 توانسته است توجهها را جلب کند و به عنوان پیشرو در زمینه مدلهای منبع باز چینی مطرح شود.
این مدل در رقابت مستقیم با غولهای مدلهای اختصاصی مانند GPT-4 و Claude-3.5 قرار دارد و توانست دانلود بالایی را ثبت کند. طبق گزارش Hugging Face، مدل DeepSeek V3 در کنار مدلهای دیگری مانند Llama3.1 از Meta و Gemma2 از Google ایستاده است.
البته همه مدلهای زبانی بزرگ (LLM) که امسال معرفی شدند، نتوانستند موفقیت چشمگیری داشته باشند؛ در واقع برخی از آنها با وجود وعدههای بزرگ، توجه زیادی را به سمت خود جلب نکردند. در اینجا نگاهی داریم به مدلهایی که نتوانستند در سال 2024 اثرگذار باشند.
مدل Databricks DBRX
در مارس 2024، شرکت Databricks مدل DBRX که یک مدل زبان بزرگ (LLM) متنباز با 132 میلیارد پارامتر بود را معرفی کرد. این مدل از معماری MoE استفاده میکند، به این معنا که تنها تعداد خاصی از بخشهای تخصصی مدل برای هر ورودی فعال میشود.
به طور خاص، در هر بار پردازش ورودی، چهار بخش از 16 بخش فعال میشوند که در مجموع 36 میلیارد پارامتر فعال خواهد بود. شرکت Databricks ادعا کرد که این مدل میتواند از مدلهای اختصاصی مانند GPT-3.5 و Gemini 1.5 Pro عملکرد بهتری داشته باشد.
البته پس از معرفی این مدل، اطلاعات زیادی در مورد استقبال از آن یا اینکه آیا شرکتها از آن برای ساخت برنامههای خود استفاده میکنند، منتشر نشده است. تیم Mosaic که در سال 2023 به قیمت 1.3 میلیارد دلار توسط Databricks خریداری شد، مسئول توسعه این مدل بود و این شرکت حدود 10 میلیون دلار برای ساخت DBRX هزینه کرد، اما متاسفانه این مدل در ماه گذشته تنها 23 بار در Hugging Face دانلود شد.
مدل Falcon-2
در ماه مه، مؤسسه نوآوری فناوری (TII) در ابوظبی، سری جدید مدلهای زبان Falcon خود را در دو نسخه Falcon-2-11B و Falcon-2-11B-VLM معرفی کرد. مدلهای Falcon-2 عملکرد چشمگیری در آزمایشهای استاندارد نشان دادند، به طوری که Falcon-2-11B توانست از مدل Llama 3 8B متعلق به Meta پیشی بگیرد و با مدل Gemma 7B گوگل همسطح شود. این ارزیابیها به طور مستقل توسط رتبهبندی Hugging Face تأیید شد.
با این حال، در اواخر سال، Meta مدلهای جدیدتر Llama-3.2 و Llama-3.3 را منتشر کرد و باعث شد که Falcon-2 عقب بماند. طبق گزارش Hugging Face، مدل Falcon-2-11B-VLM در ماه گذشته تنها حدود 1,000 بار دانلود شد.
مدل Snowflake Arctic
در ماه آوریل، Snowflake مدل زبان Arctic را با ۴۸۰ میلیارد پارامتر و معماری هیبریدی MoE Transformer که از ۱۲۸ متخصص استفاده میکند، معرفی کرد. این شرکت با افتخار اعلام کرد که تنها ۲ میلیون دلار برای آموزش این مدل هزینه کرده است و موفق به پیشیگرفتن از DBRX در وظایفی مانند تولید SQL شده است.
توجه این شرکت به DBRX نشاندهنده تلاش برای به چالش کشیدن Databricks بود. در عین حال، Snowflake اذعان کرد که مدلهایی مانند Llama-3 در برخی از معیارها از Arctic بهتر عمل کردهاند.
مدل Stable LM-2
Stability AI در ژانویه سال گذشته سری مدلهای Stable LM-2 را معرفی کرد که شامل دو نسخه Stable LM 2 1.6B و Stable LM 2 12B بود. Stable LM 2 1.6B بهعنوان مدل ۱.۶ میلیارد پارامتری بر روی ۲ تریلیون توکن آموزشدیده است و از هفت زبان مختلف از جمله اسپانیایی، آلمانی، ایتالیایی، فرانسوی و پرتغالی پشتیبانی میکند. همچنین این مدل در بیشتر وظایف از مدلهایی مانند Phi-1.5 مایکروسافت و TinyLlama 1.1B پیشی گرفته است.
مدل Stable LM 2 12B که در ماه مه منتشر شد، دارای ۱۲ میلیارد پارامتر است و بر روی ۲ تریلیون توکن به هفت زبانآموزش دیده است. این شرکت ادعا کرد که این مدل با مدلهای بزرگتر مانند Mixtral، Llama 2 و Qwen 1.5 رقابت میکند و در استفاده از ابزارها برای سیستمهای RAG عملکرد خوبی دارد. البته آمار جدید کاربران داستان متفاوتی را نشان میدهد و این مدل تنها ۴۴۴ دانلود در ماه گذشته داشته است.
مدل Nemotron-4 340B
Nemotron-4-340B-Instruct یک مدل LLM است که توسط NVIDIA برای تولید دادههای مصنوعی و برنامههای چت توسعه یافته است. این مدل در ژوئن ۲۰۲۴ منتشر شد و بخشی از سری Nemotron-4 340B به شمار میآید که شامل نسخههای Base و Reward نیز است. این مدل با وجود ویژگیهای خود، با استقبال کمی روبرو شده و در دسامبر 2024، تنها حدود ۱۰۱ دانلود را در Hugging Face ثبت کرده است.
مدل Jamba
در مارس ۲۰۲۴، AI21 Labs توانست مدل Jamba را معرفی کرد. Jamba یک مدل LLM است که مدلهای ساختاریافته فضای حالت (SSM) مبتنی بر Mamba را با لایههای سنتی ترنسفورمر ترکیب میکند. همچنین خانواده Jamba شامل نسخههای مختلفی مانند Jamba-v0.1، Jamba 1.5 Mini، و Jamba 1.5 Large است.
Jamba با داشتن پنجره متنی 256k توکن، میتواند بخشهای بسیار بزرگتری از متن را نسبت به بسیاری از مدلهای رقابتی پردازش کند. این ویژگی در ابتدا هیجان زیادی را به دنبال داشت، اما نتوانست توجه زیادی را جلب کند و در ماه گذشته حدود ۷ هزار دانلود را در Hugging Face ثبت کرد.
مدل AMD OLMo
در اواخر سال ۲۰۲۴، شرکت AMD وارد عرصه هوش مصنوعی متنباز شد و سری مدلهای زبانی OLMo را معرفی کرد. این سری مدلها مبتنی بر ترنسفورمر هستند و تنها برای رمزگشایی طراحی شدهاند. سری OLMo شامل مدلهای مختلفی از جمله مدل پایه OLMo 1B، OLMo 1B SFT (مدلهایی که تحت نظارت برای بهبود عملکردشان آموزشدیدهاند) و OLMo 1B SFT DPO (مدلهایی که با استفاده از بهینهسازی مستقیم ترجیحات انسانی برای تطابق بهتر با نیازهای کاربران تنظیم شدهاند) میشود.
این مدلها بر روی ۱۶ گره مجهز به پردازندههای گرافیکی AMD Instinct MI250 آموزشدیدهاند و توانستند سرعت پردازش ۱۲,۲۰۰ توکن در ثانیه برای هر پردازنده گرافیکی (GPU) را به دست آورند.
مدل پرچمدار OLMo 1B دارای ۱.۲ میلیارد پارامتر، ۱۶ لایه، ۱۶ سر، اندازه پنهان ۲۰۴۸، طول متن ۲۰۴۸ توکن و اندازه دیکشنری ۵۰,۲۸۰ توکن است. این مدل به طور خاص برای توسعهدهندگان، دانشمندان داده و کسبوکارها طراحی شده است. با وجود این ویژگیها، این مدل نتوانست در جامعه هوش مصنوعی توجه زیادی جلب کند.