برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 مدل‌های زبانی بزرگ که در سال 2024 شکست خوردند

مدل‌های زبانی بزرگ که در سال 2024 شکست خوردند

زمان مطالعه: 4 دقیقه

به نظر می‌رسد رقابت برای ساخت مدل‌های زبانی بزرگ به پایان رسیده است و تنها چند برنده واضح در این رقابت باقی‌مانده‌اند. در میان این مدل‌ها، مدل DeepSeek V3 در سال 2024 توانسته است توجه‌ها را جلب کند و به عنوان پیشرو در زمینه مدل‌های منبع باز چینی مطرح شود.

این مدل در رقابت مستقیم با غول‌های مدل‌های اختصاصی مانند GPT-4 و Claude-3.5  قرار دارد و توانست دانلود بالایی را ثبت کند. طبق گزارش Hugging Face، مدل DeepSeek V3 در کنار مدل‌های دیگری مانند Llama3.1 از Meta و Gemma2  از Google ایستاده است.

البته همه مدل‌های زبانی بزرگ (LLM) که امسال معرفی شدند، نتوانستند موفقیت چشمگیری داشته باشند؛ در واقع برخی از آن‌ها با وجود وعده‌های بزرگ، توجه زیادی را به سمت خود جلب نکردند. در اینجا نگاهی داریم به مدل‌هایی که نتوانستند در سال 2024 اثرگذار باشند.

مدل Databricks DBRX

در مارس 2024، شرکت Databricks مدل DBRX که یک مدل زبان بزرگ (LLM) متن‌باز با 132 میلیارد پارامتر بود را معرفی کرد. این مدل از معماری MoE استفاده می‌کند، به این معنا که تنها تعداد خاصی از بخش‌های تخصصی مدل برای هر ورودی فعال می‌شود.

به طور خاص، در هر بار پردازش ورودی، چهار بخش از 16 بخش فعال می‌شوند که در مجموع 36 میلیارد پارامتر فعال خواهد بود. شرکت Databricks ادعا کرد که این مدل می‌تواند از مدل‌های اختصاصی مانند GPT-3.5 و Gemini 1.5 Pro عملکرد بهتری داشته باشد.

البته پس از معرفی این مدل، اطلاعات زیادی در مورد استقبال از آن یا اینکه آیا شرکت‌ها از آن برای ساخت برنامه‌های خود استفاده می‌کنند، منتشر نشده است. تیم Mosaic که در سال 2023 به قیمت 1.3 میلیارد دلار توسط Databricks خریداری شد، مسئول توسعه این مدل بود و این شرکت حدود 10 میلیون دلار برای ساخت DBRX هزینه کرد، اما متاسفانه این مدل در ماه گذشته تنها 23 بار در Hugging Face دانلود شد.

مدل Falcon-2

در ماه مه، مؤسسه نوآوری فناوری (TII) در ابوظبی، سری جدید مدل‌های زبان Falcon خود را در دو نسخه Falcon-2-11B و Falcon-2-11B-VLM معرفی کرد. مدل‌های Falcon-2 عملکرد چشمگیری در آزمایش‌های استاندارد نشان دادند، به طوری که Falcon-2-11B توانست از مدل Llama 3 8B متعلق به Meta پیشی بگیرد و با مدل Gemma 7B گوگل هم‌سطح شود. این ارزیابی‌ها به طور مستقل توسط رتبه‌بندی Hugging Face تأیید شد.

با این حال، در اواخر سال، Meta مدل‌های جدیدتر Llama-3.2 و Llama-3.3   را منتشر کرد و باعث شد که Falcon-2  عقب بماند. طبق گزارش Hugging Face، مدل Falcon-2-11B-VLM در ماه گذشته تنها حدود 1,000 بار دانلود شد.

مدل Snowflake Arctic

در ماه آوریل، Snowflake مدل زبان Arctic را با ۴۸۰ میلیارد پارامتر و معماری هیبریدی MoE Transformer که از ۱۲۸ متخصص استفاده می‌کند، معرفی کرد. این شرکت با افتخار اعلام کرد که تنها ۲ میلیون دلار برای آموزش این مدل هزینه کرده است و موفق به پیشی‌گرفتن از DBRX در وظایفی مانند تولید SQL شده است.

توجه این شرکت به DBRX نشان‌دهنده تلاش برای به چالش کشیدن Databricks بود. در عین حال، Snowflake اذعان کرد که مدل‌هایی مانند Llama-3 در برخی از معیارها از Arctic بهتر عمل کرده‌اند.

مدل Stable LM-2

Stability AI در ژانویه سال گذشته سری مدل‌های Stable LM-2 را معرفی کرد که شامل دو نسخه Stable LM 2 1.6B و Stable LM 2 12B بود. Stable LM 2 1.6B به‌عنوان مدل ۱.۶ میلیارد پارامتری بر روی ۲ تریلیون توکن آموزش‌دیده است و از هفت زبان مختلف از جمله اسپانیایی، آلمانی، ایتالیایی، فرانسوی و پرتغالی پشتیبانی می‌کند. همچنین این مدل در بیشتر وظایف از مدل‌هایی مانند Phi-1.5 مایکروسافت و TinyLlama 1.1B پیشی گرفته است.

مدل Stable LM 2 12B که در ماه مه منتشر شد، دارای ۱۲ میلیارد پارامتر است و بر روی ۲ تریلیون توکن به هفت زبان‌آموزش دیده است. این شرکت ادعا کرد که این مدل با مدل‌های بزرگ‌تر مانند Mixtral، Llama 2 و Qwen 1.5 رقابت می‌کند و در استفاده از ابزارها برای سیستم‌های RAG عملکرد خوبی دارد. البته آمار جدید کاربران داستان متفاوتی را نشان می‌دهد و این مدل تنها ۴۴۴ دانلود در ماه گذشته داشته است.

مدل Nemotron-4 340B

Nemotron-4-340B-Instruct یک مدل LLM است که توسط NVIDIA برای تولید داده‌های مصنوعی و برنامه‌های چت توسعه یافته است. این مدل در ژوئن ۲۰۲۴ منتشر شد و بخشی از سری Nemotron-4 340B به شمار می‌آید که شامل نسخه‌های Base و Reward نیز است. این مدل با وجود ویژگی‌های خود، با استقبال کمی روبرو شده و در دسامبر 2024، تنها حدود ۱۰۱ دانلود را در Hugging Face ثبت کرده است.

مدل Jamba

در مارس ۲۰۲۴، AI21 Labs توانست مدل Jamba را معرفی کرد. Jamba یک مدل LLM است که مدل‌های ساختاریافته فضای حالت (SSM) مبتنی بر Mamba را با لایه‌های سنتی ترنسفورمر ترکیب می‌کند. همچنین خانواده Jamba شامل نسخه‌های مختلفی مانند Jamba-v0.1، Jamba 1.5 Mini، و Jamba 1.5 Large است.

Jamba با داشتن پنجره متنی 256k توکن، می‌تواند بخش‌های بسیار بزرگ‌تری از متن را نسبت به بسیاری از مدل‌های رقابتی پردازش کند. این ویژگی در ابتدا هیجان زیادی را به دنبال داشت، اما نتوانست توجه زیادی را جلب کند و در ماه گذشته حدود ۷ هزار دانلود را در Hugging Face ثبت کرد.

مدل AMD OLMo

در اواخر سال ۲۰۲۴، شرکت AMD وارد عرصه هوش مصنوعی متن‌باز شد و سری مدل‌های زبانی OLMo را معرفی کرد. این سری مدل‌ها مبتنی بر ترنسفورمر هستند و تنها برای رمزگشایی طراحی شده‌اند. سری OLMo شامل مدل‌های مختلفی از جمله مدل پایه OLMo 1B، OLMo 1B SFT (مدل‌هایی که تحت نظارت برای بهبود عملکردشان آموزش‌دیده‌اند) و OLMo 1B SFT DPO (مدل‌هایی که با استفاده از بهینه‌سازی مستقیم ترجیحات انسانی برای تطابق بهتر با نیازهای کاربران تنظیم شده‌اند) می‌شود.

این مدل‌ها بر روی ۱۶ گره مجهز به پردازنده‌های گرافیکی AMD Instinct MI250 آموزش‌دیده‌اند و توانستند سرعت پردازش ۱۲,۲۰۰ توکن در ثانیه برای هر پردازنده گرافیکی (GPU) را به دست آورند.

مدل پرچم‌دار OLMo 1B دارای ۱.۲ میلیارد پارامتر، ۱۶ لایه، ۱۶ سر، اندازه پنهان ۲۰۴۸، طول متن ۲۰۴۸ توکن و اندازه دیکشنری ۵۰,۲۸۰ توکن است. این مدل به طور خاص برای توسعه‌دهندگان، دانشمندان داده و کسب‌وکارها طراحی شده است. با وجود این ویژگی‌ها، این مدل نتوانست در جامعه هوش مصنوعی توجه زیادی جلب کند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]