برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
گزارش
مصاحبه
 انویدیا از معماری هیبریدی جدید خود برای مدل‌های زبان کوچک به نام Hymba رونمایی کرد

انویدیا از معماری هیبریدی جدید خود برای مدل‌های زبان کوچک به نام Hymba رونمایی کرد

زمان مطالعه: 2 دقیقه

انویدیا (NVIDIA) از مدل زبان کوچک Hymba-1.5B-Base رونمایی کرد، مدلی که مکانیزم‌های توجه ترنسفورمر را با مدل‌های فضای حالت (SSM) ترکیب می‌کند. این معماری هیبریدی با هدف افزایش کارایی در وظایف پردازش زبان طبیعی طراحی شده است.

«پاول مولچانوف»، دانشمند و مدیر تحقیقاتی در NVIDIA، این پیشرفت جدید را در پلتفرم X اعلام کرد. او در توییتر نوشت: «کار جدید تیم ما را در مورد Hymba به اشتراک می‌گذاریم، یک مدل زبان کوچک و کارآمد با معماری هیبریدی.»

همچنین او گزارشی فنی از این تحقیق منتشر کرده و توضیح داده است که تفاوت‌های میان مدل‌های Mamba و Attention چیست و چگونه می‌توان این دو مدل را ترکیب کرد. او همچنین به پدیده‌هایی مانند attention sink و forced-to-attend اشاره کرده است.

این مدل از یک ساختار دوگانه استفاده می‌کند که یکی از بخش‌ها وظیفه بازیابی دقیق اطلاعات را بر عهده دارد و بخش دیگر به خلاصه‌سازی متن به‌صورت مؤثر کمک می‌کند.

همچنین مدل Hymba توکن‌های قابل‌یادگیری را در ابتدای ورودی‌ها اضافه می‌کند تا اطلاعات مهم را ذخیره کند و نیاز به پردازش‌های اضافی را کاهش دهد. در نهایت، Hymba برای افزایش کارایی حافظه و سرعت محاسبات، از روش‌هایی مانند اشتراک‌گذاری داده‌ها بین لایه‌ها و استفاده از یک نوع خاص از پردازش اطلاعات بهره می‌برد که در آن مدل فقط به بخش‌های خاصی از داده‌ها تمرکز می‌کند و بقیه بخش‌ها را نادیده می‌گیرد.

مقاله‌ای با عنوان «Hymba: A Hybrid-head Architecture for Small Language Models» به طور کامل طراحی، عملکرد و کاربردهای این مدل را توضیح داده است.

Hymba از مدل Llama-3.2 پیشی می‌گیرد

در یک مطالعه کنترل‌شده که در آن معماری‌های مختلف تحت شرایط یکسان مقایسه شدند، Hymba-1.5B-Base مزایای قابل‌توجهی را نشان داد. در واقع این مدل توانست تمامی مدل‌های عمومی با کمتر از 2 میلیارد پارامتر را پشت سر بگذارد.

مدل Hymba در مقایسه با Llama-3.2-3B به‌اندازه 1.32درصد دقت بالاتری داشت، حجم کش (حافظه موقت) را 11.67 برابر کاهش داد و سرعت پردازش را 3.49 برابر افزایش داد.

«فیلیپ اشمید»، سرپرست فنی و مسئول مدل‌های زبان بزرگ در Hugging Face، درباره این موضوع گفت: «Hymba از دیگر مدل‌های زبان کوچک مانند Meta 3.2 یا SmolLM v2 که تنها با 1.5 تریلیون توکن آموزش دیده‌اند، عملکرد بهتری دارد.»

«پاول مولچانوف» هم در این باره گفت: «نمی‌دانم باید از آموزش با 1.5 تریلیون توکن به خود ببالیم یا نه چون هدف ما این است که سریع پیش برویم و احتمالاً در دو هفته آینده کسی مدل بهتری خواهد داشت.»

همچنین NVIDIA اسکریپتی برای راه‌اندازی محیط کاری ارائه کرده است که تنظیمات محیط را تسهیل می‌کند و از نسخه‌های CUDA 12.1 و 12.4 پشتیبانی می‌کند.

اما احتیاط!

انویدیا اعلام کرده که این مدل با استفاده از داده‌های اینترنتی آموزش دیده است. در واقع این داده‌ها ممکن است شامل مطالب توهین‌آمیز، محتوای ناامن و تبعیض‌های اجتماعی باشند، به همین دلیل مدل Hymba ممکن است این مشکلات را بازتاب دهد، به سؤالات توهین‌آمیز پاسخ‌های توهین‌آمیز بدهد یا حتی در پاسخ به سؤالات بی‌طرف، متن اشتباه یا بی‌ربط تولید کند.

کاربران باید هنگام تولید، اندازه دسته داده‌ها را روی یک تنظیم کنند، چون تنظیمات فعلی به طور کامل از روش خاصی برای پردازش داده‌ها پشتیبانی نمی‌کند. با این حال، برای آموزش مدل و پر کردن داده‌ها، می‌توان از هر اندازه دسته داده استفاده کرد.

شرکت تأکید دارد که همه افراد باید در ایجاد هوش مصنوعی قابل‌اعتماد نقش مشترک و مسئولیت‌پذیری داشته باشند. همچنین دستورالعمل‌های اخلاقی مشخصی برای توسعه این فناوری تعیین شده است. علاوه بر این، از کاربران خواسته شده که مدل را به طور مسئولانه استفاده کنند و به محدودیت‌های آن توجه داشته باشند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]