انویدیا از معماری هیبریدی جدید خود برای مدلهای زبان کوچک به نام Hymba رونمایی کرد
انویدیا (NVIDIA) از مدل زبان کوچک Hymba-1.5B-Base رونمایی کرد، مدلی که مکانیزمهای توجه ترنسفورمر را با مدلهای فضای حالت (SSM) ترکیب میکند. این معماری هیبریدی با هدف افزایش کارایی در وظایف پردازش زبان طبیعی طراحی شده است.
«پاول مولچانوف»، دانشمند و مدیر تحقیقاتی در NVIDIA، این پیشرفت جدید را در پلتفرم X اعلام کرد. او در توییتر نوشت: «کار جدید تیم ما را در مورد Hymba به اشتراک میگذاریم، یک مدل زبان کوچک و کارآمد با معماری هیبریدی.»
همچنین او گزارشی فنی از این تحقیق منتشر کرده و توضیح داده است که تفاوتهای میان مدلهای Mamba و Attention چیست و چگونه میتوان این دو مدل را ترکیب کرد. او همچنین به پدیدههایی مانند attention sink و forced-to-attend اشاره کرده است.
این مدل از یک ساختار دوگانه استفاده میکند که یکی از بخشها وظیفه بازیابی دقیق اطلاعات را بر عهده دارد و بخش دیگر به خلاصهسازی متن بهصورت مؤثر کمک میکند.
همچنین مدل Hymba توکنهای قابلیادگیری را در ابتدای ورودیها اضافه میکند تا اطلاعات مهم را ذخیره کند و نیاز به پردازشهای اضافی را کاهش دهد. در نهایت، Hymba برای افزایش کارایی حافظه و سرعت محاسبات، از روشهایی مانند اشتراکگذاری دادهها بین لایهها و استفاده از یک نوع خاص از پردازش اطلاعات بهره میبرد که در آن مدل فقط به بخشهای خاصی از دادهها تمرکز میکند و بقیه بخشها را نادیده میگیرد.
مقالهای با عنوان «Hymba: A Hybrid-head Architecture for Small Language Models» به طور کامل طراحی، عملکرد و کاربردهای این مدل را توضیح داده است.
Hymba از مدل Llama-3.2 پیشی میگیرد
در یک مطالعه کنترلشده که در آن معماریهای مختلف تحت شرایط یکسان مقایسه شدند، Hymba-1.5B-Base مزایای قابلتوجهی را نشان داد. در واقع این مدل توانست تمامی مدلهای عمومی با کمتر از 2 میلیارد پارامتر را پشت سر بگذارد.
مدل Hymba در مقایسه با Llama-3.2-3B بهاندازه 1.32درصد دقت بالاتری داشت، حجم کش (حافظه موقت) را 11.67 برابر کاهش داد و سرعت پردازش را 3.49 برابر افزایش داد.
«فیلیپ اشمید»، سرپرست فنی و مسئول مدلهای زبان بزرگ در Hugging Face، درباره این موضوع گفت: «Hymba از دیگر مدلهای زبان کوچک مانند Meta 3.2 یا SmolLM v2 که تنها با 1.5 تریلیون توکن آموزش دیدهاند، عملکرد بهتری دارد.»
«پاول مولچانوف» هم در این باره گفت: «نمیدانم باید از آموزش با 1.5 تریلیون توکن به خود ببالیم یا نه چون هدف ما این است که سریع پیش برویم و احتمالاً در دو هفته آینده کسی مدل بهتری خواهد داشت.»
همچنین NVIDIA اسکریپتی برای راهاندازی محیط کاری ارائه کرده است که تنظیمات محیط را تسهیل میکند و از نسخههای CUDA 12.1 و 12.4 پشتیبانی میکند.
اما احتیاط!
انویدیا اعلام کرده که این مدل با استفاده از دادههای اینترنتی آموزش دیده است. در واقع این دادهها ممکن است شامل مطالب توهینآمیز، محتوای ناامن و تبعیضهای اجتماعی باشند، به همین دلیل مدل Hymba ممکن است این مشکلات را بازتاب دهد، به سؤالات توهینآمیز پاسخهای توهینآمیز بدهد یا حتی در پاسخ به سؤالات بیطرف، متن اشتباه یا بیربط تولید کند.
کاربران باید هنگام تولید، اندازه دسته دادهها را روی یک تنظیم کنند، چون تنظیمات فعلی به طور کامل از روش خاصی برای پردازش دادهها پشتیبانی نمیکند. با این حال، برای آموزش مدل و پر کردن دادهها، میتوان از هر اندازه دسته داده استفاده کرد.
شرکت تأکید دارد که همه افراد باید در ایجاد هوش مصنوعی قابلاعتماد نقش مشترک و مسئولیتپذیری داشته باشند. همچنین دستورالعملهای اخلاقی مشخصی برای توسعه این فناوری تعیین شده است. علاوه بر این، از کاربران خواسته شده که مدل را به طور مسئولانه استفاده کنند و به محدودیتهای آن توجه داشته باشند.