مدل جدید و سبک DeepSeek با یک کارت گرافیک اجرا میشود
آزمایشگاه هوش مصنوعی چینی DeepSeek نسخهای سبکشده از مدل استدلالی R1 خود را معرفی کرده که میتواند تنها با یک GPU اجرا شود. این مدل که با نام DeepSeek-R1-0528-Qwen3-8B منتشر شده، بر پایه مدل Qwen3-8B شرکت علیبابا ساخته شده و در برخی آزمونهای ریاضی، عملکردی بهتر از مدلهای همرده مانند Gemini 2.5 Flash گوگل از خود نشان داده است.
این مدل سبکشده که با بهرهگیری از دادههای تولیدشده توسط نسخه کامل R1 آموزش دیده، از نظر محاسباتی بهمراتب کمهزینهتر است و تنها به یک کارت گرافیک ۴۰ تا ۸۰ گیگابایتی نیاز دارد، در حالی که نسخه اصلی R1 به حدود ۱۲ کارت H100 نیاز دارد. DeepSeek این مدل را با مجوز MIT منتشر کرده که استفاده تجاری از آن را بدون محدودیت ممکن میسازد.