علیبابا مدعی شد: مدل جدید هوش مصنوعی ما از دیپسیک کارآمدتر است
شرکت چینی علیبابا روز ۱۰ بهمن نسخه جدید مدل هوش مصنوعی Qwen 2.5 را عرضه کرد و مدعی شد که این مدل از دیپسیک و دیگر مدلهای پیشرو، از جمله جیپیتی۴ و لاما ۳٫۱، کارآمدتر است.
براساس اعلام علیبابا، مدل جدید هوش مصنوعی این شرکت، Qwen 2.5 ، در بنچمارکهایی مانند Arena-Hard، LiveCodeBench و GPQA-Diamond از دیپ سیک بهتر عمل میکند و در دیگر بنچمارکها نیز تقریباً همسطح مدل دیپسیک است. همچنین این شرکت میگوید که مدلش از جیپیتی۴ و لاما ۳٫۱ در بخشهای مختلفی عملکرد بهتری دارد.
مدل Qwen 2.5 یک مدل MoE (ترکیب متخصصان) در مقیاس بزرگ است که بر روی بیش از ۲۰ تریلیون توکن و با روشهای تنظیم دقیق نظارتشده و یادگیری تقویتی از بازخورد انسانی آموزش دیده است. درکل رویکرد MoE کمک میکند تا هوش مصنوعی بدون خوشههای GPU عظیم به دست آید و هزینههای زیرساخت را ۴۰ تا ۶۰ درصد نسبت به سایر رویکردهای مدلهای زبانی بزرگ کاهش داد.
اکنون میتوانید به API این مدل در علیبابا کلود دسترسی داشته باشید. همچنین این مدل قدرتمند در گوئن چت منتشر شده است که در آن میتوانید عکس و ویدیو نیز تولید کنید.
مدل جدید علیبابا و البته دیپ سیک نشان میدهند که بهجای سرمایهگذاری هنگفت در ایجاد مراکز داده و خوشههای GPU بزرگ میتوان با بهینهسازی معماری هوش مصنوعی مدلهایی کمهزینه و کارآمد توسعه داد.
البته فقط عملکرد خوب در بنچمارکها کافی نیست تا یک مدل هوش مصنوعی در بین کاربران محبوب شود. رعایت حریم خصوصی دادههای کاربران، ارائه API قابلاطمینان و پشتیبانی طولانیمدت نیز از عوامل تأثیرگذار هستند. درکل اکنون باید دید که آیا مدل جدید علیبابا میتواند در رقابت با دیپسیک و شرکتهای آمریکایی عملکرد قابلقبولی داشته باشد یا خیر.