
Wan 2.1؛ غول جدید تولید ویدیو از چین وارد میدان شد
غول فناوری چینی، علیبابا، مدل هوش مصنوعی Wan 2.1 را بهعنوان یک مدل پایه متنباز برای تولید ویدیو منتشر کرده و کدهای آن را در دسترس عموم قرار داده است. این مدل قادر است ویدیوهایی با حرکات پیچیده تولید کند که بهطور دقیق فیزیک دنیای واقعی را شبیهسازی میکنند.
علیبابا در پست وبلاگی خود اعلام کرد:« Wan 2.1 در تمامی آزمونهای معیار، از مدلهای متنباز موجود بهتر عمل میکند.»
این شرکت چندین مدل بهینهشده برای تولید ویدیو را معرفی کرده که شامل قابلیتهایی نظیر تبدیل متن به ویدیو، تصویر به ویدیو، ویرایش ویدیو، متن به تصویر و ویدیو به صدا میشوند. این مجموعه شامل سه مدل اصلی است:
- Wan2.1-I2V-14B
- Wan2.1-T2V-14B
- Wan2.1-T2V-1.3B
مدل I2V-14B قادر به تولید ویدیوهایی با وضوح ۴۸۰p و ۷۲۰p است و میتواند صحنههای بصری پیچیده و الگوهای حرکتی دقیق ایجاد کند.
مدل T2V-14B نیز از وضوح مشابهی پشتیبانی میکند و تنها مدل ویدیویی موجود است که میتواند هم متون چینی و هم انگلیسی را تولید کند.
مدل T2V-1.3B برای کارتهای گرافیکی معمولی (Consumer-Grade GPUs) طراحی شده و میتواند با ۸.۱۹ گیگابایت VRAM یک ویدیوی ۵ ثانیهای با کیفیت ۴۸۰p را در ۴ دقیقه روی کارت گرافیک RTX 4090 تولید کند.
عملکرد بهتر از Sora اوپنایآی
این مدل در جدول رتبهبندی VBench که کیفیت تولید ویدیو را در ۱۶ معیار مختلف مانند یکپارچگی هویت سوژه، روان بودن حرکت، لرزشهای زمانی و روابط فضایی ارزیابی میکند، عملکرد بهتری نسبت به Sora اوپنایآی داشته است.

نوآوریهای فنی Wan 2.1
علیبابا اعلام کرده است که پیشرفتهای فنی این مدل بر پایه چندین فناوری کلیدی بنا شده است، از جمله:
یک رمزگذار خودکار واریاسیونال (VAE) سهبعدی جدید برای تولید ویدیو
استراتژیهای پیشآموزش مقیاسپذیر
ساخت مجموعهدادههای عظیم
استفاده از روشهای ارزیابی خودکار
این مدل با بهرهگیری از معماری جدید 3D Causal VAE، حافظهی موردنیاز را کاهش داده و در عین حال توالی زمانی حرکات را بهتر حفظ میکند.
عملکرد سریعتر از HunYuanVideo
تستهای عملکردی نشان میدهند که رمزگذار واریاسیونال Wan 2.1 ویدیوها را با سرعتی ۲.۵ برابر سریعتر از مدل HunYuanVideo روی کارت گرافیک A800 بازسازی میکند. علیبابا میگوید:«این برتری سرعتی در وضوحهای بالاتر بیشتر نمایان خواهد شد، زیرا مدل VAE ما کوچکتر طراحی شده و از مکانیسم کش ویژگی (Feature Cache) بهره میبرد.»
فناوریهای کلیدی مورد استفاده در Wan 2.1
استفاده از فریمورک Flow Matching در معماری Diffusion Transformer (DiT)
ادغام رمزگذار T5 برای پردازش ورودیهای متنی چندزبانه با استفاده از مکانیسم توجه متقاطع (Cross-Attention)
گردآوری و حذف دادههای تکراری از میان ۱.۵ میلیارد ویدیو و ۱۰ میلیارد تصویر برای بهبود کیفیت آموزش مدل
سرمایهگذاری ۵۲ میلیارد دلاری در هوش مصنوعی
علیبابا اخیراً مدل QwQ-Max-Preview را در خانواده هوش مصنوعی Qwen AI منتشر کرده است. این شرکت قصد دارد بیش از ۵۲ میلیارد دلار در زمینه رایانش ابری و هوش مصنوعی طی سه سال آینده سرمایهگذاری کند.
به نظر میرسد رقابت در دنیای مدلهای تولید ویدیو میان غولهای فناوری، روزبهروز هیجانانگیزتر میشود!