Wan 2.1؛ غول جدید تولید ویدیو از چین وارد میدان شد

نگار علی
۱۷ اسفند ۱۴۰۳

زمان مطالعه: 2 دقیقه

غول فناوری چینی، علی‌بابا، مدل هوش مصنوعی Wan 2.1 را به‌عنوان یک مدل پایه متن‌باز برای تولید ویدیو منتشر کرده و کدهای آن را در دسترس عموم قرار داده است. این مدل قادر است ویدیوهایی با حرکات پیچیده تولید کند که به‌طور دقیق فیزیک دنیای واقعی را شبیه‌سازی می‌کنند.

علی‌بابا در پست وبلاگی خود اعلام کرد:« Wan 2.1 در تمامی آزمون‌های معیار، از مدل‌های متن‌باز موجود بهتر عمل می‌کند.»

این شرکت چندین مدل بهینه‌شده برای تولید ویدیو را معرفی کرده که شامل قابلیت‌هایی نظیر تبدیل متن به ویدیو، تصویر به ویدیو، ویرایش ویدیو، متن به تصویر و ویدیو به صدا می‌شوند. این مجموعه شامل سه مدل اصلی است:

Wan2.1-I2V-14B
Wan2.1-T2V-14B
Wan2.1-T2V-1.3B

مدل I2V-14B قادر به تولید ویدیوهایی با وضوح ۴۸۰p و ۷۲۰p است و می‌تواند صحنه‌های بصری پیچیده و الگوهای حرکتی دقیق ایجاد کند.

مدل T2V-14B نیز از وضوح مشابهی پشتیبانی می‌کند و تنها مدل ویدیویی موجود است که می‌تواند هم متون چینی و هم انگلیسی را تولید کند.

مدل T2V-1.3B برای کارت‌های گرافیکی معمولی (Consumer-Grade GPUs) طراحی شده و می‌تواند با ۸.۱۹ گیگابایت VRAM یک ویدیوی ۵ ثانیه‌ای با کیفیت ۴۸۰p را در ۴ دقیقه روی کارت گرافیک RTX 4090 تولید کند.

فهرست مقاله پنهان

1 عملکرد بهتر از Sora اوپن‌ای‌آی

2 نوآوری‌های فنی Wan 2.1

3 عملکرد سریع‌تر از HunYuanVideo

4 فناوری‌های کلیدی مورد استفاده در Wan 2.1

5 سرمایه‌گذاری ۵۲ میلیارد دلاری در هوش مصنوعی

عملکرد بهتر از Sora اوپن‌ای‌آی

این مدل در جدول رتبه‌بندی VBench که کیفیت تولید ویدیو را در ۱۶ معیار مختلف مانند یکپارچگی هویت سوژه، روان بودن حرکت، لرزش‌های زمانی و روابط فضایی ارزیابی می‌کند، عملکرد بهتری نسبت به Sora اوپن‌ای‌آی داشته است.

نوآوری‌های فنی Wan 2.1

علی‌بابا اعلام کرده است که پیشرفت‌های فنی این مدل بر پایه چندین فناوری کلیدی بنا شده است، از جمله:

یک رمزگذار خودکار واریاسیونال (VAE) سه‌بعدی جدید برای تولید ویدیو

استراتژی‌های پیش‌آموزش مقیاس‌پذیر

ساخت مجموعه‌داده‌های عظیم

استفاده از روش‌های ارزیابی خودکار

این مدل با بهره‌گیری از معماری جدید 3D Causal VAE، حافظه‌ی موردنیاز را کاهش داده و در عین حال توالی زمانی حرکات را بهتر حفظ می‌کند.

عملکرد سریع‌تر از HunYuanVideo

تست‌های عملکردی نشان می‌دهند که رمزگذار واریاسیونال Wan 2.1 ویدیوها را با سرعتی ۲.۵ برابر سریع‌تر از مدل HunYuanVideo روی کارت گرافیک A800 بازسازی می‌کند. علی‌بابا می‌گوید:«این برتری سرعتی در وضوح‌های بالاتر بیشتر نمایان خواهد شد، زیرا مدل VAE ما کوچک‌تر طراحی شده و از مکانیسم کش ویژگی (Feature Cache) بهره می‌برد.»

فناوری‌های کلیدی مورد استفاده در Wan 2.1

استفاده از فریم‌ورک Flow Matching در معماری Diffusion Transformer (DiT)

ادغام رمزگذار T5 برای پردازش ورودی‌های متنی چندزبانه با استفاده از مکانیسم توجه متقاطع (Cross-Attention)

گردآوری و حذف داده‌های تکراری از میان ۱.۵ میلیارد ویدیو و ۱۰ میلیارد تصویر برای بهبود کیفیت آموزش مدل

سرمایه‌گذاری ۵۲ میلیارد دلاری در هوش مصنوعی

علی‌بابا اخیراً مدل QwQ-Max-Preview را در خانواده هوش مصنوعی Qwen AI منتشر کرده است. این شرکت قصد دارد بیش از ۵۲ میلیارد دلار در زمینه رایانش ابری و هوش مصنوعی طی سه سال آینده سرمایه‌گذاری کند.

به نظر می‌رسد رقابت در دنیای مدل‌های تولید ویدیو میان غول‌های فناوری، روزبه‌روز هیجان‌انگیزتر می‌شود!

https://hooshio.com/?p=66044

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

Wan 2.1؛ غول جدید تولید ویدیو از چین وارد میدان شد

عملکرد بهتر از Sora اوپن‌ای‌آی

نوآوری‌های فنی Wan 2.1

عملکرد سریع‌تر از HunYuanVideo

فناوری‌های کلیدی مورد استفاده در Wan 2.1

سرمایه‌گذاری ۵۲ میلیارد دلاری در هوش مصنوعی

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

هوش مصنوعی کدام مشاغل را نشانه رفته است؟

ابزار و فضای کاری Prism

Crypto.com دامنه AI.com را خرید

غلبه بر چالش‌های علمی

در جست‌وجوی ابرنواختر

۵ تکنیک حرفه‌ای برای استفاده حداکثری از NotebookLM

آیا یک هوش مصنوعی می‌تواند تصادفاً همه ما را به گیره کاغذ تبدیل کند؟

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

دستیار هوش مصنوعی وزارت صمت به بهره‌برداری اولیه رسید

طرح ملی توسعه هوش اصلاح شد

هوش مصنوعی کدام مشاغل را نشانه رفته است؟

ابزار و فضای کاری Prism

Crypto.com دامنه AI.com را خرید

Qwen-3 در فضا

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

غلبه بر چالش‌های علمی

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

هوش مصنوعی کدام مشاغل را نشانه رفته است؟

ابزار و فضای کاری Prism

در جست‌وجوی ابرنواختر

عملکرد بهتر از Sora اوپن‌ای‌آی

نوآوری‌های فنی Wan 2.1

عملکرد سریع‌تر از HunYuanVideo

فناوری‌های کلیدی مورد استفاده در Wan 2.1

سرمایه‌گذاری ۵۲ میلیارد دلاری در هوش مصنوعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید