هوش مصنوعی FantasyTalking رونمایی شد: تولید ویدیوهای سخنگو از یک تصویر

نگار علی
۲۹ فروردین ۱۴۰۴

زمان مطالعه: < 1 دقیقه

هوش مصنوعی FantasyTalking، توسعه‌یافته توسط محققان چینی، توانایی تولید ویدیوهای واقع‌گرایانه از یک تصویر پرتره ثابت و فایل صوتی را دارد.

این مدل با بهره‌گیری از معماری Video Diffusion Transformer و استراتژی دو مرحله‌ای، در مرحله اول حرکات کلی چهره، بدن و پس‌زمینه را با صدا هماهنگ می‌کند و در مرحله دوم، با استفاده از ماسک‌های خاص، حرکات لب‌ها را فریم‌به‌فریم تنظیم می‌کند تا هماهنگی دقیقی با صدا داشته باشد.

این ویژگی‌ها باعث شده تا FantasyTalking در تولید آواتارهای سخنگو با کیفیت بالا و حفظ هویت چهره عملکردی برجسته داشته باشد.

این مدل از ماژول‌های کنترلی برای تنظیم شدت حرکات چهره و بدن استفاده می‌کند و امکان تولید ویدیوهایی با زوایای متنوع (نزدیک، نیم‌تنه، تمام‌قد)، استایل‌های گرافیکی مختلف (واقع‌گرایانه یا کارتونی) و حتی متحرک‌سازی حیوانات را فراهم می‌آورد.

در مقایسه با روش‌های پیشرفته مانند OmniHuman-1، FantasyTalking از نظر واقع‌گرایی، انسجام حرکتی و تطابق صوتی-تصویری برتری دارد و به دلیل استفاده از مکانیزم‌های مبتنی‌بر چهره، نتایجی طبیعی‌تر ارائه می‌دهد.

این فناوری گامی بزرگ در حوزه گرافیک و بینایی ماشین محسوب می‌شود.

https://hooshio.com/?p=67359

هوش مصنوعی FantasyTalking رونمایی شد: تولید ویدیوهای سخنگو از یک تصویر

گزارش گاردین از نفوذ اطلاعات غلط «گروکی‌پدیا» به پاسخ‌های هوش مصنوعی OpenAI

سئو نمرده، فقط «ربات‌فهم» شده است

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

هوش مصنوعی چه معنایی برای مشاغل ما دارد

هوش مصنوعی در دادگاه

هوش مصنوعی بومی زیر ذره‌بین

هوش مصنوعی بومی زیر ذره‌بین

ChatGPT و deepseek در برخی اپراتورها در دسترس قرار گرفتند

معرفی برترین سرویس‌های بومی

بن‌بست هوش مصنوعی بومی در روزهای قطعی اینترنت؛ سخت‌افزار ملی، وعده‌ای که محقق نشد

گزارش گاردین از نفوذ اطلاعات غلط «گروکی‌پدیا» به پاسخ‌های هوش مصنوعی OpenAI

سئو نمرده، فقط «ربات‌فهم» شده است

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

گزارش گاردین از نفوذ اطلاعات غلط «گروکی‌پدیا» به پاسخ‌های هوش مصنوعی OpenAI

سئو نمرده، فقط «ربات‌فهم» شده است

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید