با Sora، متنهای شما به ویدئوهای واقعی تبدیل میشوند
در یک گزارش فنی اخیر، OpenAI از Sora، یک مدل پیشرفته برای تبدیل متن به ویدئو، رونمایی کرده است. Sora به دلیل توانایی تولید ویدئوها و تصاویر در طیف گستردهای از مدتزمان، نسبت ابعاد و وضوح تصویر برجسته است و میتواند تا یک دقیقه محتوای ویدئویی باکیفیت بالا تولید کند.
مدلهای زبانی بزرگ (LLMs) با آموزش بر روی حجم عظیمی از دادههای اینترنتی، قابلیتهای چشمگیری از خود نشان دادهاند. این مدلها قادرند انواع مختلفی از متون، از جمله کد، معادلات ریاضی و زبانهای طبیعی مختلف را پردازش کنند. بااینحال، تلاشهای پیشین در این حوزه معمولاً به انواع خاصی از محتوای بصری، ویدئوهای کوتاه یا ابعاد ثابت ویدئویی محدود بودهاند.
گزارش فنی OpenAI به دو جنبه کلیدی میپردازد:
• روشهای تبدیل دادههای بصری متنوع به یک نمایش منسجم که برای مدلسازی مولد در مقیاس بزرگ مناسب باشد.
• ارزیابی کیفی تواناییها و محدودیتهای Sora
با این حال جزئیات معماری مدل و پیادهسازی آن در این گزارش منتشر نشده است.
Sora چگونه کار میکند؟
Sora بر اساس اصول مدلسازی انتشار (Diffusion Modeling) کار میکند. در این فرآیند، تولید ویدئو با فریمی که شبیه به نویز ایستا است آغاز شده و مدل بهصورت تدریجی نویز را حذف کرده و تصویر را در چندین مرحله پالایش میکند.
این مدل با تکیه بر نوآوریهای قبلی در مدلهایی مانند DALL·E و GPT طراحی شده است. Sora از تکنیک بازنویسی توضیحات (Recaptioning) که در DALL·E 3 معرفی شده بود، استفاده میکند تا شرحهای بسیار دقیق و توصیفی برای دادههای آموزشی بصری تولید کند. در نتیجه، این مدل میتواند دستورالعملهای متنی را بهطور دقیق در محتوای ویدئویی ایجادشده اجرا کند.
ویژگیهای کلیدی Sora
تولید ویدئو از متن: Sora قادر است ویدئوهایی با کیفیت بالا را از ورودیهای متنی تولید کند.
متحرکسازی تصاویر ثابت: این مدل میتواند تصاویر ایستا را با دقت بالا متحرک کند و جزئیات ظریفی را به آنها بیافزاید.
تکمیل ویدئوهای ناقص: Sora میتواند ویدئوهای موجود را گسترش داده یا فریمهای ازدسترفته را پر کند، بهطوریکه خروجی نهایی یکپارچگی و روانی بیشتری داشته باشد.
درک عمیقتر از دنیای واقعی: این مدل، گامی در جهت توسعه هوش مصنوعی عمومی (AGI) محسوب میشود و میتواند درک بهتری از محیط واقعی و شبیهسازی آن ارائه دهد.
بهطورکلی، Sora پایهگذار نسل جدیدی از مدلهای هوش مصنوعی است که درک و شبیهسازی عمیقتری از دنیای واقعی دارند و مسیر را برای دستیابی به هوش مصنوعی عمومی (AGI) هموارتر میکنند.