با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

نگار علی
۱۸ اسفند ۱۴۰۳

زمان مطالعه: 2 دقیقه

در یک گزارش فنی اخیر، OpenAI از Sora، یک مدل پیشرفته برای تبدیل متن به ویدئو، رونمایی کرده است. Sora به دلیل توانایی تولید ویدئوها و تصاویر در طیف گسترده‌ای از مدت‌زمان، نسبت ابعاد و وضوح تصویر برجسته است و می‌تواند تا یک دقیقه محتوای ویدئویی باکیفیت بالا تولید کند.

مدل‌های زبانی بزرگ (LLMs) با آموزش بر روی حجم عظیمی از داده‌های اینترنتی، قابلیت‌های چشمگیری از خود نشان داده‌اند. این مدل‌ها قادرند انواع مختلفی از متون، از جمله کد، معادلات ریاضی و زبان‌های طبیعی مختلف را پردازش کنند. بااین‌حال، تلاش‌های پیشین در این حوزه معمولاً به انواع خاصی از محتوای بصری، ویدئوهای کوتاه یا ابعاد ثابت ویدئویی محدود بوده‌اند.

فهرست مقاله پنهان

1 گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

2 Sora چگونه کار می‌کند؟

3 ویژگی‌های کلیدی Sora

گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

• روش‌های تبدیل داده‌های بصری متنوع به یک نمایش منسجم که برای مدل‌سازی مولد در مقیاس بزرگ مناسب باشد.
• ارزیابی کیفی توانایی‌ها و محدودیت‌های Sora
با این حال جزئیات معماری مدل و پیاده‌سازی آن در این گزارش منتشر نشده است.

Sora چگونه کار می‌کند؟

Sora بر اساس اصول مدل‌سازی انتشار (Diffusion Modeling) کار می‌کند. در این فرآیند، تولید ویدئو با فریمی که شبیه به نویز ایستا است آغاز شده و مدل به‌صورت تدریجی نویز را حذف کرده و تصویر را در چندین مرحله پالایش می‌کند.
این مدل با تکیه بر نوآوری‌های قبلی در مدل‌هایی مانند DALL·E و GPT طراحی شده است. Sora از تکنیک بازنویسی توضیحات (Recaptioning) که در DALL·E 3 معرفی شده بود، استفاده می‌کند تا شرح‌های بسیار دقیق و توصیفی برای داده‌های آموزشی بصری تولید کند. در نتیجه، این مدل می‌تواند دستورالعمل‌های متنی را به‌طور دقیق در محتوای ویدئویی ایجاد‌شده اجرا کند.

ویژگی‌های کلیدی Sora

تولید ویدئو از متن: Sora قادر است ویدئوهایی با کیفیت بالا را از ورودی‌های متنی تولید کند.
متحرک‌سازی تصاویر ثابت: این مدل می‌تواند تصاویر ایستا را با دقت بالا متحرک کند و جزئیات ظریفی را به آن‌ها بی‌افزاید.
تکمیل ویدئوهای ناقص: Sora می‌تواند ویدئوهای موجود را گسترش داده یا فریم‌های از‌دست‌رفته را پر کند، به‌طوری‌که خروجی نهایی یکپارچگی و روانی بیشتری داشته باشد.
درک عمیق‌تر از دنیای واقعی: این مدل، گامی در جهت توسعه هوش مصنوعی عمومی (AGI) محسوب می‌شود و می‌تواند درک بهتری از محیط واقعی و شبیه‌سازی آن ارائه دهد.
به‌طورکلی، Sora پایه‌گذار نسل جدیدی از مدل‌های هوش مصنوعی است که درک و شبیه‌سازی عمیق‌تری از دنیای واقعی دارند و مسیر را برای دستیابی به هوش مصنوعی عمومی (AGI) هموارتر می‌کنند.

https://hooshio.com/?p=66085

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

Sora چگونه کار می‌کند؟

ویژگی‌های کلیدی Sora

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

مهندسی پرامپت: راهنمای جامع از مبتدی تا پیشرفته

معرفی هوش مصنوعی سازمانی

از کدام چت‌بات‌های هوش مصنوعی استفاده کنیم؟

ضرورت بازنگری نقش کمیسیون هوش مصنوعی سازمان نصر ایران در سالگرد تأسیس

رونمایی از نخستین دستیار هوش مصنوعی قضایی ایران

ضرورت بازنگری نقش کمیسیون هوش مصنوعی سازمان نصر ایران در سالگرد تأسیس

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

GPT-5.2 به کشفی تازه در فیزیک نظری رسید

گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

Sora چگونه کار می‌کند؟

ویژگی‌های کلیدی Sora

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید