Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

زمان مطالعه: 2 دقیقه

در یک گزارش فنی اخیر، OpenAI از Sora، یک مدل پیشرفته برای تبدیل متن به ویدئو، رونمایی کرده است. Sora به دلیل توانایی تولید ویدئوها و تصاویر در طیف گسترده‌ای از مدت‌زمان، نسبت ابعاد و وضوح تصویر برجسته است و می‌تواند تا یک دقیقه محتوای ویدئویی باکیفیت بالا تولید کند.

مدل‌های زبانی بزرگ (LLMs) با آموزش بر روی حجم عظیمی از داده‌های اینترنتی، قابلیت‌های چشمگیری از خود نشان داده‌اند. این مدل‌ها قادرند انواع مختلفی از متون، از جمله کد، معادلات ریاضی و زبان‌های طبیعی مختلف را پردازش کنند. بااین‌حال، تلاش‌های پیشین در این حوزه معمولاً به انواع خاصی از محتوای بصری، ویدئوهای کوتاه یا ابعاد ثابت ویدئویی محدود بوده‌اند.


گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:


• روش‌های تبدیل داده‌های بصری متنوع به یک نمایش منسجم که برای مدل‌سازی مولد در مقیاس بزرگ مناسب باشد.
• ارزیابی کیفی توانایی‌ها و محدودیت‌های Sora
با این حال جزئیات معماری مدل و پیاده‌سازی آن در این گزارش منتشر نشده است.


Sora چگونه کار می‌کند؟


Sora بر اساس اصول مدل‌سازی انتشار (Diffusion Modeling) کار می‌کند. در این فرآیند، تولید ویدئو با فریمی که شبیه به نویز ایستا است آغاز شده و مدل به‌صورت تدریجی نویز را حذف کرده و تصویر را در چندین مرحله پالایش می‌کند.
این مدل با تکیه بر نوآوری‌های قبلی در مدل‌هایی مانند DALL·E و GPT طراحی شده است. Sora از تکنیک بازنویسی توضیحات (Recaptioning) که در DALL·E 3 معرفی شده بود، استفاده می‌کند تا شرح‌های بسیار دقیق و توصیفی برای داده‌های آموزشی بصری تولید کند. در نتیجه، این مدل می‌تواند دستورالعمل‌های متنی را به‌طور دقیق در محتوای ویدئویی ایجاد‌شده اجرا کند.


ویژگی‌های کلیدی Sora


تولید ویدئو از متن: Sora قادر است ویدئوهایی با کیفیت بالا را از ورودی‌های متنی تولید کند.
متحرک‌سازی تصاویر ثابت: این مدل می‌تواند تصاویر ایستا را با دقت بالا متحرک کند و جزئیات ظریفی را به آن‌ها بی‌افزاید.
تکمیل ویدئوهای ناقص: Sora می‌تواند ویدئوهای موجود را گسترش داده یا فریم‌های از‌دست‌رفته را پر کند، به‌طوری‌که خروجی نهایی یکپارچگی و روانی بیشتری داشته باشد.
درک عمیق‌تر از دنیای واقعی: این مدل، گامی در جهت توسعه هوش مصنوعی عمومی (AGI) محسوب می‌شود و می‌تواند درک بهتری از محیط واقعی و شبیه‌سازی آن ارائه دهد.
به‌طورکلی، Sora پایه‌گذار نسل جدیدی از مدل‌های هوش مصنوعی است که درک و شبیه‌سازی عمیق‌تری از دنیای واقعی دارند و مسیر را برای دستیابی به هوش مصنوعی عمومی (AGI) هموارتر می‌کنند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]