هوش مصنوعی جدید متا، تبدیل‌گر متن به ویدئو

تیم تحریریه
۳۰ مهر ۱۴۰۱
زمان مطالعه 3 دقیقه

شرکت متا به‌تازگی از یک سیستم تبدیل‌گر متن به ویدئو در هوش مصنوعی رونمایی کرده است که بر اساس دستورهای نوشتاری، ویدئوهای کوتاه تولید می‌کند.

سیستم ویدئوسازِ متا، به کاربران اجازه می‌دهد تا رشته‌ای از کلمات را تایپ کنند و با کمک تبدیل‌گر متن به ویدئو ویدئوی کوتاهی تحویل بگیرند؛ برای نمونه، اگر تایپ کنید «سگی که لباس ابرقهرمان‌ها را پوشیده و در آسمان پرواز می‌کند»، ویدئویی مثل تصویر متحرک زیر را دریافت می‌کنید.

فهرست مقاله پنهان

1 هوش مصنوعی متا، خالق تصاویر متحرک

2 هوش مصنوعی مولد، مسائل اخلاقی زیادی به همراه دارد

هوش مصنوعی متا، خالق تصاویر متحرک

با کمک هوش مصنوعی متا و تبدیل‌گر متن به ویدئو با این‌که تصویر نهایی وضوح بالایی ندارد، سیستم مذکور را می‌توان گوشه‌ای از آینده هوش مصنوعی مولد دانست که مسیر پیش روی سیستم‌های تبدیل متن به تصویر را نشان می‌دهد.

اعلامیه‌ جدید این شرکت در مورد هوش مصنوعی متا و سیستم تبدیل‌گر متن به ویدئو Make-A-Video، احتمالاً باعث می‌شود تا سایر آزمایشگاه‌های هوش مصنوعی نیز نسخه‌های مشابهی از این سیستم ارائه دهند. البته، ورای این موضوعات، سیستم مذکور مسائل اخلاقی نیز به همراه دارد.

تنها طی یک ماه گذشته، آزمایشگاه هوش مصنوعی OpenAI جدیدترین سیستم تبدیل متن به تصویر خود را به نام DALL-E منتشر کرد و استارتاپ هوش مصنوعی Stability.AI نیز سیستم متن‌باز تبدیل متن به تصویر Diffusion را معرفی کرد.

با این حال، تبدیل متن به ویدئو چالش‌های بیشتری به همراه دارد. به عنوان مثال، از آن‌جایی که ساخت ویدئو به صدها تصویر نیاز دارد، توان محاسباتی این مدل‌های تبدیل‌گر متن به ویدئو به‌شدت بالاست و از این نظر، حتی از مدل‌های بزرگ تبدیل متن به تصویر هم پیشی می‌گیرد. در نتیجه، تنها غول‌های فناوری مانند هوش مصنوعی متا خواهند بود که در آینده نزدیک، می‌توانند از پس هزینه‌های این سیستم‌ها برآیند. از سوی دیگر، آموزش این سیستم‌ها هم مسئله‌ چالش‌برانگیزتری به شمار می‌رود، چون تعداد دیتاست‌هایی که ویدئوهای باکیفیت را با متون مرتبط جفت کرده‌ باشند، زیاد نیست.

هوش مصنوعی متا برای حل این مشکل در تبدیل‌گر متن به ویدئو، داده‌های مربوط به سه دیتاست تصویری و ویدئویی متن‌باز را با هم ترکیب کرد، تا برای آموزش مدلش به کار ببرد. دیتاست‌های استاندارد تبدیل‌گر متن به تصویر که تصاویر ثابت برچسب‌دار داشتند، به مدل کمک کردند، تا نام و شکل اشیاء را بیاموزد. سپس، دیتابیسی از ویدئوهای مختلف به آن کمک کرد تا شیوه حرکت اشیاء را یاد بگیرد. ترکیب این دو رویکرد به سیستم «تبدیل‌گر متن به ویدئو» اجازه داد تا در مقیاسی گسترده، از روی متون نوشتاری ویدئو تولید کند.

هوش مصنوعی مولد، مسائل اخلاقی زیادی به همراه دارد

تانمی گوپتا، متخصص هوش مصنوعی مولد و بینایی ماشین از مؤسسه هوش مصنوعی آلن، گفته که دستاوردهای متا در تبدیل‌گر متن به ویدئو امیدوارکننده ‌است. ویدئوهایی که این سیستمِ هوش مصنوعی مولد تولید کرده است، حاکی از قابلیت مدل در درک مفهوم عمق و نور هستند. گوپتا همچنین به جزئیات و حرکات ظریف موجود در ویدئوها اشاره می‌کند که برای بیننده قانع‌کننده هستند.

وی ادامه می‌دهد: «با این وجود، جامعه پژوهشی هنوز جای زیادی برای پیشرفت دارد، به‌ویژه اگر قرار باشد این سیستم‌ها در ویرایش ویدئو و تولید محتوای حرفه‌ای به کار بروند.»

از سوی دیگر، برای تبدیل‌گر متن به ویدئو، مدل‌سازیِ تعاملاتِ بینِ اشیاء، هنوز مسئله‌ای دشوار به نظر می‌رسد. در ویدئویی که طبق دستور «قلم‌مویی که روی بوم نقاشی می‌کشد» ساخته شده است، قلم‌مو روی بوم حرکت می‌کند، اما ضربه‌های روی بوم واقع‌گرایانه نیستند. گوپتا در این باره می‌گوید: «دوست دارم این مدل‌ها در تولید دنباله‌ای از تعاملات متوالی نیز موفق عمل کنند؛ برای مثال، بتوانند ویدئویی برای این دستور بسازند: «مرد کتاب را از قفسه برمی‌دارد، عینکش را به چشم می‌زند و می‌نشیند تا همزمان با نوشیدن قهوه‌اش، کتاب را بخواند».

متا وعده داده است که این فناوری هوش مصنوعی مولد می‌تواند فرصت‌های جدیدی پیش روی تولیدکنندگان و هنرمندان قرار دهد. اما هرچه فناوری «تبدیل‌گر متن به ویدئو» بیشتر پیشرفت می‌کند، ترس از این مسئله هم بیشتر می‌شود که به عنوان ابزاری قدرتمند برای تولید و انتشار اطلاعات جعلی به‌کار برود. با گذرِ زمان، تمایز بین محتوای آنلاینِ واقعی و جعلی، دشوارتر خواهد شد.

هنری اجر، متخصص رسانه‌های ساختگی، معتقد است: «مدل جدید متا در هوش مصنوعی مولد، نه‌تنها از نظر فنی و خلاقانه، بلکه از نظر آسیب‌های احتمالی نیز عرصه را بالا برده ‌است. خطرات ناشی از ویدئوهای ساختگی با خطرات ناشی از تصاویر ساختگی متفاوت هستند.»

گوپتا اضافه می‌کند: «در حال حاضر با کمک تبدیل‌گر متن به ویدئو، تولید محتوای غیرواقعی که برای مردم قابل‌باور باشد، کار دشواری است و دست‌کم به مقداری تلاش نیاز دارد. اما در آینده، با فشردن چند کلید می‌توان به‌راحتی محتوای گمراه‌کننده تولید کرد.»

یکی از سخنگوهای هوش مصنوعی مولد در متا گفته که هنوز قصد ندارند مدل «تبدیل‌گر متن به ویدئو» را در اختیار عموم قرار دهند و به‌عنوان «بخشی از پژوهش»، همچنان به دنبال کاهش خطرات احتمالی و ارتقای سیستم خواهند بود.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید