هوش مصنوعی جدید متا، تبدیلگر متن به ویدئو
شرکت متا بهتازگی از یک سیستم تبدیلگر متن به ویدئو در هوش مصنوعی رونمایی کرده است که بر اساس دستورهای نوشتاری، ویدئوهای کوتاه تولید میکند.
سیستم ویدئوسازِ متا، به کاربران اجازه میدهد تا رشتهای از کلمات را تایپ کنند و با کمک تبدیلگر متن به ویدئو ویدئوی کوتاهی تحویل بگیرند؛ برای نمونه، اگر تایپ کنید «سگی که لباس ابرقهرمانها را پوشیده و در آسمان پرواز میکند»، ویدئویی مثل تصویر متحرک زیر را دریافت میکنید.
هوش مصنوعی متا، خالق تصاویر متحرک
با کمک هوش مصنوعی متا و تبدیلگر متن به ویدئو با اینکه تصویر نهایی وضوح بالایی ندارد، سیستم مذکور را میتوان گوشهای از آینده هوش مصنوعی مولد دانست که مسیر پیش روی سیستمهای تبدیل متن به تصویر را نشان میدهد.
اعلامیه جدید این شرکت در مورد هوش مصنوعی متا و سیستم تبدیلگر متن به ویدئو Make-A-Video، احتمالاً باعث میشود تا سایر آزمایشگاههای هوش مصنوعی نیز نسخههای مشابهی از این سیستم ارائه دهند. البته، ورای این موضوعات، سیستم مذکور مسائل اخلاقی نیز به همراه دارد.
تنها طی یک ماه گذشته، آزمایشگاه هوش مصنوعی OpenAI جدیدترین سیستم تبدیل متن به تصویر خود را به نام DALL-E منتشر کرد و استارتاپ هوش مصنوعی Stability.AI نیز سیستم متنباز تبدیل متن به تصویر Diffusion را معرفی کرد.
با این حال، تبدیل متن به ویدئو چالشهای بیشتری به همراه دارد. به عنوان مثال، از آنجایی که ساخت ویدئو به صدها تصویر نیاز دارد، توان محاسباتی این مدلهای تبدیلگر متن به ویدئو بهشدت بالاست و از این نظر، حتی از مدلهای بزرگ تبدیل متن به تصویر هم پیشی میگیرد. در نتیجه، تنها غولهای فناوری مانند هوش مصنوعی متا خواهند بود که در آینده نزدیک، میتوانند از پس هزینههای این سیستمها برآیند. از سوی دیگر، آموزش این سیستمها هم مسئله چالشبرانگیزتری به شمار میرود، چون تعداد دیتاستهایی که ویدئوهای باکیفیت را با متون مرتبط جفت کرده باشند، زیاد نیست.
هوش مصنوعی متا برای حل این مشکل در تبدیلگر متن به ویدئو، دادههای مربوط به سه دیتاست تصویری و ویدئویی متنباز را با هم ترکیب کرد، تا برای آموزش مدلش به کار ببرد. دیتاستهای استاندارد تبدیلگر متن به تصویر که تصاویر ثابت برچسبدار داشتند، به مدل کمک کردند، تا نام و شکل اشیاء را بیاموزد. سپس، دیتابیسی از ویدئوهای مختلف به آن کمک کرد تا شیوه حرکت اشیاء را یاد بگیرد. ترکیب این دو رویکرد به سیستم «تبدیلگر متن به ویدئو» اجازه داد تا در مقیاسی گسترده، از روی متون نوشتاری ویدئو تولید کند.
هوش مصنوعی مولد، مسائل اخلاقی زیادی به همراه دارد
تانمی گوپتا، متخصص هوش مصنوعی مولد و بینایی ماشین از مؤسسه هوش مصنوعی آلن، گفته که دستاوردهای متا در تبدیلگر متن به ویدئو امیدوارکننده است. ویدئوهایی که این سیستمِ هوش مصنوعی مولد تولید کرده است، حاکی از قابلیت مدل در درک مفهوم عمق و نور هستند. گوپتا همچنین به جزئیات و حرکات ظریف موجود در ویدئوها اشاره میکند که برای بیننده قانعکننده هستند.
وی ادامه میدهد: «با این وجود، جامعه پژوهشی هنوز جای زیادی برای پیشرفت دارد، بهویژه اگر قرار باشد این سیستمها در ویرایش ویدئو و تولید محتوای حرفهای به کار بروند.»
از سوی دیگر، برای تبدیلگر متن به ویدئو، مدلسازیِ تعاملاتِ بینِ اشیاء، هنوز مسئلهای دشوار به نظر میرسد. در ویدئویی که طبق دستور «قلممویی که روی بوم نقاشی میکشد» ساخته شده است، قلممو روی بوم حرکت میکند، اما ضربههای روی بوم واقعگرایانه نیستند. گوپتا در این باره میگوید: «دوست دارم این مدلها در تولید دنبالهای از تعاملات متوالی نیز موفق عمل کنند؛ برای مثال، بتوانند ویدئویی برای این دستور بسازند: «مرد کتاب را از قفسه برمیدارد، عینکش را به چشم میزند و مینشیند تا همزمان با نوشیدن قهوهاش، کتاب را بخواند».
متا وعده داده است که این فناوری هوش مصنوعی مولد میتواند فرصتهای جدیدی پیش روی تولیدکنندگان و هنرمندان قرار دهد. اما هرچه فناوری «تبدیلگر متن به ویدئو» بیشتر پیشرفت میکند، ترس از این مسئله هم بیشتر میشود که به عنوان ابزاری قدرتمند برای تولید و انتشار اطلاعات جعلی بهکار برود. با گذرِ زمان، تمایز بین محتوای آنلاینِ واقعی و جعلی، دشوارتر خواهد شد.
هنری اجر، متخصص رسانههای ساختگی، معتقد است: «مدل جدید متا در هوش مصنوعی مولد، نهتنها از نظر فنی و خلاقانه، بلکه از نظر آسیبهای احتمالی نیز عرصه را بالا برده است. خطرات ناشی از ویدئوهای ساختگی با خطرات ناشی از تصاویر ساختگی متفاوت هستند.»
گوپتا اضافه میکند: «در حال حاضر با کمک تبدیلگر متن به ویدئو، تولید محتوای غیرواقعی که برای مردم قابلباور باشد، کار دشواری است و دستکم به مقداری تلاش نیاز دارد. اما در آینده، با فشردن چند کلید میتوان بهراحتی محتوای گمراهکننده تولید کرد.»
یکی از سخنگوهای هوش مصنوعی مولد در متا گفته که هنوز قصد ندارند مدل «تبدیلگر متن به ویدئو» را در اختیار عموم قرار دهند و بهعنوان «بخشی از پژوهش»، همچنان به دنبال کاهش خطرات احتمالی و ارتقای سیستم خواهند بود.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید