متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

تیم تحریریه
۲۷ تیر ۱۴۰۲

زمان مطالعه: 2 دقیقه

متا به پیشبرد تحقیقات خود در مورد اشکال جدید مدل‌های هوش مصنوعی مولد ادامه می‌دهد و امروز آخرین تلاش تحقیقاتی خود را با نشان دادن مدلی به نام CM3leon فاش کرد و مدعی است که این مدل در مقایسه با سایر نمونه‌های رقیب ازجمله مدل DALL-E 2، بهترین عملکرد را داراست.

به گزارش هوشیو، متا مدعی است که مدل هوش مصنوعی جدیدش با نام CM3Leon بهترین ابزار تبدیل متن به تصویر است. CM3leon یک مدل پایه چندوجهی برای تولید متن به تصویر و تصویر به متن است که به ویژه برای تولید خودکار زیرنویس برای تصاویر بسیار مفید است. براین اساس با توجه به ورودی تصویر، مدل می‌تواند یک عنوان متنی توصیفی ایجاد نماید که به طور دقیق محتوای تصویر را منعکس سازد.

بدیهی است که تصاویر تولید شده با هوش مصنوعی CM3leon در این مرحله مفهوم جدیدی نیستند، زیرا ابزارهای محبوبی مانند Stable Diffusion ،DALL-E و Midjourney به صورت گسترده در دسترس هستند. آنچه جدید است، تکنیک‌هایی است که متا برای ساخت CM3leon از آنها استفاده کرده و عملکردی که متا ادعا می‌کند، مدل پایه‌اش قادر به دستیابی به آن است.

بیشتر فناوری‌های فعلی تولید متن به تصویر، از نوعی مدل هوش مصنوعی به نام «مدل انتشار» برای تولید تصویر استفاده می‌کنند. CM3leon رویکرد متفاوتی برای تولید تصاویر از متن دارد. به جای استفاده از مدل انتشار، از یک مدل «خودرگرسیون مبتنی بر نشانه» استفاده می‌کند. این بدان معناست که CM3leon برای تولید یک تصویر با شکستن متن ورودی به واحدهای کوچکتر به نام «توکن» و سپس استفاده از یک روش خاص برای تولید هر توکن در یک دنباله طراحی شده، تا در نهایت خروجی تصویر را تولید نماید.

گروه پژوهشی متا در یک مقاله تحقیقاتی با عنوان مقیاس‌گذاری مدل‌های چندوجهی خودکار رگرسیون: پیش‌آموزش و تنظیم دستورالعمل نوشت: «مدل‌های انتشار اخیراً به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً کم، برای تولید تصاویر محبوب شده‌اند. در مقابل، مدل‌های اتورگرسیون مبتنی بر توکن می‌تواند نتایج بهتری را با تصاویر منسجم‌تر ایجاد کند، اما آموزش و استفاده آنها برای استنتاج بسیار گران‌تر است.»

کاری که محققان متا توانسته‌اند با CM3leon انجام دهند این است که نشان دهند چگونه مدل خودرگرسیون مبتنی بر توکن می‌تواند کارآمدتر از رویکرد مبتنی بر مدل انتشار باشد.

محقق Meta در یک پست وبلاگ نوشت:« CM3leonبا وجود آموزش تنها با یک پنجم منابع محاسباتی که توسط روش‌های قبلی مبتنی بر ترانسفورماتورها استفاده می‌شد، توانست به «عملکرد پیشرفته» در تولید متن به تصویر دست یابد.

CM3Leon با حدود 7 میلیارد پارامتر که تقریباً دو برابر مدل DALL-E 2 OpenAI است بسیار قدرتمند گردیده. این مدل هوش مصنوعی از تکنیکی به نام «بهینه‌سازی تحت نظارت» (SFT) استفاده می‌کند که به افزایش قدرت آن کمک کرده است. این تکنیک قبلاً در مدل‌های متنی مانند ChatGPT استفاده شده و نتایج آن در مورد مدل‌های تصویر نیز بسیار امیدوارکننده بوده است.

https://hooshio.com/?p=49941

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

ابزارهای تازه هوش مصنوعی برای معلمان و دانش‌آموزان

وقتی هوش مصنوعی دروغ‌های ترامپ را تاب نمی‌آورد

عطرهای سفارشی با هوش مصنوعی

تفنگ خودکار هوشمند در ارتش هند؛ گام بزرگ در تسلیحات کشنده با هوش مصنوعی

اگر برای این ۱۱ کار از ChatGPT استفاده می‌کنید، همین حالا دست نگه‌ دارید!

سایه هوش مصنوعی بر پادشاه سرطان‌ها

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

آیا استفاده از چت‌بات‌های هوش مصنوعی فعالیت مغز انسان را تغییر می‌دهد؟

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

هوش مصنوعی در خدمت جامعه؛ از ابزار سرکوب تا فناوری مدنی

چگونه فناوری می‌تواند مسیر کنشگری اجتماعی را متحول کند؟

ابزارهای تازه هوش مصنوعی برای معلمان و دانش‌آموزان

وقتی هوش مصنوعی دروغ‌های ترامپ را تاب نمی‌آورد

عطرهای سفارشی با هوش مصنوعی

تفنگ خودکار هوشمند در ارتش هند؛ گام بزرگ در تسلیحات کشنده با هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

ابزارهای تازه هوش مصنوعی برای معلمان و دانش‌آموزان

اگر برای این ۱۱ کار از ChatGPT استفاده می‌کنید، همین حالا دست نگه‌ دارید!

وقتی هوش مصنوعی دروغ‌های ترامپ را تاب نمی‌آورد

سایه هوش مصنوعی بر پادشاه سرطان‌ها

عطرهای سفارشی با هوش مصنوعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید