
متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد
متا به پیشبرد تحقیقات خود در مورد اشکال جدید مدلهای هوش مصنوعی مولد ادامه میدهد و امروز آخرین تلاش تحقیقاتی خود را با نشان دادن مدلی به نام CM3leon فاش کرد و مدعی است که این مدل در مقایسه با سایر نمونههای رقیب ازجمله مدل DALL-E 2، بهترین عملکرد را داراست.
به گزارش هوشیو، متا مدعی است که مدل هوش مصنوعی جدیدش با نام CM3Leon بهترین ابزار تبدیل متن به تصویر است. CM3leon یک مدل پایه چندوجهی برای تولید متن به تصویر و تصویر به متن است که به ویژه برای تولید خودکار زیرنویس برای تصاویر بسیار مفید است. براین اساس با توجه به ورودی تصویر، مدل میتواند یک عنوان متنی توصیفی ایجاد نماید که به طور دقیق محتوای تصویر را منعکس سازد.

بدیهی است که تصاویر تولید شده با هوش مصنوعی CM3leon در این مرحله مفهوم جدیدی نیستند، زیرا ابزارهای محبوبی مانند Stable Diffusion ،DALL-E و Midjourney به صورت گسترده در دسترس هستند. آنچه جدید است، تکنیکهایی است که متا برای ساخت CM3leon از آنها استفاده کرده و عملکردی که متا ادعا میکند، مدل پایهاش قادر به دستیابی به آن است.
بیشتر فناوریهای فعلی تولید متن به تصویر، از نوعی مدل هوش مصنوعی به نام «مدل انتشار» برای تولید تصویر استفاده میکنند. CM3leon رویکرد متفاوتی برای تولید تصاویر از متن دارد. به جای استفاده از مدل انتشار، از یک مدل «خودرگرسیون مبتنی بر نشانه» استفاده میکند. این بدان معناست که CM3leon برای تولید یک تصویر با شکستن متن ورودی به واحدهای کوچکتر به نام «توکن» و سپس استفاده از یک روش خاص برای تولید هر توکن در یک دنباله طراحی شده، تا در نهایت خروجی تصویر را تولید نماید.
گروه پژوهشی متا در یک مقاله تحقیقاتی با عنوان مقیاسگذاری مدلهای چندوجهی خودکار رگرسیون: پیشآموزش و تنظیم دستورالعمل نوشت: «مدلهای انتشار اخیراً به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً کم، برای تولید تصاویر محبوب شدهاند. در مقابل، مدلهای اتورگرسیون مبتنی بر توکن میتواند نتایج بهتری را با تصاویر منسجمتر ایجاد کند، اما آموزش و استفاده آنها برای استنتاج بسیار گرانتر است.»

کاری که محققان متا توانستهاند با CM3leon انجام دهند این است که نشان دهند چگونه مدل خودرگرسیون مبتنی بر توکن میتواند کارآمدتر از رویکرد مبتنی بر مدل انتشار باشد.
محقق Meta در یک پست وبلاگ نوشت:« CM3leonبا وجود آموزش تنها با یک پنجم منابع محاسباتی که توسط روشهای قبلی مبتنی بر ترانسفورماتورها استفاده میشد، توانست به «عملکرد پیشرفته» در تولید متن به تصویر دست یابد.
CM3Leon با حدود ۷ میلیارد پارامتر که تقریباً دو برابر مدل DALL-E 2 OpenAI است بسیار قدرتمند گردیده. این مدل هوش مصنوعی از تکنیکی به نام «بهینهسازی تحت نظارت» (SFT) استفاده میکند که به افزایش قدرت آن کمک کرده است. این تکنیک قبلاً در مدلهای متنی مانند ChatGPT استفاده شده و نتایج آن در مورد مدلهای تصویر نیز بسیار امیدوارکننده بوده است.