پوشش رسانه‌ای جیتکس ۲۰۲۴ | با ما همراه باشید

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

زمان مطالعه: 2 دقیقه

متا به پیشبرد تحقیقات خود در مورد اشکال جدید مدل‌های هوش مصنوعی مولد ادامه می‌دهد و امروز آخرین تلاش تحقیقاتی خود را با نشان دادن مدلی به نام CM3leon فاش کرد و مدعی است که این مدل در مقایسه با سایر نمونه‌های رقیب ازجمله مدل DALL-E 2، بهترین عملکرد را داراست.

 به گزارش هوشیو، متا مدعی است که مدل هوش مصنوعی جدیدش با نام CM3Leon بهترین ابزار تبدیل متن به تصویر است. CM3leon یک مدل پایه چندوجهی برای تولید متن به تصویر و تصویر به متن است که به ویژه برای تولید خودکار زیرنویس برای تصاویر بسیار مفید است. براین اساس با توجه به ورودی تصویر، مدل می‌تواند یک عنوان متنی توصیفی ایجاد نماید که به طور دقیق محتوای تصویر را منعکس سازد.

CM3leon  

بدیهی است که تصاویر تولید شده با هوش مصنوعی CM3leon در این مرحله مفهوم جدیدی نیستند، زیرا ابزارهای محبوبی مانند Stable Diffusion ،DALL-E و Midjourney به صورت گسترده در دسترس هستند. آنچه جدید است، تکنیک‌هایی است که متا برای ساخت CM3leon از آنها استفاده کرده و عملکردی که متا ادعا می‌کند، مدل پایه‌اش قادر به دستیابی به آن است.

بیشتر فناوری‌های فعلی تولید متن به تصویر، از نوعی مدل هوش مصنوعی به نام «مدل انتشار» برای تولید تصویر استفاده می‌کنند. CM3leon رویکرد متفاوتی برای تولید تصاویر از متن دارد. به جای استفاده از مدل انتشار، از یک مدل «خودرگرسیون مبتنی بر نشانه» استفاده می‌کند. این بدان معناست که CM3leon برای تولید یک تصویر با شکستن متن ورودی به واحدهای کوچکتر به نام «توکن» و سپس استفاده از یک روش خاص برای تولید هر توکن در یک دنباله طراحی شده، تا در نهایت خروجی تصویر را تولید نماید.

گروه پژوهشی متا در یک مقاله تحقیقاتی با عنوان مقیاس‌گذاری مدل‌های چندوجهی خودکار رگرسیون: پیش‌آموزش و تنظیم دستورالعمل نوشت: «مدل‌های انتشار اخیراً به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً کم، برای تولید تصاویر محبوب شده‌اند. در مقابل، مدل‌های اتورگرسیون مبتنی بر توکن می‌تواند نتایج بهتری را با تصاویر منسجم‌تر ایجاد کند، اما آموزش و استفاده آنها برای استنتاج بسیار گران‌تر است.»

ابزار تبدیل متن به تصویر

کاری که محققان متا توانسته‌اند با CM3leon انجام دهند این است که نشان دهند چگونه مدل خودرگرسیون مبتنی بر توکن می‌تواند کارآمدتر از رویکرد مبتنی بر مدل انتشار باشد.

محقق Meta در یک پست وبلاگ نوشت:« CM3leonبا وجود آموزش تنها با یک پنجم منابع محاسباتی که توسط روش‌های قبلی مبتنی بر ترانسفورماتورها استفاده می‌شد، توانست به «عملکرد پیشرفته» در تولید متن به تصویر دست یابد.

CM3Leon با حدود 7 میلیارد پارامتر که تقریباً دو برابر مدل DALL-E 2 OpenAI است بسیار قدرتمند گردیده. این مدل هوش مصنوعی از تکنیکی به نام «بهینه‌سازی تحت نظارت» (SFT) استفاده می‌کند که به افزایش قدرت آن کمک کرده است. این تکنیک قبلاً در مدل‌های متنی مانند ChatGPT استفاده شده و نتایج آن در مورد مدل‌های تصویر نیز بسیار امیدوارکننده بوده است.

بنر اخبار هوش مصنوعی

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]