جستجو
Generic filters
Filter by دسته‌ها
آموزش هوش مصنوعی و انواع آن
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
پایتون و ابزارهای یادگیری عمیق
کتابخانه‌ های یادگیری عمیق
یادگیری با نظارت
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
اخبار
رسانه‌ها
آموزش پردازش زبان طبیعی
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
رویدادها
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
 متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

متا از مدل جدید CM3leon بهترین ابزار تبدیل متن به تصویر رونمایی کرد

۰:۰۰
/
Avasho

متا به پیشبرد تحقیقات خود در مورد اشکال جدید مدل‌های هوش مصنوعی مولد ادامه می‌دهد و امروز آخرین تلاش تحقیقاتی خود را با نشان دادن مدلی به نام CM3leon فاش کرد و مدعی است که این مدل در مقایسه با سایر نمونه‌های رقیب ازجمله مدل DALL-E 2، بهترین عملکرد را داراست.

 به گزارش هوشیو، متا مدعی است که مدل هوش مصنوعی جدیدش با نام CM3Leon بهترین ابزار تبدیل متن به تصویر است. CM3leon یک مدل پایه چندوجهی برای تولید متن به تصویر و تصویر به متن است که به ویژه برای تولید خودکار زیرنویس برای تصاویر بسیار مفید است. براین اساس با توجه به ورودی تصویر، مدل می‌تواند یک عنوان متنی توصیفی ایجاد نماید که به طور دقیق محتوای تصویر را منعکس سازد.

CM3leon  

بدیهی است که تصاویر تولید شده با هوش مصنوعی CM3leon در این مرحله مفهوم جدیدی نیستند، زیرا ابزارهای محبوبی مانند Stable Diffusion ،DALL-E و Midjourney به صورت گسترده در دسترس هستند. آنچه جدید است، تکنیک‌هایی است که متا برای ساخت CM3leon از آنها استفاده کرده و عملکردی که متا ادعا می‌کند، مدل پایه‌اش قادر به دستیابی به آن است.

بیشتر فناوری‌های فعلی تولید متن به تصویر، از نوعی مدل هوش مصنوعی به نام «مدل انتشار» برای تولید تصویر استفاده می‌کنند. CM3leon رویکرد متفاوتی برای تولید تصاویر از متن دارد. به جای استفاده از مدل انتشار، از یک مدل «خودرگرسیون مبتنی بر نشانه» استفاده می‌کند. این بدان معناست که CM3leon برای تولید یک تصویر با شکستن متن ورودی به واحدهای کوچکتر به نام «توکن» و سپس استفاده از یک روش خاص برای تولید هر توکن در یک دنباله طراحی شده، تا در نهایت خروجی تصویر را تولید نماید.

گروه پژوهشی متا در یک مقاله تحقیقاتی با عنوان مقیاس‌گذاری مدل‌های چندوجهی خودکار رگرسیون: پیش‌آموزش و تنظیم دستورالعمل نوشت: «مدل‌های انتشار اخیراً به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً کم، برای تولید تصاویر محبوب شده‌اند. در مقابل، مدل‌های اتورگرسیون مبتنی بر توکن می‌تواند نتایج بهتری را با تصاویر منسجم‌تر ایجاد کند، اما آموزش و استفاده آنها برای استنتاج بسیار گران‌تر است.»

ابزار تبدیل متن به تصویر

کاری که محققان متا توانسته‌اند با CM3leon انجام دهند این است که نشان دهند چگونه مدل خودرگرسیون مبتنی بر توکن می‌تواند کارآمدتر از رویکرد مبتنی بر مدل انتشار باشد.

محقق Meta در یک پست وبلاگ نوشت:« CM3leonبا وجود آموزش تنها با یک پنجم منابع محاسباتی که توسط روش‌های قبلی مبتنی بر ترانسفورماتورها استفاده می‌شد، توانست به «عملکرد پیشرفته» در تولید متن به تصویر دست یابد.

CM3Leon با حدود ۷ میلیارد پارامتر که تقریباً دو برابر مدل DALL-E 2 OpenAI است بسیار قدرتمند گردیده. این مدل هوش مصنوعی از تکنیکی به نام «بهینه‌سازی تحت نظارت» (SFT) استفاده می‌کند که به افزایش قدرت آن کمک کرده است. این تکنیک قبلاً در مدل‌های متنی مانند ChatGPT استفاده شده و نتایج آن در مورد مدل‌های تصویر نیز بسیار امیدوارکننده بوده است.

بنر اخبار هوش مصنوعی

مقاله ما چطور بود؟

میانگین امتیاز / ۵. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
Please enable JavaScript in your browser to complete this form.