Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 مدل جدید تبدیل متن به تصویر: این صندلی آووکادو آینده هوش مصنوعی را رقم می‌زند

مدل جدید تبدیل متن به تصویر: این صندلی آووکادو آینده هوش مصنوعی را رقم می‌زند

زمان مطالعه: 3 دقیقه

به تازگی شرکت OpenAI  با استفاده از مدل GPT-3  نشان داد که یک مدل یادگیری عمیق را می‌­توان به سادگی و با دادن مقادیر زیادی نوشته برای تبدیل متن به تصویر آموزش داد. همچنین آن‌ها نشان دادند که با جایگزین‌کردن متن با پیکسل، می‌توان از همین روش برای آموزش هوش مصنوعی برای تکمیل تصاویر نیمه‌تمام استفاده کرد. GPT-3 چگونگی استفاده انسان از کلمات را تقلید می‌کند. همچنین Image GPT-3 آنچه را می­‌بینیم پیش­‌بینی می­‌کند.

اکنون OpenAI دو مدل جدید به نام DALL · E و CLIP ساخته است که زبان و تصاویر را به گونه‌­ای ترکیب می­‌کند که هوش مصنوعی را در درک کلمه و آن‌چه که به آن اشاره می­‌کنند یاری می‌­کند.

ایلیا ساتسکور، دانشمند ارشد OpenAI می‌گوید:«ما در یک جهان بصری زندگی می­‌کنیم. در طولانی مدت، شما مدل­‌هایی خواهید داشت که متن و تصویر را درک می‌کنند و در نتیجه در تبدیل متن به تصویر موفق عمل خواهند کرد. هوش مصنوعی می­‌تواند زبان را بهتر درک کند زیرا قادر است معنی کلمات و جملات را بفهمد.»

برخی اوقات خروجی GPT-3، می­‌تواند از واقعیت دور باشد. محققان OpenAI و جاهای دیگر در تلاشند تا با قراردادن متن در تصاویر، به مدل­‌های زبانی فهم بهتری از مفاهیم روزمره‌ای که انسان‌­ها برای درک­‌کردن استفاده می­‌کنند بدهند.

DALL · E و CLIP از جهات مختلف با این مشکل روبرو می‌­شوند. در نگاه اول، CLIP (Contrastive Language-Image Pre-Training) یک سیستم شناسایی تصویر دیگر است. با این تفاوت که این سیستم مانند دیگر مدل­‌های موجود برای شناسایی تصاویر از نمونه‌­های برچسب­دار موجود در پایگاه داده استفاده نمی­‌کند؛ بلکه از تصاویر موجود در اینترنت و عناوین آن‌ها استفاده می­‌کند. در این روش مدل به جای اینکه از یک برچسب یک کلمه‌­ای مانند «گربه» یا «موز» به تصویر پی ببرد از توصیف آنچه در تصویر است آن را می‌­آموزد.

کاربرد CLIP 

CLIP آموزش داده می­‌شود تا پیش‌­بینی کند که کدام عنوان که از بین 32،768 عنوان دیگر به صورت تصادفی انتخاب شده برای عکس داده شده مناسب است. برای حل این مسئله، CLIP می‌­آموزد که طیف گسترده‌­ای از اشیا را با نام و کلمات توصیف­‌کننده آن­ها پیوند دهد. سپس مدل اجازه می‌­دهد تا اشیا موجود در تصاویری که خارج از دیتاست هستند را شناسایی کند. بیشتر سیستم­‌های تشخیص تصویر برای شناسایی انواع خاصی از اشیا مانند چهره در فیلم‌­های مداربسته یا ساختما‌‌ن‌های موجود در تصاویر ماهواره­‌ای آموزش دیده­اند. مانند GPT-3 ،CLIP می­‌تواند بدون آموزش اضافی، وظایف را تعمیم دهد. همچنین این مدل کمتر از سایر مدل­‌های پیشرفته شناسایی تصویر توسط نمونه­‌های تخاصمی گمراه می­‌شوند. این نمونه­‌ها به طرز ماهرانه‌­ای تغییر کرده‌­اند به گونه‌­ای که الگوریتم­‌ها را معمولاً طوری فریب می­‌دهند که حتی انسان­‌ها نیز متوجه آن نمی‌­شوند.

از سوی دیگر DALL · E نوعی از شبکه های عصبی است که می‌­تواند بر اساس ورودی در تبدیل متن به تصویر موفق باشد. در واقع این سیستم به جای شناسایی تصاویر آنها را ترسیم می‌­کند. این مدل نسخه کوچک­تری از GPT-3 است که همچنین در مورد جفت تصویر- متنی که از اینترنت گرفته شده آموزش دیده است. یک عنوان کوتاه را که برای توصیف عکس به کار می رود در نظر بگیرید. برای مثال «نقاشی­ای از یک خوکچه نشسته در یک مزرعه هنگام طلوع آفتاب» یا «یک نمای مقطعی از یک گردو».

DALL · E با همین کپشن‌­ها تصاویر زیادی را ایجاد می­‌کند که با آن‌ها مطابقت دارند. ده­‌ها خوکچه از همه اشکال و اندازه‌­ها در مقابل زمینه­‌های نارنجی و زرد و ردیف­‌هایی از گردو.

تبدیل متن به تصویر، چالشی تحقیقاتی

مارک ریدل، که در حوزه پردازش زبان طبیعی و خلاقیت محاسباتی در انستیتوی فناوری جورجیا در آتلانتا کار می­‌کند می­‌گوید:«تبدیل متن به تصویر یک چالش تحقیقاتی است که مدت‌هاست وجود داشته است. اما این یک نمونه قابل توجه است.»

تبدیل متن به تصویر

برای آزمایش توانایی DALL · E در کار با مفاهیم نو، محققان عنوان­‌هایی را به مدل دادند که توصیف­‌کننده اشیائی بود که مدل تا پیش از این با آ‌ن‌ها آشنا نبوده است.  مانند «صندلی آووکادو» و «تصویری از تربچه در حال راه رفتن با یک سگ» که در هر دو مورد، هوش مصنوعی تصاویری ایجاد کرد که این مفاهیم را به روش­‌های قابل قبولی تلفیق می­‌کرد.

در خصوص صندلی­‌های راحتی خروجی شبیه صندلی و آووکادو بود. آدیتیا رامش که در DALL · E کار می‌­کرد می­‌گوید: «چیزی که بیشتر مرا متعجب کرد این است که مدل می‌تواند دو مفهوم غیر مرتبط را بگیرد و آن‌ها را به گونه‌ای کنار هم بگذارد که منجر به نوعی عملکرد شود.» این احتمالاً به این دلیل است که یک آووکادوی نصف شده کمی شبیه صندلی‌­ای است که پشت آن بالا آمده و گودال آن به عنوان بالش است. در مورد یک عنوان دیگر که حلزون ساخته شده از چنگ بود باز هم نتایج قابل قبولی به دست آمد و مدل به خوبی توانست این دو مفهوم را با هم ترکیب کند.

جایگزین آزمون Lovelace 2.0

ریدل تصور می­‌کند این سیستم می­‌تواند جایگزین آزمون Lovelace 2.0 شود که خود آزمایشی است که در سال 2014 ارائه داده شد و جایگزینی برای آزمون تورینگ شد که به عنوان معیار سنجش هوش مصنوعی شناخته می‌­شود. ریدل می­‌گوید درخواست از کامپیوتر برای رسم تصویر مردی که یک پنگوئن را در دست دارد نسبت یه اینکه از چت بات بخواهیم انسان را در مکالمه فریب دهد آزمون بهتری است. ریدل می­‌گوید: «محک واقعی این است که تا چه حد می­‌توان هوش مصنوعی را در خارج از چهارچوب خود امتحان کرد.»

تبدیل متن به تصویر

آنی کمباوی که در موسسه آلن برای هوش مصنوعی (AI2) مشغول به کار است و خود او نیز سیستمی را برای تبدیل متن به تصویر تولید کرده، می­‌گوید: «توانایی این مدل در تبدیل متن به تصویر مصنوعی نسبتاً عجیب و بسیار جالب به نظر می‌­رسد.»

از سوی دیگر برخی ابهامات در مورد این سیستم وجود دارد. به طور مثال نشانه‌هایی وجود دارد که DALL · E به جای تبدیل متن به تصویر ابداعی از تصاویری که در اینترنت موجودند استفاده می‌­کند.

ریدل می­‌گوید: «من کمی به مثال تربچه مشکوک هستم. ممکن است این تصاویر از اینترنت برداشته شده باشند.» وی خاطرنشان کرد که با یک جستجوی سریع می‌­توان بسیاری از تصاویر کارتونی از تربچه‌­های انسانی را مشاهده کرد. او می­‌گوید: «اساسا GPT-3، که DALL · E بر اساس آن ساخته شده است به این مشهور است که حافظه قوی دارد.»

با این حال ساتسکور می­‌گوید: «آینده در دست این‌چنین سیستم­‌هایی خواهد بود و هر دوی این مدل­‌ها گامی به سوی آن سیستم هستند.»

 

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]