تبدیل متن به تصویر
آموزش‌های پایه‌ای هوش مصنوعیآموزش‌های پیشرفته هوش مصنوعیاخبارپردازش زبان طبیعییادگیری عمیق

مدل جدید تبدیل متن به تصویر: این صندلی آووکادو آینده هوش مصنوعی را رقم می‌زند

    0
    (مدت زمان مطالعه: ۴ دقیقه)

    به تازگی شرکت OpenAI  با استفاده از مدل GPT-3  نشان داد که یک مدل یادگیری عمیق را می‌­توان به سادگی و با دادن مقادیر زیادی نوشته برای تبدیل متن به تصویر آموزش داد. همچنین آن‌ها نشان دادند که با جایگزین‌کردن متن با پیکسل، می‌توان از همین روش برای آموزش هوش مصنوعی برای تکمیل تصاویر نیمه‌تمام استفاده کرد. GPT-3 چگونگی استفاده انسان از کلمات را تقلید می‌کند. همچنین Image GPT-3 آنچه را می­‌بینیم پیش­‌بینی می­‌کند.

    اکنون OpenAI دو مدل جدید به نام DALL · E و CLIP ساخته است که زبان و تصاویر را به گونه‌­ای ترکیب می­‌کند که هوش مصنوعی را در درک کلمه و آن‌چه که به آن اشاره می­‌کنند یاری می‌­کند.

    ایلیا ساتسکور، دانشمند ارشد OpenAI می‌گوید:«ما در یک جهان بصری زندگی می­‌کنیم. در طولانی مدت، شما مدل­‌هایی خواهید داشت که متن و تصویر را درک می‌کنند و در نتیجه در تبدیل متن به تصویر موفق عمل خواهند کرد. هوش مصنوعی می­‌تواند زبان را بهتر درک کند زیرا قادر است معنی کلمات و جملات را بفهمد.»

    برخی اوقات خروجی GPT-3، می­‌تواند از واقعیت دور باشد. محققان OpenAI و جاهای دیگر در تلاشند تا با قراردادن متن در تصاویر، به مدل­‌های زبانی فهم بهتری از مفاهیم روزمره‌ای که انسان‌­ها برای درک­‌کردن استفاده می­‌کنند بدهند.

    DALL · E و CLIP از جهات مختلف با این مشکل روبرو می‌­شوند. در نگاه اول، CLIP (Contrastive Language-Image Pre-Training) یک سیستم شناسایی تصویر دیگر است. با این تفاوت که این سیستم مانند دیگر مدل­‌های موجود برای شناسایی تصاویر از نمونه‌­های برچسب­دار موجود در پایگاه داده استفاده نمی­‌کند؛ بلکه از تصاویر موجود در اینترنت و عناوین آن‌ها استفاده می­‌کند. در این روش مدل به جای اینکه از یک برچسب یک کلمه‌­ای مانند «گربه» یا «موز» به تصویر پی ببرد از توصیف آنچه در تصویر است آن را می‌­آموزد.

    کاربرد CLIP 

    CLIP آموزش داده می­‌شود تا پیش‌­بینی کند که کدام عنوان که از بین ۳۲،۷۶۸ عنوان دیگر به صورت تصادفی انتخاب شده برای عکس داده شده مناسب است. برای حل این مسئله، CLIP می‌­آموزد که طیف گسترده‌­ای از اشیا را با نام و کلمات توصیف­‌کننده آن­ها پیوند دهد. سپس مدل اجازه می‌­دهد تا اشیا موجود در تصاویری که خارج از دیتاست هستند را شناسایی کند. بیشتر سیستم­‌های تشخیص تصویر برای شناسایی انواع خاصی از اشیا مانند چهره در فیلم‌­های مداربسته یا ساختما‌‌ن‌های موجود در تصاویر ماهواره­‌ای آموزش دیده­اند. مانند GPT-3 ،CLIP می­‌تواند بدون آموزش اضافی، وظایف را تعمیم دهد. همچنین این مدل کمتر از سایر مدل­‌های پیشرفته شناسایی تصویر توسط نمونه­‌های تخاصمی گمراه می­‌شوند. این نمونه­‌ها به طرز ماهرانه‌­ای تغییر کرده‌­اند به گونه‌­ای که الگوریتم­‌ها را معمولاً طوری فریب می­‌دهند که حتی انسان­‌ها نیز متوجه آن نمی‌­شوند.

    از سوی دیگر DALL · E نوعی از شبکه های عصبی است که می‌­تواند بر اساس ورودی در تبدیل متن به تصویر موفق باشد. در واقع این سیستم به جای شناسایی تصاویر آنها را ترسیم می‌­کند. این مدل نسخه کوچک­تری از GPT-3 است که همچنین در مورد جفت تصویر- متنی که از اینترنت گرفته شده آموزش دیده است. یک عنوان کوتاه را که برای توصیف عکس به کار می رود در نظر بگیرید. برای مثال «نقاشی­ای از یک خوکچه نشسته در یک مزرعه هنگام طلوع آفتاب» یا «یک نمای مقطعی از یک گردو».

    DALL · E با همین کپشن‌­ها تصاویر زیادی را ایجاد می­‌کند که با آن‌ها مطابقت دارند. ده­‌ها خوکچه از همه اشکال و اندازه‌­ها در مقابل زمینه­‌های نارنجی و زرد و ردیف­‌هایی از گردو.

    تبدیل متن به تصویر، چالشی تحقیقاتی

    مارک ریدل، که در حوزه پردازش زبان طبیعی و خلاقیت محاسباتی در انستیتوی فناوری جورجیا در آتلانتا کار می­‌کند می­‌گوید:«تبدیل متن به تصویر یک چالش تحقیقاتی است که مدت‌هاست وجود داشته است. اما این یک نمونه قابل توجه است.»

    تبدیل متن به تصویر

    برای آزمایش توانایی DALL · E در کار با مفاهیم نو، محققان عنوان­‌هایی را به مدل دادند که توصیف­‌کننده اشیائی بود که مدل تا پیش از این با آ‌ن‌ها آشنا نبوده است.  مانند «صندلی آووکادو» و «تصویری از تربچه در حال راه رفتن با یک سگ» که در هر دو مورد، هوش مصنوعی تصاویری ایجاد کرد که این مفاهیم را به روش­‌های قابل قبولی تلفیق می­‌کرد.

    در خصوص صندلی­‌های راحتی خروجی شبیه صندلی و آووکادو بود. آدیتیا رامش که در DALL · E کار می‌­کرد می­‌گوید: «چیزی که بیشتر مرا متعجب کرد این است که مدل می‌تواند دو مفهوم غیر مرتبط را بگیرد و آن‌ها را به گونه‌ای کنار هم بگذارد که منجر به نوعی عملکرد شود.» این احتمالاً به این دلیل است که یک آووکادوی نصف شده کمی شبیه صندلی‌­ای است که پشت آن بالا آمده و گودال آن به عنوان بالش است. در مورد یک عنوان دیگر که حلزون ساخته شده از چنگ بود باز هم نتایج قابل قبولی به دست آمد و مدل به خوبی توانست این دو مفهوم را با هم ترکیب کند.

    جایگزین آزمون  Lovelace 2.0

    ریدل تصور می­‌کند این سیستم می­‌تواند جایگزین آزمون  Lovelace 2.0 شود که خود آزمایشی است که در سال ۲۰۱۴ ارائه داده شد و جایگزینی برای آزمون تورینگ شد که به عنوان معیار سنجش هوش مصنوعی شناخته می‌­شود. ریدل می­‌گوید درخواست از کامپیوتر برای رسم تصویر مردی که یک پنگوئن را در دست دارد نسبت یه اینکه از چت بات بخواهیم انسان را در مکالمه فریب دهد آزمون بهتری است. ریدل می­‌گوید: «محک واقعی این است که تا چه حد می­‌توان هوش مصنوعی را در خارج از چهارچوب خود امتحان کرد.»

    تبدیل متن به تصویر

    آنی کمباوی که در موسسه آلن برای هوش مصنوعی (AI2) مشغول به کار است و خود او نیز سیستمی را برای تبدیل متن به تصویر تولید کرده، می­‌گوید: «توانایی این مدل در تبدیل متن به تصویر مصنوعی نسبتاً عجیب و بسیار جالب به نظر می‌­رسد.»

    از سوی دیگر برخی ابهامات در مورد این سیستم وجود دارد. به طور مثال نشانه‌هایی وجود دارد که DALL · E به جای تبدیل متن به تصویر ابداعی از تصاویری که در اینترنت موجودند استفاده می‌­کند.

    ریدل می­‌گوید: «من کمی به مثال تربچه مشکوک هستم. ممکن است این تصاویر از اینترنت برداشته شده باشند.» وی خاطرنشان کرد که با یک جستجوی سریع می‌­توان بسیاری از تصاویر کارتونی از تربچه‌­های انسانی را مشاهده کرد. او می­‌گوید: «اساسا GPT-3، که DALL · E بر اساس آن ساخته شده است به این مشهور است که حافظه قوی دارد.»

    با این حال ساتسکور می­‌گوید: «آینده در دست این‌چنین سیستم­‌هایی خواهد بود و هر دوی این مدل­‌ها گامی به سوی آن سیستم هستند.»

     

    جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    جزئیات ترور محسن فخری زاده در نیویورک‌تایمز ؛ توصیفی از عملکرد بی‌نقص هوش مصنوعی

    مقاله قبلی

    آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس ؛ مدل های رمزنگار (قسمت ششم)

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *