BigSleep
آموزش‌های پیشرفته هوش مصنوعیبینایی ماشین

BigSleep به زبان ساده ؛ با جدیدترین نمونه هوش مصنوعی مولد آشنا شوید

    0

    BigSleep اندکی شبیه نسخه دیداری مدل زبانی GPT-3 است. این فناوری این قابلیت را دارد تا یک اعلان prompt متنی را برداشته و تصویری متناسب با کلمات آن ترسیم کند. ممکن است تصویری اسرار آمیز، مثل نقاشی «ابدیت» بالا، یا تصویری ساده مثل یک ظرف گیلاس، یا یک «خانه زیبا» (در ادامه خواهید دید) توسط مدل ترسیم شود. درست مانند کاری که موتور جست‌وجوی عکس گوگل انجام می‌دهد با این تفاوت که تصاویر خلق شده وجود حقیقی ندارند.

    BigSleep

    لازم به توضیح است که تصویر بالا، «نقاشی پیچیده‌ای از ابدیت»، توسط انسانی هنرمند کشیده نشده است بلکه اثرِ فناوری BigSleep، یا به عبارتی جدیدترین نمونه هوش مصنوعی مولد است.

    عملکرد BigSleep

    خالق ۲۳ ساله این فناوری، رایان مورداک، در مصاحبه با دیجیتال ترندز گفت « BigSleepدر سطح بالا با ترکیب دو شبکه عصبی BigGAN و  CLIP کار می‌کند». رایان مورداک دانشجوی رشته علوم اعصاب شناختی cognitive neuroscience در دانشگاه یوتا است.

    شبکه عصبی BigGAN سیستمی است که توسط شرکت گوگل راه‌اندای شده است و اصوات به صورت تصادفی را دریافت نموده و یک تصویر خروجی می‌دهد. BigGAN یک شبکه مولد تخاصمی است: یک جفت شبکه عصبی در حال ستیز هستند که به قول مورداک به «مسابقه طناب کشی تخاصمی» بین شبکه‌های تولید تصویر و شبکه‌های متمایزگر مشغول هستند و با سپری شدن زمان، تعامل بین مولد و متمایزگر منجر به ارتقاء هر دو شبکه عصبی می‌شود.

    BigSleep

    «خانه‌ای زیبا» نامی که BigSleep بر این تصویر نهاده است

    از طرف دیگر، CLIP شبکه عصبی‌ای است که توسط شرکت OpenAI ساخته شده و برای مطابقت دادن تصاویر و توضیحات آنها آموزش دیده است. اگر یک متن و یک عکس را به CLIP بدهید، این شبکه تلاش می‌کند تا میزان مطابقت آنها را بررسی کند و برای آن یک نمره در نظر می‌گیرد.

    طبق گفته‌های مورداک، با ترکیب این دو شبکه عصبی BigSleep در بین خروجی‌های BigGAN به دنبال تصاویری می‌گردد که بیشترین امتیاز را از CLIP بگیرد. سپس به تدریج صوت ورودی به مولد BigGAN را تنظیم می‌کند تا زمانی که CLIP اعلام کند تصاویر تولیدی کاملاً مطابق توضیحات هستند. تولید عکسی که با اعلان‌ها مطابقت دارد حدود سه دقیقه زمان می‌برد.

    مورداک می‌گوید «عملکرد BigSleep فوق‌العاده است زیرا در مورد مفاهیم و موضاعات مختلف تصاویر نسبتاً خوبی با وضوح ۵۱۲ * ۵۱۲ پیکسل تولید می‌کند.» وی همچنین توضیح می‌دهد «شبکه‌های قبلی نتایج تاثیر برانگیزی در پی داشتند، لیکن، به نظر من بیشتر خروجی آن‌ها به تصاویر بی‌کیفیت و موضوعات روزمره  و پیش‌پا افتاده محدود بود.»

    تولید عکس با کمک هوش مصنوعی

    BigSleep اولین فناوری خلق شده برای تولید عکس نیست. اسم BigSleep یادآور فناوری DeepDream است. هوش مصنوعی DeepDream توسط آلکس موردوینتسِف، مهندس شرکت گوگل، طراحی شد و با استفاده از مدل‌های طبقه‌بندی عکس‌‌هایی خیالی تولید می‌کرد. به غیر از DeepDream، یک سیستم هوش مصنوعی مبتنی بر شبکه های مولد تخاصمی نیز نقاشی‌ای کشیده است که در حراجی سال ۲۰۱۸ به قیمت کلانِ ۴۳۲،۵۰۰ دلار  به فروش رسید. این فناوری‌ها به طور قطع گامی بزرگ در جهت  پیشرفت محسوب می‌شوند.

    یک بار BigSleep را امتحان کنید. مورداک پیشنهاد کرد نوتبوک Google Colab وی را که حاوی مطالبی در مورد این پروژه است بررسی کنید. تنها کافی است با منحنی یادگیری مرتبط با GUI محیط Colab و چند گام دیگر آشنا باشید. امّا امتحان آن رایگان است. سایر روش‌های امتحان کردن این فناوری احتمالاً طی هفته آینده در دسترس قرار خواهد گرفت. علاقمندان می‌توانند به سایت r/MediaSynthesis مراجعه کنند. در این سایت کاربران برخی از بهترین تصاویری را که با این سیستم تولید کرده‌اند به اشتراک می‌گذارند.

    لامسه در ربات ها ، معجزه تلفیق بینایی ماشین و یادگیری عمیق

    مقاله قبلی

    شبکه پیچشی متراکم یا DenseNet و مروری بر آن (در مسائل رده‌‎بندی تصویر)

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *