BigSleep به زبان ساده ؛ با جدیدترین نمونه هوش مصنوعی مولد آشنا شوید
BigSleep اندکی شبیه نسخه دیداری مدل زبانی GPT-3 است. این فناوری این قابلیت را دارد تا یک اعلان prompt متنی را برداشته و تصویری متناسب با کلمات آن ترسیم کند. ممکن است تصویری اسرار آمیز، مثل نقاشی «ابدیت» بالا، یا تصویری ساده مثل یک ظرف گیلاس، یا یک «خانه زیبا» (در ادامه خواهید دید) توسط مدل ترسیم شود. درست مانند کاری که موتور جستوجوی عکس گوگل انجام میدهد با این تفاوت که تصاویر خلق شده وجود حقیقی ندارند.
لازم به توضیح است که تصویر بالا، «نقاشی پیچیدهای از ابدیت»، توسط انسانی هنرمند کشیده نشده است بلکه اثرِ فناوری BigSleep، یا به عبارتی جدیدترین نمونه هوش مصنوعی مولد است.
عملکرد BigSleep
خالق 23 ساله این فناوری، رایان مورداک، در مصاحبه با دیجیتال ترندز گفت « BigSleepدر سطح بالا با ترکیب دو شبکه عصبی BigGAN و CLIP کار میکند». رایان مورداک دانشجوی رشته علوم اعصاب شناختی cognitive neuroscience در دانشگاه یوتا است.
شبکه عصبی BigGAN سیستمی است که توسط شرکت گوگل راهاندای شده است و اصوات به صورت تصادفی را دریافت نموده و یک تصویر خروجی میدهد. BigGAN یک شبکه مولد تخاصمی است: یک جفت شبکه عصبی در حال ستیز هستند که به قول مورداک به «مسابقه طناب کشی تخاصمی» بین شبکههای تولید تصویر و شبکههای متمایزگر مشغول هستند و با سپری شدن زمان، تعامل بین مولد و متمایزگر منجر به ارتقاء هر دو شبکه عصبی میشود.
از طرف دیگر، CLIP شبکه عصبیای است که توسط شرکت OpenAI ساخته شده و برای مطابقت دادن تصاویر و توضیحات آنها آموزش دیده است. اگر یک متن و یک عکس را به CLIP بدهید، این شبکه تلاش میکند تا میزان مطابقت آنها را بررسی کند و برای آن یک نمره در نظر میگیرد.
طبق گفتههای مورداک، با ترکیب این دو شبکه عصبی BigSleep در بین خروجیهای BigGAN به دنبال تصاویری میگردد که بیشترین امتیاز را از CLIP بگیرد. سپس به تدریج صوت ورودی به مولد BigGAN را تنظیم میکند تا زمانی که CLIP اعلام کند تصاویر تولیدی کاملاً مطابق توضیحات هستند. تولید عکسی که با اعلانها مطابقت دارد حدود سه دقیقه زمان میبرد.
مورداک میگوید «عملکرد BigSleep فوقالعاده است زیرا در مورد مفاهیم و موضاعات مختلف تصاویر نسبتاً خوبی با وضوح 512 * 512 پیکسل تولید میکند.» وی همچنین توضیح میدهد «شبکههای قبلی نتایج تاثیر برانگیزی در پی داشتند، لیکن، به نظر من بیشتر خروجی آنها به تصاویر بیکیفیت و موضوعات روزمره و پیشپا افتاده محدود بود.»
تولید عکس با کمک هوش مصنوعی
BigSleep اولین فناوری خلق شده برای تولید عکس نیست. اسم BigSleep یادآور فناوری DeepDream است. هوش مصنوعی DeepDream توسط آلکس موردوینتسِف، مهندس شرکت گوگل، طراحی شد و با استفاده از مدلهای طبقهبندی عکسهایی خیالی تولید میکرد. به غیر از DeepDream، یک سیستم هوش مصنوعی مبتنی بر شبکه های مولد تخاصمی نیز نقاشیای کشیده است که در حراجی سال 2018 به قیمت کلانِ 432،500 دلار به فروش رسید. این فناوریها به طور قطع گامی بزرگ در جهت پیشرفت محسوب میشوند.
یک بار BigSleep را امتحان کنید. مورداک پیشنهاد کرد نوتبوک Google Colab وی را که حاوی مطالبی در مورد این پروژه است بررسی کنید. تنها کافی است با منحنی یادگیری مرتبط با GUI محیط Colab و چند گام دیگر آشنا باشید. امّا امتحان آن رایگان است. سایر روشهای امتحان کردن این فناوری احتمالاً طی هفته آینده در دسترس قرار خواهد گرفت. علاقمندان میتوانند به سایت r/MediaSynthesis مراجعه کنند. در این سایت کاربران برخی از بهترین تصاویری را که با این سیستم تولید کردهاند به اشتراک میگذارند.