BigSleep به زبان ساده ؛ با جدیدترین نمونه هوش مصنوعی مولد آشنا شوید

تیم تحریریه
۱۵ فروردین ۱۴۰۰

زمان مطالعه: 2 دقیقه

BigSleep اندکی شبیه نسخه دیداری مدل زبانی GPT-3 است. این فناوری این قابلیت را دارد تا یک اعلان prompt متنی را برداشته و تصویری متناسب با کلمات آن ترسیم کند. ممکن است تصویری اسرار آمیز، مثل نقاشی «ابدیت» بالا، یا تصویری ساده مثل یک ظرف گیلاس، یا یک «خانه زیبا» (در ادامه خواهید دید) توسط مدل ترسیم شود. درست مانند کاری که موتور جست‌وجوی عکس گوگل انجام می‌دهد با این تفاوت که تصاویر خلق شده وجود حقیقی ندارند.

لازم به توضیح است که تصویر بالا، «نقاشی پیچیده‌ای از ابدیت»، توسط انسانی هنرمند کشیده نشده است بلکه اثرِ فناوری BigSleep، یا به عبارتی جدیدترین نمونه هوش مصنوعی مولد است.

فهرست مقاله پنهان

1 عملکرد BigSleep

2 تولید عکس با کمک هوش مصنوعی

عملکرد BigSleep

خالق 23 ساله این فناوری، رایان مورداک، در مصاحبه با دیجیتال ترندز گفت « BigSleepدر سطح بالا با ترکیب دو شبکه عصبی BigGAN و CLIP کار می‌کند». رایان مورداک دانشجوی رشته علوم اعصاب شناختی cognitive neuroscience در دانشگاه یوتا است.

شبکه عصبی BigGAN سیستمی است که توسط شرکت گوگل راه‌اندای شده است و اصوات به صورت تصادفی را دریافت نموده و یک تصویر خروجی می‌دهد. BigGAN یک شبکه مولد تخاصمی است: یک جفت شبکه عصبی در حال ستیز هستند که به قول مورداک به «مسابقه طناب کشی تخاصمی» بین شبکه‌های تولید تصویر و شبکه‌های متمایزگر مشغول هستند و با سپری شدن زمان، تعامل بین مولد و متمایزگر منجر به ارتقاء هر دو شبکه عصبی می‌شود.

از طرف دیگر، CLIP شبکه عصبی‌ای است که توسط شرکت OpenAI ساخته شده و برای مطابقت دادن تصاویر و توضیحات آنها آموزش دیده است. اگر یک متن و یک عکس را به CLIP بدهید، این شبکه تلاش می‌کند تا میزان مطابقت آنها را بررسی کند و برای آن یک نمره در نظر می‌گیرد.

طبق گفته‌های مورداک، با ترکیب این دو شبکه عصبی BigSleep در بین خروجی‌های BigGAN به دنبال تصاویری می‌گردد که بیشترین امتیاز را از CLIP بگیرد. سپس به تدریج صوت ورودی به مولد BigGAN را تنظیم می‌کند تا زمانی که CLIP اعلام کند تصاویر تولیدی کاملاً مطابق توضیحات هستند. تولید عکسی که با اعلان‌ها مطابقت دارد حدود سه دقیقه زمان می‌برد.

مورداک می‌گوید «عملکرد BigSleep فوق‌العاده است زیرا در مورد مفاهیم و موضاعات مختلف تصاویر نسبتاً خوبی با وضوح 512 * 512 پیکسل تولید می‌کند.» وی همچنین توضیح می‌دهد «شبکه‌های قبلی نتایج تاثیر برانگیزی در پی داشتند، لیکن، به نظر من بیشتر خروجی آن‌ها به تصاویر بی‌کیفیت و موضوعات روزمره و پیش‌پا افتاده محدود بود.»

تولید عکس با کمک هوش مصنوعی

BigSleep اولین فناوری خلق شده برای تولید عکس نیست. اسم BigSleep یادآور فناوری DeepDream است. هوش مصنوعی DeepDream توسط آلکس موردوینتسِف، مهندس شرکت گوگل، طراحی شد و با استفاده از مدل‌های طبقه‌بندی عکس‌‌هایی خیالی تولید می‌کرد. به غیر از DeepDream، یک سیستم هوش مصنوعی مبتنی بر شبکه های مولد تخاصمی نیز نقاشی‌ای کشیده است که در حراجی سال 2018 به قیمت کلانِ 432،500 دلار به فروش رسید. این فناوری‌ها به طور قطع گامی بزرگ در جهت پیشرفت محسوب می‌شوند.

یک بار BigSleep را امتحان کنید. مورداک پیشنهاد کرد نوتبوک Google Colab وی را که حاوی مطالبی در مورد این پروژه است بررسی کنید. تنها کافی است با منحنی یادگیری مرتبط با GUI محیط Colab و چند گام دیگر آشنا باشید. امّا امتحان آن رایگان است. سایر روش‌های امتحان کردن این فناوری احتمالاً طی هفته آینده در دسترس قرار خواهد گرفت. علاقمندان می‌توانند به سایت r/MediaSynthesis مراجعه کنند. در این سایت کاربران برخی از بهترین تصاویری را که با این سیستم تولید کرده‌اند به اشتراک می‌گذارند.

https://hooshio.com/?p=12507

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

BigSleep به زبان ساده ؛ با جدیدترین نمونه هوش مصنوعی مولد آشنا شوید

عملکرد BigSleep

تولید عکس با کمک هوش مصنوعی

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

مهندسی پرامپت: راهنمای جامع از مبتدی تا پیشرفته

معرفی هوش مصنوعی سازمانی

از کدام چت‌بات‌های هوش مصنوعی استفاده کنیم؟

ضرورت بازنگری نقش کمیسیون هوش مصنوعی سازمان نصر ایران در سالگرد تأسیس

رونمایی از نخستین دستیار هوش مصنوعی قضایی ایران

ضرورت بازنگری نقش کمیسیون هوش مصنوعی سازمان نصر ایران در سالگرد تأسیس

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

قابلیت Model Council در Perplexity

پایان GPT-4o پیش از ولنتاین؛ کاربران خشمگین و غمگین شدند

افزونه هوش Claude در پاورپوینت

همکاری OpenAI با G42 برای ساخت هوش مصنوعی برای دولت امارات

GPT-5.2 به کشفی تازه در فیزیک نظری رسید

عملکرد BigSleep

تولید عکس با کمک هوش مصنوعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید