فناوری Visual ChatGPT، فراخوانی جدید برای تبدیل متن به تصویر

تیم تحریریه
۲۲ اسفند ۱۴۰۱
زمان مطالعه 4 دقیقه

به‌تازگی محققان مایکروسافت مقاله‌ای در خصوص ChatGPT منتشر کرده‌اند. در این مقاله، قابلیت‌های ChatGPT و مدل‌های پایه تصویری مانند Stable Diffusion گردآوری شده است. هدف این معماری که Visual ChatGPT نامیده می‌شود، پر کردن شکاف بین تولید متن به تصویر و زبان طبیعی است؛ به بیان دیگر، تحقیقات مایکروسافت بر آن است که به‌نوعی شکاف بین انسان و هوش مصنوعی را پر نماید.

همانطور که منبع واحد اطلاعات AIM پیش‌بینی کرده است، به نظر می‌رسد، این معماری، راهی برای الگوریتم‌های متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر، ترکیب می‌کند و یک بسته جامع ارائه می‌دهد که کاستی‌های این پلتفرم‌ها را رفع می‌کند. با آوردن پردازش زبان طبیعی به مدل‌های تولید تصویر مبتنی بر پارامتر، این امکان وجود دارد که با هوش مصنوعی به روشی ارگانیک‌تر تعامل گردد.

فهرست مقاله پنهان

1 روش کار کردن Visual ChatGPT

2 تغییر چهره متن به تصویر

روش کار کردن Visual ChatGPT

فناوری Visual ChatGPT نسخه‌ای نمایشی است که قابلیت به اشتراک‌گذاری تصاویر را با ChatGPT ایجاد می‌کند. در واقع، این فناوری، تشخیص تصویر و نیز اطلاعات بین مدل‌های پایه بصری مختلف، مانند مدل‌های Stable Diffusion ،ControlNet ،BLIP را از طریق یک «مدیر سریع» به اشتراک گذاشته، آن را تسهیل می‌کند.

مدل‌های بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعه‌ای از الگوریتم‌های بنیادی مورد استفاده برای بینایی رایانه استفاده می‌شود. این الگوریتم‌ها می‌توانند اساس مدل‌های پیچیده‌تر را تشکیل دهند و در مجموع برای ارائه قابلیت‌های بینایی رایانه استاندارد‌شده به برنامه‌های هوش مصنوعی، مورد استفاده قرار می‌گیرند.

وظیفه «مدیر سریع» پردازش یکپارچه خروجی رابط بین ChatGPT و این VFMها است. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. ChatGPT مانند پیشخدمتی است که سفارش‌های مشتریان را می‌گیرد، VFMها مانند سرآشپزهایی در آشپزخانه مشغول پختن ظرف هستند و «مدیر سریع» نقش یک مدیر آشپزخانه را بر عهده می‌گیرد که سفارش‌ها را بین پیشخدمت‌ها و سرآشپزها منتقل می‌کند. در نتیجه، «مدیر سریع» منطق و استدلالی است که به ChatGPT کمک می‌کند، تصمیم بگیرد که آیا نیاز به استفاده از ابزاری برای ارائه خروجی هست یا خیر. PM نیز وظایفی دارد. این فناوری ضمن مراقبت کردن از استدلال تکراری که پیش از این برای تنظیم دقیق تصویر خروجی استفاده می‌شده، از مدیریت نام فایل‌ها در خروجی ChatGPT و ردیابی نام فایل‌های تصویری نیز مراقبت می‌کند.

در حقیقت، «مدیر سریع» در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده می‌کند. به عبارت دیگر، این مدیر به جای کاربر می‌ایستد و ChatGPT را برای انجام درخواست‌ها به سمت خروجی موردنیاز حرکت می‌دهد. این کار منجر می‌شود، نسخه‌ای بسیار توانمندتر از ChatGPT ارائه گردد که بر توهمات متکی نیست و حتی از قابلیت‌های VFM نیز استفاده می‌کند.

تغییر چهره متن به تصویر

مشکلی که در نحوه عملکرد مدل‌های متن به تصویر وجود دارد این است که نمی‌تواند در زمینه بافت زبانی آن‌ها را درک کند. در مقاله‌ای با موضوع درک رابطه‌ای مدل‌های هوش مصنوعی مولد، دریافتند که این مدل‌ها روابط فیزیکی اشیاء خاص را درک نمی‌کنند. به عنوان مثال، این مدل می‌توانست تصاویری را ایجاد کند که یک کودک داشت یک کاسه را لمس می‌کرد، اما همان مدل قادر نبود تصاویری را بسازد که یک میمون در حال لمس یک ایگوانا باشد! دلیل این مشکل، نداشتن اطلاعات کافی در داده‌های آموزشی بود. برای اینکه چنین مشکلی برای همیشه حل شود، شغل جدیدی با عنوان زمزمه‌های هوش مصنوعی یا مهندسی سریع ایجاد شده است.

البته روند درک انسان‌ها از سوی مدل‌‌های هوش مصنوعی، هنوز ناشناخته مانده است که به مرور زمان توسط دانشمندان شناخته خواهد شد. به همین دلیل است که وب‌سایت‌هایی مانند «PromptHero» وجود دارند که دستورات زیادی را برای الگوریتم‌های متن به تصویر ارائه می‌دهند و مثلاً با نمایش یک کلمه به ظاهر بی‌معنی، می‌تواند تصاویر هوش مصنوعی خیره‌کننده‌ای ارائه دهد. مثال زیر را در نظر بگیرید:

همان‌طور که در این تصویر مشاهده می‌شود، ما وقتی می‌توانیم یک خروجی درست از یک مدل متن به تصویر دریافت کنیم که یک پایگاه دانش جامع در مورد چندوچون فایل ورودی در اختیار داشته باشیم. البته با نگاهی اجمالی به راه‌ و روشی که مدیر سریع مایکروسافت در پیش گرفته، به نظر می‌رسد پتانسیل این کار حتی قبل از شروع به پایان رسیده است!

از مثال‌های ارائه‌شده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل، نیازی به چنین دستورات پیچیده‌ای ندارند. آن‌ها به‌سادگی می‌توانند درخواست خود را به زبان طبیعی تایپ کنند. به عنوان مثال، پس از آنکه تصویر یک گربه ایجاد می‌شود، کاربر از ChatGPT می‌خواهد که گربه را با یک سگ جایگزین کند. او بدون اینکه دستور پیچیده‌ای داده باشد، با تصویری مواجه می‌شود که قادر است به طور مکرر تغییراتی مانند تغییر رنگ را در آن ایجاد نماید.

در انتها باید گفت ابزارهایی مانند Visual ChatGPT نه‌تنها قادرند چیزی را که مانع ورود مدل‌های متن به تصویر می‌شود، کاهش دهند، بلکه خود نیز قابلیت افزوده شدن به ابزارهای مختلف هوش مصنوعی را دارند. لازم به ذکر است، از طریق فناوری‌هایی مانند مدیر سریع، این امکان وجود دارد که بشود قابلیت‌های مدل‌های پیشرفته LLMو T2I را که پیش از این در سیلوها وجود داشتند، تقویت کرد.