فناوری Visual ChatGPT، فراخوانی جدید برای تبدیل متن به تصویر
بهتازگی محققان مایکروسافت مقالهای در خصوص ChatGPT منتشر کردهاند. در این مقاله، قابلیتهای ChatGPT و مدلهای پایه تصویری مانند Stable Diffusion گردآوری شده است. هدف این معماری که Visual ChatGPT نامیده میشود، پر کردن شکاف بین تولید متن به تصویر و زبان طبیعی است؛ به بیان دیگر، تحقیقات مایکروسافت بر آن است که بهنوعی شکاف بین انسان و هوش مصنوعی را پر نماید.
همانطور که منبع واحد اطلاعات AIM پیشبینی کرده است، به نظر میرسد، این معماری، راهی برای الگوریتمهای متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر، ترکیب میکند و یک بسته جامع ارائه میدهد که کاستیهای این پلتفرمها را رفع میکند. با آوردن پردازش زبان طبیعی به مدلهای تولید تصویر مبتنی بر پارامتر، این امکان وجود دارد که با هوش مصنوعی به روشی ارگانیکتر تعامل گردد.
روش کار کردن Visual ChatGPT
فناوری Visual ChatGPT نسخهای نمایشی است که قابلیت به اشتراکگذاری تصاویر را با ChatGPT ایجاد میکند. در واقع، این فناوری، تشخیص تصویر و نیز اطلاعات بین مدلهای پایه بصری مختلف، مانند مدلهای Stable Diffusion ،ControlNet ،BLIP را از طریق یک «مدیر سریع» به اشتراک گذاشته، آن را تسهیل میکند.
مدلهای بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعهای از الگوریتمهای بنیادی مورد استفاده برای بینایی رایانه استفاده میشود. این الگوریتمها میتوانند اساس مدلهای پیچیدهتر را تشکیل دهند و در مجموع برای ارائه قابلیتهای بینایی رایانه استانداردشده به برنامههای هوش مصنوعی، مورد استفاده قرار میگیرند.
وظیفه «مدیر سریع» پردازش یکپارچه خروجی رابط بین ChatGPT و این VFMها است. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. ChatGPT مانند پیشخدمتی است که سفارشهای مشتریان را میگیرد، VFMها مانند سرآشپزهایی در آشپزخانه مشغول پختن ظرف هستند و «مدیر سریع» نقش یک مدیر آشپزخانه را بر عهده میگیرد که سفارشها را بین پیشخدمتها و سرآشپزها منتقل میکند. در نتیجه، «مدیر سریع» منطق و استدلالی است که به ChatGPT کمک میکند، تصمیم بگیرد که آیا نیاز به استفاده از ابزاری برای ارائه خروجی هست یا خیر. PM نیز وظایفی دارد. این فناوری ضمن مراقبت کردن از استدلال تکراری که پیش از این برای تنظیم دقیق تصویر خروجی استفاده میشده، از مدیریت نام فایلها در خروجی ChatGPT و ردیابی نام فایلهای تصویری نیز مراقبت میکند.
در حقیقت، «مدیر سریع» در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده میکند. به عبارت دیگر، این مدیر به جای کاربر میایستد و ChatGPT را برای انجام درخواستها به سمت خروجی موردنیاز حرکت میدهد. این کار منجر میشود، نسخهای بسیار توانمندتر از ChatGPT ارائه گردد که بر توهمات متکی نیست و حتی از قابلیتهای VFM نیز استفاده میکند.
تغییر چهره متن به تصویر
مشکلی که در نحوه عملکرد مدلهای متن به تصویر وجود دارد این است که نمیتواند در زمینه بافت زبانی آنها را درک کند. در مقالهای با موضوع درک رابطهای مدلهای هوش مصنوعی مولد، دریافتند که این مدلها روابط فیزیکی اشیاء خاص را درک نمیکنند. به عنوان مثال، این مدل میتوانست تصاویری را ایجاد کند که یک کودک داشت یک کاسه را لمس میکرد، اما همان مدل قادر نبود تصاویری را بسازد که یک میمون در حال لمس یک ایگوانا باشد! دلیل این مشکل، نداشتن اطلاعات کافی در دادههای آموزشی بود. برای اینکه چنین مشکلی برای همیشه حل شود، شغل جدیدی با عنوان زمزمههای هوش مصنوعی یا مهندسی سریع ایجاد شده است.
البته روند درک انسانها از سوی مدلهای هوش مصنوعی، هنوز ناشناخته مانده است که به مرور زمان توسط دانشمندان شناخته خواهد شد. به همین دلیل است که وبسایتهایی مانند «PromptHero» وجود دارند که دستورات زیادی را برای الگوریتمهای متن به تصویر ارائه میدهند و مثلاً با نمایش یک کلمه به ظاهر بیمعنی، میتواند تصاویر هوش مصنوعی خیرهکنندهای ارائه دهد. مثال زیر را در نظر بگیرید:
همانطور که در این تصویر مشاهده میشود، ما وقتی میتوانیم یک خروجی درست از یک مدل متن به تصویر دریافت کنیم که یک پایگاه دانش جامع در مورد چندوچون فایل ورودی در اختیار داشته باشیم. البته با نگاهی اجمالی به راه و روشی که مدیر سریع مایکروسافت در پیش گرفته، به نظر میرسد پتانسیل این کار حتی قبل از شروع به پایان رسیده است!
از مثالهای ارائهشده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل، نیازی به چنین دستورات پیچیدهای ندارند. آنها بهسادگی میتوانند درخواست خود را به زبان طبیعی تایپ کنند. به عنوان مثال، پس از آنکه تصویر یک گربه ایجاد میشود، کاربر از ChatGPT میخواهد که گربه را با یک سگ جایگزین کند. او بدون اینکه دستور پیچیدهای داده باشد، با تصویری مواجه میشود که قادر است به طور مکرر تغییراتی مانند تغییر رنگ را در آن ایجاد نماید.
در انتها باید گفت ابزارهایی مانند Visual ChatGPT نهتنها قادرند چیزی را که مانع ورود مدلهای متن به تصویر میشود، کاهش دهند، بلکه خود نیز قابلیت افزوده شدن به ابزارهای مختلف هوش مصنوعی را دارند. لازم به ذکر است، از طریق فناوریهایی مانند مدیر سریع، این امکان وجود دارد که بشود قابلیتهای مدلهای پیشرفته LLMو T2I را که پیش از این در سیلوها وجود داشتند، تقویت کرد.