40 گام به سوی آینده‌ای هوشمند - مجموعه وبینارهای رایگان در حوزه هوش مصنوعی
Filter by دسته‌ها
آموزش هوش مصنوعی و انواع آن
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
پایتون و ابزارهای یادگیری عمیق
کتابخانه‌ های یادگیری عمیق
یادگیری با نظارت
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
اخبار
تیتر یک
رسانه‌ها
آموزش پردازش زبان طبیعی
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
رویدادها
دوره
کارگاه
وبینار
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
وبینارها، کارگاره‌ها و دوره‌ها
 فناوری Visual ChatGPT، فراخوانی جدید برای تبدیل متن به تصویر

فناوری Visual ChatGPT، فراخوانی جدید برای تبدیل متن به تصویر

به‌تازگی محققان مایکروسافت مقاله‌ای در خصوص ChatGPT منتشر کرده‌اند. در این مقاله، قابلیت‌های ChatGPT و مدل‌های پایه تصویری مانند Stable Diffusion گردآوری شده است. هدف این معماری که Visual ChatGPT نامیده می‌شود، پر کردن شکاف بین تولید متن به تصویر و زبان طبیعی است؛ به بیان دیگر، تحقیقات مایکروسافت بر آن است که به‌نوعی شکاف بین انسان و هوش مصنوعی را پر نماید.

همانطور که منبع واحد اطلاعات AIM پیش‌بینی کرده است، به نظر می‌رسد، این معماری، راهی برای الگوریتم‌های متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر، ترکیب می‌کند و یک بسته جامع ارائه می‌دهد که کاستی‌های این پلتفرم‌ها را رفع می‌کند. با آوردن پردازش زبان طبیعی به مدل‌های تولید تصویر مبتنی بر پارامتر، این امکان وجود دارد که با هوش مصنوعی به روشی ارگانیک‌تر تعامل گردد.

 تبدیل متن به تصویر

روش کار کردن Visual ChatGPT

فناوری Visual ChatGPT نسخه‌ای نمایشی است که قابلیت به اشتراک‌گذاری تصاویر را با ChatGPT ایجاد می‌کند. در واقع، این فناوری، تشخیص تصویر و نیز اطلاعات بین مدل‌های پایه بصری مختلف، مانند مدل‌های Stable Diffusion ،ControlNet ،BLIP را از طریق یک «مدیر سریع» به اشتراک گذاشته، آن را تسهیل می‌کند.

مدل‌های بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعه‌ای از الگوریتم‌های بنیادی مورد استفاده برای بینایی رایانه استفاده می‌شود. این الگوریتم‌ها می‌توانند اساس مدل‌های پیچیده‌تر را تشکیل دهند و در مجموع برای ارائه قابلیت‌های بینایی رایانه استاندارد‌شده به برنامه‌های هوش مصنوعی، مورد استفاده قرار می‌گیرند.

وظیفه «مدیر سریع» پردازش یکپارچه خروجی رابط بین ChatGPT و این VFMها است. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. ChatGPT مانند پیشخدمتی است که سفارش‌های مشتریان را می‌گیرد، VFMها مانند سرآشپزهایی در آشپزخانه مشغول پختن ظرف هستند و «مدیر سریع» نقش یک مدیر آشپزخانه را بر عهده می‌گیرد که سفارش‌ها را بین پیشخدمت‌ها و سرآشپزها منتقل می‌کند. در نتیجه، «مدیر سریع» منطق و استدلالی است که به ChatGPT کمک می‌کند، تصمیم بگیرد که آیا نیاز به استفاده از ابزاری برای ارائه خروجی هست یا خیر. PM نیز وظایفی دارد. این فناوری ضمن مراقبت کردن از استدلال تکراری که پیش از این برای تنظیم دقیق تصویر خروجی استفاده می‌شده، از مدیریت نام فایل‌ها در خروجی ChatGPT و ردیابی نام فایل‌های تصویری نیز مراقبت می‌کند.

در حقیقت، «مدیر سریع» در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده می‌کند. به عبارت دیگر، این مدیر به جای کاربر می‌ایستد و ChatGPT را برای انجام درخواست‌ها به سمت خروجی موردنیاز حرکت می‌دهد. این کار منجر می‌شود، نسخه‌ای بسیار توانمندتر از ChatGPT ارائه گردد که بر توهمات متکی نیست و حتی از قابلیت‌های VFM نیز استفاده می‌کند.

Visual ChatGPT

تغییر چهره متن به تصویر

مشکلی که در نحوه عملکرد مدل‌های متن به تصویر وجود دارد این است که نمی‌تواند در زمینه بافت زبانی آن‌ها را درک کند. در مقاله‌ای با موضوع درک رابطه‌ای مدل‌های هوش مصنوعی مولد، دریافتند که این مدل‌ها روابط فیزیکی اشیاء خاص را درک نمی‌کنند. به عنوان مثال، این مدل می‌توانست تصاویری را ایجاد کند که یک کودک داشت یک کاسه را لمس می‌کرد، اما همان مدل قادر نبود تصاویری را بسازد که یک میمون در حال لمس یک ایگوانا باشد! دلیل این مشکل، نداشتن اطلاعات کافی در داده‌های آموزشی بود. برای اینکه چنین مشکلی برای همیشه حل شود، شغل جدیدی با عنوان زمزمه‌های هوش مصنوعی یا مهندسی سریع ایجاد شده است.

البته روند درک انسان‌ها از سوی مدل‌‌های هوش مصنوعی، هنوز ناشناخته مانده است که به مرور زمان توسط دانشمندان شناخته خواهد شد. به همین دلیل است که وب‌سایت‌هایی مانند «PromptHero» وجود دارند که دستورات زیادی را برای الگوریتم‌های متن به تصویر ارائه می‌دهند و مثلاً با نمایش یک کلمه به ظاهر بی‌معنی، می‌تواند تصاویر هوش مصنوعی خیره‌کننده‌ای ارائه دهد. مثال زیر را در نظر بگیرید:

همان‌طور که در این تصویر مشاهده می‌شود، ما وقتی می‌توانیم یک خروجی درست از یک مدل متن به تصویر دریافت کنیم که یک پایگاه دانش جامع در مورد چندوچون فایل ورودی در اختیار داشته باشیم. البته با نگاهی اجمالی به راه‌ و روشی که مدیر سریع مایکروسافت در پیش گرفته، به نظر می‌رسد پتانسیل این کار حتی قبل از شروع به پایان رسیده است!

از مثال‌های ارائه‌شده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل، نیازی به چنین دستورات پیچیده‌ای ندارند. آن‌ها به‌سادگی می‌توانند درخواست خود را به زبان طبیعی تایپ کنند. به عنوان مثال، پس از آنکه تصویر یک گربه ایجاد می‌شود، کاربر از ChatGPT می‌خواهد که گربه را با یک سگ جایگزین کند. او بدون اینکه دستور پیچیده‌ای داده باشد، با تصویری مواجه می‌شود که قادر است به طور مکرر تغییراتی مانند تغییر رنگ را در آن ایجاد نماید.

در انتها باید گفت ابزارهایی مانند Visual ChatGPT نه‌تنها قادرند چیزی را که مانع ورود مدل‌های متن به تصویر می‌شود، کاهش دهند، بلکه خود نیز قابلیت افزوده شدن به ابزارهای مختلف هوش مصنوعی را دارند. لازم به ذکر است، از طریق فناوری‌هایی مانند مدیر سریع، این امکان وجود دارد که بشود قابلیت‌های مدل‌های پیشرفته  LLMو T2I را که پیش از این در سیلوها وجود داشتند، تقویت کرد.

بنر اخبار هوش مصنوعی

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
لطفاً برای تکمیل این فرم، جاوا اسکریپت را در مرورگر خود فعال کنید.