از فناوری تبدیل متن به عکس Google Imagen چه میدانید؟
گوگل بهتازگی از یک فناوری هوش مصنوعی جدید با نام فناوری تبدیل متن به عکس Google Imagen رونمایی کرده است. این شاهکار هوش مصنوعی، متن را به عکس تبدیل میکند. هر چند این فناوری هنوز در دسترس عموم قرار نگرفته است، اما تصاویری که از متون ساده ایجاد میکند، حیرتآور هستند. مدلهای تبدیل متن به عکس که در Google Imagen به کار رفتهاند، متنی مانند «گربه روی اسکیتبرد» را به عنوان ورودی دریافت میکنند و تصویر مربوط به متن را خروجی میدهند. هر چند فناوری تبدیل متن به عکس Google Imagen در گذشته نیز وجود داشته، اما اخیراً کیفیت و میزان دسترسی آن بیشتر شده است.
اگر قرار باشد کارکرد این فناوری را بیان کنیم باید بگوییم، مرحله اول عملکرد Google Imagen، استفاده از تکنیکهای دیفیوژن مختلفی است که با تصاویر نویزدار آغاز میشوند. مدل، این کار را تا جایی ادامه میدهد که واقعیترین عکس ممکن از گربهای روی اِسکیتبُرد ارائه دهد. این فناوری، نسخه پیشرفتهتر نرمافزارهای قبلی است که گاهی اوقات در اولین حدس خود دچار اشتباهات فاحشی میشدند. رویکرد مبدل فناوری تبدیل متن به عکس Google Imagen باعث شده است، تا با بهرهگیری از مدل زبانی بزرگ، درک بهتری از زبان داشته باشد. قابلیتهایی از این دست، به علاوه سایر نقاط قوت این فناوری، به ظهور مدلهای محبوب همچون GPT-3 انجامیدهاند.
جنبههای فنی Google Imagen
جنبههای فنی Google Imagen بدین گونه است که ابتدا تصویری کوچک با اندازههای 64 x 64 پیکسل ایجاد میکند. سپس، دو نوبت عملیات «سوپر رزولوشن» را اجرا میکند، تا کیفیت تصویر به 1024 x 1024 برسد. با این حال، یکی از جنبههای فنی Google Imagen این است که فرایندی که فناوری تبدیل متن به عکس Google Imagen برای افزایش مقیاس تصویر به کار میبرد، با رویههای معمول تفاوت دارد، چون این سیستم با استفاده از تصویر اصلی به عنوان پایه، به جزئیات تصویر میافزاید.
فناوری تبدیل متن به عکس Google Imagen میتواند اشیاء سادهتر و شکل آنها را درک کند؛ به عنوان مثال، رسم جزئیات چشم گربه کار دشواری نخواهد بود، چون مدل آموزش دیده است، تا به چنین جزئیاتی توجه کند.
علل عدم انتشار عمومی
گوگل، همزمان با رونمایی از این مدل جدید هوش مصنوعی، مقالهای پژوهشی نیز منتشر کرده است که نتایج مقایسه عملکرد فناوری تبدیل متن به عکس Google Imagen با سیستمهای رقیبش بر اساس معیار Drawbench را گزارش میدهد. شاید فناوری تبدیل متن به عکس Google Imagen در نگاه اول بیخطر به نظر برسد، اما مقاله مذکور به آسیبهای بالقوه آن نیز اشاره کرده است. به گفته گوگل، مدلهای هوش مصنوعی «انواع سوگیریهای اجتماعی و تفکرات قالبی را وارد کدهای خود میکنند»؛ برای مثال، علیه افراد رنگینپوست سوگیری دارند یا بر اساس کلیشههای جنسیتی دنیای غرب، شغلهای خاصی را تنها به زنان یا تنها به مردان منتسب میکنند.
[irp posts=”27887″]گوگل قادر است کلمات یا عبارات خاص را فیلتر و دیتاستهای مفید را تغذیه کند؛ اما با توجه به حجم بالای دیتاستها، هر چیزی را نمیتوان فیلتر یا هر مشکلی را نمیتوان برطرف کرد. به اذعان گوگل، الگوریتمهای تبدیل متن به عکس به مقادیر زیادی داده آموزشی نیاز دارند؛ به همین دلیل، پژوهشگران به سمت استفاده از دیتاستهای web-scraped و معمولاً پراکنده سوق داده شدهاند و شاید علل عدم انتشار عمومی Google Imagen همینها باشد.
محاسبات دقیق نشان میدهند که دیتاستهای فناوری تبدیل متن به عکس Google Imagen، تعصبات اجتماعی، دیدگاههای سرکوبکننده و رفتارهای توهینآمیز و زیانبار نسبت به اقلیتها به نمایش میگذارند. بنا به گفته گوگل، با در نظر گرفتن همه این جوانب، شاید علل عدم انتشار عمومی Google Imagen برای کاربران مشخص شده باشد و لذا هنوز زمان عرضه عمومی این نرمافزار فرا نرسیده است.
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید