از فناوری تبدیل متن به عکس Google Imagen چه می‌دانید؟

تیم تحریریه
۱۸ خرداد ۱۴۰۱

زمان مطالعه: 2 دقیقه

گوگل به‌تازگی از یک فناوری هوش مصنوعی جدید با نام فناوری تبدیل متن به عکس Google Imagen رونمایی کرده است. این شاهکار هوش مصنوعی، متن را به عکس تبدیل می‌کند. هر چند این فناوری هنوز در دسترس عموم قرار نگرفته است، اما تصاویری که از متون ساده ایجاد می‌کند، حیرت‌آور هستند. مدل‌های تبدیل متن به عکس که در Google Imagen به کار رفته‌اند، متنی مانند «گربه روی اسکیت‌برد» را به عنوان ورودی دریافت می‌کنند و تصویر مربوط به متن را خروجی می‌دهند. هر چند فناوری تبدیل متن به عکس Google Imagen در گذشته نیز وجود داشته، اما اخیراً کیفیت و میزان دسترسی آن بیشتر شده است.

اگر قرار باشد کارکرد این فناوری را بیان کنیم باید بگوییم، مرحله اول عملکرد Google Imagen، استفاده از تکنیک‌های دیفیوژن مختلفی است که با تصاویر نویزدار آغاز می‌شوند. مدل، این کار را تا جایی ادامه می‌دهد که واقعی‌ترین عکس ممکن از گربه‌ای روی اِسکیت‌بُرد ارائه دهد. این فناوری، نسخه پیشرفته‌تر نرم‌افزارهای قبلی است که گاهی اوقات در اولین حدس خود دچار اشتباهات فاحشی می‌شدند. رویکرد مبدل فناوری تبدیل متن به عکس Google Imagen باعث شده است، تا با بهره‌گیری از مدل زبانی بزرگ، درک بهتری از زبان داشته باشد. قابلیت‌هایی از این دست، به علاوه‌ سایر نقاط قوت این فناوری، به ظهور مدل‌های محبوب همچون GPT-3 انجامیده‌اند.

فهرست مقاله پنهان

1 جنبه‌های فنی Google Imagen

2 علل عدم انتشار عمومی

جنبه‌های فنی Google Imagen

جنبه‌های فنی Google Imagen بدین گونه است که ابتدا تصویری کوچک با اندازه‌های 64 x 64 پیکسل ایجاد می‌کند. سپس، دو نوبت عملیات «سوپر رزولوشن» را اجرا می‌کند، تا کیفیت تصویر به 1024 x 1024 برسد. با این حال، یکی از جنبه‌های فنی Google Imagen این است که فرایندی که فناوری تبدیل متن به عکس Google Imagen برای افزایش مقیاس تصویر به کار می‌برد، با رویه‌های معمول تفاوت دارد، چون این سیستم با استفاده از تصویر اصلی به عنوان پایه، به جزئیات تصویر می‌افزاید.

فناوری تبدیل متن به عکس Google Imagen می‌تواند اشیاء ساده‌تر و شکل آن‌ها را درک کند؛ به عنوان مثال، رسم جزئیات چشم گربه کار دشواری نخواهد بود، چون مدل آموزش دیده است، تا به چنین جزئیاتی توجه کند.

علل عدم انتشار عمومی

گوگل، همزمان با رونمایی از این مدل جدید هوش مصنوعی، مقاله‌ای پژوهشی نیز منتشر کرده است که نتایج مقایسه‌ عملکرد فناوری تبدیل متن به عکس Google Imagen با سیستم‌های رقیبش بر اساس معیار Drawbench را گزارش می‌دهد. شاید فناوری تبدیل متن به عکس Google Imagen در نگاه اول بی‌خطر به نظر برسد، اما مقاله‌ مذکور به آسیب‌های بالقوه‌ آن نیز اشاره کرده است. به گفته‌ گوگل، مدل‌های هوش مصنوعی «انواع سوگیری‌های اجتماعی و تفکرات قالبی را وارد کدهای خود می‌کنند»؛ برای مثال، علیه افراد رنگین‌پوست سوگیری دارند یا بر اساس کلیشه‌های جنسیتی دنیای غرب، شغل‌های خاصی را تنها به زنان یا تنها به مردان منتسب می‌کنند.

[irp posts=”27887″]

گوگل قادر است کلمات یا عبارات خاص را فیلتر و دیتاست‌های مفید را تغذیه کند؛ اما با توجه به حجم بالای دیتاست‌ها، هر چیزی را نمی‌توان فیلتر یا هر مشکلی را نمی‌توان برطرف کرد. به اذعان گوگل، الگوریتم‌های تبدیل متن به عکس به مقادیر زیادی داده آموزشی نیاز دارند؛ به همین دلیل، پژوهشگران به سمت استفاده از دیتاست‌های web-scraped و معمولاً پراکنده سوق داده شده‌اند و شاید علل عدم انتشار عمومی Google Imagen همین‌ها باشد.

محاسبات دقیق نشان می‌دهند که دیتاست‌های فناوری تبدیل متن به عکس Google Imagen، تعصبات اجتماعی، دیدگاه‌های سرکوب‌کننده و رفتارهای توهین‌آمیز و زیان‌بار نسبت به اقلیت‌ها به نمایش می‌گذارند. بنا به گفته گوگل، با در نظر گرفتن همه این جوانب، شاید علل عدم انتشار عمومی Google Imagen برای کاربران مشخص شده باشد و لذا هنوز زمان عرضه عمومی این نرم‌افزار فرا نرسیده است.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

https://hooshio.com/?p=27203

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

از فناوری تبدیل متن به عکس Google Imagen چه می‌دانید؟

جنبه‌های فنی Google Imagen

علل عدم انتشار عمومی

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

جنبه‌های فنی Google Imagen

علل عدم انتشار عمومی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید