شبکه‌های مولد تخاصمی، سه بعدی و هندسه‌آگاه: EG3D

تیم تحریریه
۲۸ تیر ۱۴۰۱

زمان مطالعه: 3 دقیقه

تولید بدون نظارت از تصاویر باکیفیت و چندنمایی و اشکال سه‌ بعدی، با استفاده از عکس‌های دو بعدی تک‌نمایی، امری چالش‌برانگیز به شمار می‌رود. شبکه‌های مولد تخاصمی (GAN) کنونی یا از نظر محاسباتی سنگین هستند و یا برآورد سه ‌بعدی ارائه نمی‌دهند؛ مشکل اول کیفیت و رزولوشن تصاویر تولیدشده را کاهش می‌دهد و مشکل دوم، بر چندنمایی بودن و کیفیت خروجی اثر می‌گذارد. پژوهش حاضر توان محاسباتی و کیفیت تصاویر سه ‌بعدی GANها را ارتقاء می‌دهد. بدین منظور، شبکه‌ای دوگانه، گویا و ضمنی-عینی طراحی کرده و آن را قابلیت‌های دیگر طراحی تلفیق می‌کند تا تصاویر چندنمایی و اشکال هندسی باکیفیت ارائه دهد. این چارچوب می‌تواند با تکیه بر قابلیت‌های تولید ویژگی و رندرینگ عصبی، از کارآیی و گویایی جدیدترین مولدهای CNN دو بعدی همچون StyleGAN2 بهره‌مند شود. از جمله آزمایشات این پژوهش می‌‎توان به ساخت تصاویر سه ‌بعدی بی‌سابقه با FFHQ و AFHQ Cats اشاره کرد.

فهرست مقاله پنهان

1 یافته‌های کیفی

2 درون‌یابی

3 بازنمایی سه‌ صفحه‌ای

4 فرارزولوشن و تمیز دوگانه

5 معکوس‌سازی

6 بازنمایی لحظه‌ای

7 رنگ‌های اصلی/دموی هندسی

یافته‌های کیفی

ویدئوهای این قسمت، خروجی‌های باکیفیت، چندنمایی و اشکال هندسی دقیق روش جدید را نشان می‌دهند.

ویدئو 1: رندرینگ رنگی با روش جدید، که با حرکت دوربین در مسیری مشخص (همزمان با اصلاح کد نهانی که صحنه را کنترل می‌کند) تهیه شده است.

ویدئو 2: رندرینگ سطوح با روش جدید، که از میدان تراکم بازنمایی سه بعدی به همراه استخراج هم‌سطح به دست آمده است.

درون‌یابی

روش جدید از مزایای StyleGAN2، از جمله فضای نهان متناسب، بهره‌مند شده است. ویدئوی پایین درون‌یابی بین نقاط انتخاب شده در FFHQ را نشان می‌دهد.

ویدئو 3: درون‌یابی بین بردارهای نهان با FFHQ

بازنمایی سه‌ صفحه‌ای

از آن‌جایی که آموزش GANها با رندرینگ عصبی گران‌قیمت است، پژوهش حاضر از یک بازنمایی سه ‌بعدی و دوگانه ضمنی-عینی استفاده می‌کند. این بازنمایی یک ستون‌مهره عینی را با یک رمزگشای ضمنی کوچک تلفیق می‌کند؛ ستون‌ مهره مسئول تولید ویژگی‌هایی است که در سه صفحه‌ قائم، هم‌راستا هستند. سرعت بازنمایی سه‌ بعدی این روش، در مقایسه با بازنمایی پرسپترون‌های چندلایه‌ای معمولی، هفت برابر بیشتر است. علاوه بر این، مقدار حافظه‌ موردنیاز در این روش به یک‌شانزدهم کاهش می‌یابد. این رویکرد نقاط قوت StyleGAN2، از جمله فضای نهان متناسب آن را نیز داراست.

فرارزولوشن و تمیز دوگانه

اجرای رندرینگ حجمی در رزولوشن متوسط (128 x 128) و استفاده از کانولوشن‌های فضای تصویر دو بعدی، رزولوشن خروجی را افزایش می‌دهند (فرارزولوشن). با تضمین هم‌راستایی تصویر خروجی با رندرینگ عصبی (تمیز دوگانه)، لایه‌های کانولوشن نمی‌توانند اثرات نامطلوب ایجاد کنند.

ویدئو 4: دو ویدئوی بالا خروجی فرارزولوشن (سمت چپ هر صحنه) را با رندرینگ حجم عصبی (سمت راست هر صحنه) مقایسه می‌کنند.

آموزش ساده به لایه‌های فرارزولوشن کانولوشن اجازه می‌دهد اثراتی همچون انحنای کنار لب‌ها را برای نمایش بهتر احساسات وارد تصویر کنند. قابلیت تمیز دوگانه نیز هم‌راستایی رندرینگ نهایی با رندرینگ عصبی حجم را تضمین می‌کند.

ویدئو 5: مقایسه‌ مدل‌هایی که بدون تمیز دوگانه (سمت چپ) و با تمیز دوگانه (سمت راست) آموزش دیده‌اند.

معکوس‌سازی

دانشی که مدل از چهره‌های سه‌بُعدی آموخته است، روی بازسازی تصاویر سه‌ بعدی پیاده می‌شود. Pivotal Tuning Inversion برای معکوس‌سازی تصاویر و بازیابی اشکال سه بعدی و نماهای جدید به کار می‌رود.

ویدئو 6: بازسازی سه بعدی تصاویر با استفاده از Pivotal Tuning Inversion. تصویر ورودی در سمت چپ و بازسازی در سمت راست قرار دارد.

بازنمایی لحظه‌ای

طراحی کارآمد شبکه با امکان‌پذیر ساختن تولید و رندرینگ لحظه‌ای صحنه، مسیر را برای نرم‌افزارهای تعاملی فراوانی هموار می‌کند.

ویدئو 7: بازنمایی ساخت و رندرینگ لحظه‌ای.

رنگ‌های اصلی/دموی هندسی

ویدئو 8: درون‌یابی در FFHQ و صحنه‌های ثابت FFHQ و AFHQv2

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=28792

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

شبکه‌های مولد تخاصمی، سه بعدی و هندسه‌آگاه: EG3D

یافته‌های کیفی

درون‌یابی

بازنمایی سه‌ صفحه‌ای

فرارزولوشن و تمیز دوگانه

معکوس‌سازی

بازنمایی لحظه‌ای

رنگ‌های اصلی/دموی هندسی

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

«گروک» برای پاسخ به پرسش‌های حساس، اول نظر ایلان ماسک را می‌پرسد!

چرا چت‌بات‌ها «دونالد ترامپ» را دوست ندارند؟

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

راهنمای جامع درباره کاربردهای هوش مصنوعی در امنیت

راهنمای گام به گام نوشتن پرامپت نویسی برای هوش مصنوعی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

«گروک» برای پاسخ به پرسش‌های حساس، اول نظر ایلان ماسک را می‌پرسد!

چرا چت‌بات‌ها «دونالد ترامپ» را دوست ندارند؟

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

از «ایلان» به «ماسک»

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

راهنمای جامع درباره کاربردهای هوش مصنوعی در امنیت

راهنمای گام به گام نوشتن پرامپت نویسی برای هوش مصنوعی

یافته‌های کیفی

درون‌یابی

بازنمایی سه‌ صفحه‌ای

فرارزولوشن و تمیز دوگانه

معکوس‌سازی

بازنمایی لحظه‌ای

رنگ‌های اصلی/دموی هندسی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید