شبکههای مولد تخاصمی، سه بعدی و هندسهآگاه: EG3D
تولید بدون نظارت از تصاویر باکیفیت و چندنمایی و اشکال سه بعدی، با استفاده از عکسهای دو بعدی تکنمایی، امری چالشبرانگیز به شمار میرود. شبکههای مولد تخاصمی (GAN) کنونی یا از نظر محاسباتی سنگین هستند و یا برآورد سه بعدی ارائه نمیدهند؛ مشکل اول کیفیت و رزولوشن تصاویر تولیدشده را کاهش میدهد و مشکل دوم، بر چندنمایی بودن و کیفیت خروجی اثر میگذارد. پژوهش حاضر توان محاسباتی و کیفیت تصاویر سه بعدی GANها را ارتقاء میدهد. بدین منظور، شبکهای دوگانه، گویا و ضمنی-عینی طراحی کرده و آن را قابلیتهای دیگر طراحی تلفیق میکند تا تصاویر چندنمایی و اشکال هندسی باکیفیت ارائه دهد. این چارچوب میتواند با تکیه بر قابلیتهای تولید ویژگی و رندرینگ عصبی، از کارآیی و گویایی جدیدترین مولدهای CNN دو بعدی همچون StyleGAN2 بهرهمند شود. از جمله آزمایشات این پژوهش میتوان به ساخت تصاویر سه بعدی بیسابقه با FFHQ و AFHQ Cats اشاره کرد.
یافتههای کیفی
ویدئوهای این قسمت، خروجیهای باکیفیت، چندنمایی و اشکال هندسی دقیق روش جدید را نشان میدهند.
ویدئو 1: رندرینگ رنگی با روش جدید، که با حرکت دوربین در مسیری مشخص (همزمان با اصلاح کد نهانی که صحنه را کنترل میکند) تهیه شده است.
ویدئو 2: رندرینگ سطوح با روش جدید، که از میدان تراکم بازنمایی سه بعدی به همراه استخراج همسطح به دست آمده است.
درونیابی
روش جدید از مزایای StyleGAN2، از جمله فضای نهان متناسب، بهرهمند شده است. ویدئوی پایین درونیابی بین نقاط انتخاب شده در FFHQ را نشان میدهد.
ویدئو 3: درونیابی بین بردارهای نهان با FFHQ
بازنمایی سه صفحهای
از آنجایی که آموزش GANها با رندرینگ عصبی گرانقیمت است، پژوهش حاضر از یک بازنمایی سه بعدی و دوگانه ضمنی-عینی استفاده میکند. این بازنمایی یک ستونمهره عینی را با یک رمزگشای ضمنی کوچک تلفیق میکند؛ ستون مهره مسئول تولید ویژگیهایی است که در سه صفحه قائم، همراستا هستند. سرعت بازنمایی سه بعدی این روش، در مقایسه با بازنمایی پرسپترونهای چندلایهای معمولی، هفت برابر بیشتر است. علاوه بر این، مقدار حافظه موردنیاز در این روش به یکشانزدهم کاهش مییابد. این رویکرد نقاط قوت StyleGAN2، از جمله فضای نهان متناسب آن را نیز داراست.
فرارزولوشن و تمیز دوگانه
اجرای رندرینگ حجمی در رزولوشن متوسط (128 x 128) و استفاده از کانولوشنهای فضای تصویر دو بعدی، رزولوشن خروجی را افزایش میدهند (فرارزولوشن). با تضمین همراستایی تصویر خروجی با رندرینگ عصبی (تمیز دوگانه)، لایههای کانولوشن نمیتوانند اثرات نامطلوب ایجاد کنند.
ویدئو 4: دو ویدئوی بالا خروجی فرارزولوشن (سمت چپ هر صحنه) را با رندرینگ حجم عصبی (سمت راست هر صحنه) مقایسه میکنند.
آموزش ساده به لایههای فرارزولوشن کانولوشن اجازه میدهد اثراتی همچون انحنای کنار لبها را برای نمایش بهتر احساسات وارد تصویر کنند. قابلیت تمیز دوگانه نیز همراستایی رندرینگ نهایی با رندرینگ عصبی حجم را تضمین میکند.
ویدئو 5: مقایسه مدلهایی که بدون تمیز دوگانه (سمت چپ) و با تمیز دوگانه (سمت راست) آموزش دیدهاند.
معکوسسازی
دانشی که مدل از چهرههای سهبُعدی آموخته است، روی بازسازی تصاویر سه بعدی پیاده میشود. Pivotal Tuning Inversion برای معکوسسازی تصاویر و بازیابی اشکال سه بعدی و نماهای جدید به کار میرود.
ویدئو 6: بازسازی سه بعدی تصاویر با استفاده از Pivotal Tuning Inversion. تصویر ورودی در سمت چپ و بازسازی در سمت راست قرار دارد.
بازنمایی لحظهای
طراحی کارآمد شبکه با امکانپذیر ساختن تولید و رندرینگ لحظهای صحنه، مسیر را برای نرمافزارهای تعاملی فراوانی هموار میکند.
ویدئو 7: بازنمایی ساخت و رندرینگ لحظهای.
رنگهای اصلی/دموی هندسی
ویدئو 8: درونیابی در FFHQ و صحنههای ثابت FFHQ و AFHQv2
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید