پوشش رسانه‌ای جیتکس ۲۰۲۴ | با ما همراه باشید

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 شبکه‌های مولد تخاصمی، سه بعدی و هندسه‌آگاه: EG3D

شبکه‌های مولد تخاصمی، سه بعدی و هندسه‌آگاه: EG3D

زمان مطالعه: 2 دقیقه

تولید بدون نظارت از تصاویر باکیفیت و چندنمایی و اشکال سه‌ بعدی، با استفاده از عکس‌های دو بعدی تک‌نمایی، امری چالش‌برانگیز به شمار می‌رود. شبکه‌های مولد تخاصمی (GAN) کنونی یا از نظر محاسباتی سنگین هستند و یا برآورد سه ‌بعدی ارائه نمی‌دهند؛ مشکل اول کیفیت و رزولوشن تصاویر تولیدشده را کاهش می‌دهد و مشکل دوم، بر چندنمایی بودن و کیفیت خروجی اثر می‌گذارد. پژوهش حاضر توان محاسباتی و کیفیت تصاویر سه ‌بعدی GANها را ارتقاء می‌دهد. بدین منظور، شبکه‌ای دوگانه، گویا و ضمنی-عینی طراحی کرده و آن را قابلیت‌های دیگر طراحی تلفیق می‌کند تا تصاویر چندنمایی و اشکال هندسی باکیفیت ارائه دهد. این چارچوب می‌تواند با تکیه بر قابلیت‌های تولید ویژگی و رندرینگ عصبی، از کارآیی و گویایی جدیدترین مولدهای CNN دو بعدی همچون StyleGAN2 بهره‌مند شود. از جمله آزمایشات این پژوهش می‌‎توان به ساخت تصاویر سه ‌بعدی بی‌سابقه با FFHQ و AFHQ Cats اشاره کرد.

یافته‌های کیفی

ویدئوهای این قسمت، خروجی‌های باکیفیت، چندنمایی و اشکال هندسی دقیق روش جدید را نشان می‌دهند.

ویدئو 1: رندرینگ رنگی با روش جدید، که با حرکت دوربین در مسیری مشخص (همزمان با اصلاح کد نهانی که صحنه را کنترل می‌کند) تهیه شده است.

ویدئو 2: رندرینگ سطوح با روش جدید، که از میدان تراکم بازنمایی سه بعدی به همراه استخراج هم‌سطح به دست آمده است.

درون‌یابی

روش جدید از مزایای StyleGAN2، از جمله فضای نهان متناسب، بهره‌مند شده است. ویدئوی پایین درون‌یابی بین نقاط انتخاب شده در FFHQ را نشان می‌دهد.

ویدئو 3: درون‌یابی بین بردارهای نهان با FFHQ

بازنمایی سه‌ صفحه‌ای

از آن‌جایی که آموزش GANها با رندرینگ عصبی گران‌قیمت است، پژوهش حاضر از یک بازنمایی سه ‌بعدی و دوگانه ضمنی-عینی استفاده می‌کند. این بازنمایی یک ستون‌مهره عینی را با یک رمزگشای ضمنی کوچک تلفیق می‌کند؛ ستون‌ مهره مسئول تولید ویژگی‌هایی است که در سه صفحه‌ قائم، هم‌راستا هستند. سرعت بازنمایی سه‌ بعدی این روش، در مقایسه با بازنمایی پرسپترون‌های چندلایه‌ای معمولی، هفت برابر بیشتر است. علاوه بر این، مقدار حافظه‌ موردنیاز در این روش به یک‌شانزدهم کاهش می‌یابد. این رویکرد نقاط قوت StyleGAN2، از جمله فضای نهان متناسب آن را نیز داراست.

فرارزولوشن و تمیز دوگانه

اجرای رندرینگ حجمی در رزولوشن متوسط (128 x 128) و استفاده از کانولوشن‌های فضای تصویر دو بعدی، رزولوشن خروجی را افزایش می‌دهند (فرارزولوشن). با تضمین هم‌راستایی تصویر خروجی با رندرینگ عصبی (تمیز دوگانه)، لایه‌های کانولوشن نمی‌توانند اثرات نامطلوب ایجاد کنند.

ویدئو 4: دو ویدئوی بالا خروجی فرارزولوشن (سمت چپ هر صحنه) را با رندرینگ حجم عصبی (سمت راست هر صحنه) مقایسه می‌کنند.

آموزش ساده به لایه‌های فرارزولوشن کانولوشن اجازه می‌دهد اثراتی همچون انحنای کنار لب‌ها را برای نمایش بهتر احساسات وارد تصویر کنند. قابلیت تمیز دوگانه نیز هم‌راستایی رندرینگ نهایی با رندرینگ عصبی حجم را تضمین می‌کند.

ویدئو 5: مقایسه‌ مدل‌هایی که بدون تمیز دوگانه (سمت چپ) و با تمیز دوگانه (سمت راست) آموزش دیده‌اند.

معکوس‌سازی

دانشی که مدل از چهره‌های سه‌بُعدی آموخته است، روی بازسازی تصاویر سه‌ بعدی پیاده می‌شود. Pivotal Tuning Inversion برای معکوس‌سازی تصاویر و بازیابی اشکال سه بعدی و نماهای جدید به کار می‌رود.

ویدئو 6: بازسازی سه بعدی تصاویر با استفاده از Pivotal Tuning Inversion. تصویر ورودی در سمت چپ و بازسازی در سمت راست قرار دارد.

بازنمایی لحظه‌ای

طراحی کارآمد شبکه با امکان‌پذیر ساختن تولید و رندرینگ لحظه‌ای صحنه، مسیر را برای نرم‌افزارهای تعاملی فراوانی هموار می‌کند.

ویدئو 7: بازنمایی ساخت و رندرینگ لحظه‌ای.

رنگ‌های اصلی/دموی هندسی

ویدئو 8: درون‌یابی در FFHQ و صحنه‌های ثابت FFHQ و AFHQv2

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]