استفاده از شبکه های مولد تخاصمی برای تولید آثار هنری و فراتر از آن
شبکه های مولد تخاصمی (GAN) Generative Adversarial Networks (GANs به طرز قابل ملاحظهای پیشرفت کرده است؛ از جمله قابلیتهای پیشرفتۀ آن میتوان به ترکیب و شبیه سازی فوقالعاده دقیق چهره انسان، بازیابی رنگ و کیفیت ویدئوهای قدیمی و ساخت ویدئوهای دیپ فیک واقعگرایانه اشاره کرد. شبکه های مولد تخاصمی عمدتاً بر تولید نمونه تمرکز دارد. پیکرۀ اصلیِ شبکه های مولد تخاصمی از تولید کننده Generator و تفکیک کننده Discriminator تشکیل یافته است.
تولیدکننده به ساخت نمونههایی میپردازد که معمولاً از دادههای آموزشی نشات میگیرند، اما تفکیک کننده به قضاوت درباره نمونههایِ ساخته شده میپردازد تا واقعی یا جعلی بودن آنها مشخص شود. مثال: فرد جاعلی که در تلاش است پولی چاپ کند که قابل تشخیص از پول اصلی باشد، اما پلیس در تلاش است تا پول جعلی را تشخیص دهد. اگرچه GAN عمدتاً در زمینه ترکیب و شبیهسازی عکس به موفقیتهای چشمگیری دست یافته است، اما آیا امکانِ استفاده از GAN در حوزههای دیگر نیز وجود دارد؟
تبدیل عکس به عکس Image-to-Image Translation
ترجمه ماشین این قابلیت را دارد که با یادگیری نگاشتهای جفت Pair mapping جمله یا عبارت، از زبان مبداء به زبان مقصد ترجمه کند؛ به همین ترتیب، ترجمه عکس به عکس نیز به یادگیریِ نگاشت میان عکس ورودی و جفت عکس خروجی میپردازد.
بر اساس مطالعهای که در دانشگاه برکلی انجام شد، الگوریتمی ارائه شد که یاد میگیرد از عکسی به عکس دیگر ترجمه کند. مثلاً از گورخر به اسب، یا از تابستان به زمستان. محققانِ این دانشگاه در مطالعه خود روشی برای یادگیری در صورت نبودِ مثالهای جفتی ارائه کردند. این روش که از زبان تخاصمی Adversarial Loss استفاده میکند، میتواند مرزهای یادگیری بدون نظارت را جابجا کند. شما میتوانید با مراجعه وبسایتِ ما با کاربردهایِ خلاقانۀ این روش آشنا شوید.
تولید متن Text Generation
ماهیتِ متن، کار را برای GAN در تولید زنجیرههایی از توکنهای گسسته Discrete Tokens دشوار میکند. خروجیهای گسسته، انتقالِ آپدیت گرادیان از مدل تفکیک کننده به مدل تولیدکننده را به امری سخت و دشوار بدل کرده است. با این حال، آقای «یو» و همکارانش، SeqGAN را برای سرودن شعر چینی پیشنهاد دادند. SeqGAN با استفاده از ابزار BLEU score که در ارزیابی کیفیت متن کاربرد دارد، به سرودن اشعاری میپردازد که با نمونههای سروده شده توسط انسان توان رقابت دارد.
افزون بر این، محققان اشعار چینیِ اصیل و تولید شده با این ابزار را ادغام نموده و از کارشناسان چینی در حوزه شعر دعوت به عمل آوردند تا دیدگاه خود را درباره اشعار اصیل و اشعار سروده شده توسط ماشین را اعلام کنند. در کمال تعجب، این کارشناسان نتوانستند اشعار اصیل را از اشعار ماشینی تشخیص دهند!
تولید گراف شبکه Network Graph
قابلیت تولید گرافهای ترکیبی اما واقعگرایانه از اهمیت بسزایی در تشخیص نابهنجاری برخوردار است؛ به طوری که تفکیک میان شبکههای غیرعادی و شبکههای عادی به آسانی صورت میگیرد. بوچفسکی و همکارانش، NetGAN را پیشنهاد دادند. NetGAN گرافهایی تولید میکند که الگوهای مشهور شبکه را با استفاده از Wasserstein GAN نمایش میدهد. تولیدکننده NetGAN یاد میگیرد که گامهای تصادفی در گراف واقعی ایجاد کند، اما تفکیک کننده این گراف را از گرافهای اصلی تمییز میدهد.
ترکیب یا سنتز صدا Audio Synthesis
سنتز صدا در طراحیِ خلاقانۀ صدا در موسیقی و فیلم به کار برده شده است. این کلیپهای صوتی در پایگاههای داده بزرگی از افکتهای صوتی ذخیره میشوند، اما شاید افکت صوتی ایدهآلی در کتابخانه وجود نداشته باشد. آیا این امکان وجود دارد که با تنظیم چند پارامتر ورودی، افکتهای صوتیِ مربوط به حرکت روی مسیرهای سنگریزهدار یا مسیرهای شِنی را تولید کنیم؟
محققان دانشگاه کالیفرنیا به ارائۀ WaveGAN پرداختند. این ابزار یاد میگیرد تا صدا را برای تولید افکتهای صوتی سنتز یا ترکیب کند. این ابزار در تولید افکتهای صوتیِ نواخته شدن طبل عملکرد خوبی داشته است. WaveGAN میتواند صدای انواع گوناگونی از پرندگان را نیز تولید کند. این ابزار برای تولید صداهای پیانو از طیف وسیعی از الگوهای ریتمیک استفاده میکند. نمونه صداهای مربوط به آزمایش در این لینک گنجانده شده است.
یو و همکارانش از SeqGAN با آموزش مجموعهای قطعات موسیقی محلی به تولید آثار موسیقیایی پرداختند. این محققان در کارهای تحقیقاتیشان، فایلهای midi را به زنجیرهای از اعداد (1 تا 88) تبدیل کردند تا 88 صدای مختلف کلیدهای پیانو را پوشش دهند. روش آنان عملکردی بهتر از الگوریتمهای موجود داشت، اما کارشناسان در خصوص قطعات موسیقیِ تولید شده اظهار نظر نکردهاند.