استفاده از شبکه های مولد تخاصمی برای تولید آثار هنری و فراتر از آن

تیم تحریریه
۱۶ شهریور ۱۴۰۰

زمان مطالعه: 3 دقیقه

شبکه های مولد تخاصمی (GAN) Generative Adversarial Networks (GANs به طرز قابل ملاحظه‌ای پیشرفت کرده‌ است؛ از جمله قابلیت‌های پیشرفتۀ آن می‌توان به ترکیب و شبیه سازی فوق‌العاده دقیق چهره انسان، بازیابی رنگ و کیفیت ویدئوهای قدیمی و ساخت ویدئوهای دیپ فیک واقع‌گرایانه اشاره کرد. شبکه های‌ مولد تخاصمی عمدتاً بر تولید نمونه تمرکز دارد. پیکرۀ اصلیِ شبکه‌ های مولد تخاصمی از تولید کننده Generator و تفکیک کننده Discriminator تشکیل یافته است.

تولیدکننده به ساخت نمونه‌هایی می‌پردازد که معمولاً از داده‌های آموزشی نشات می‌گیرند، اما تفکیک کننده به قضاوت درباره نمونه‌هایِ ساخته شده می‌پردازد تا واقعی یا جعلی بودن آنها مشخص شود. مثال: فرد جاعلی که در تلاش است پولی چاپ کند که قابل تشخیص از پول اصلی باشد، اما پلیس در تلاش است تا پول جعلی را تشخیص دهد. اگرچه GAN عمدتاً در زمینه ترکیب و شبیهسازی عکس به موفقیت‌های چشمگیری دست یافته است، اما آیا امکانِ استفاده از GAN در حوزه‌های دیگر نیز وجود دارد؟

فهرست مقاله پنهان

1 تبدیل عکس به عکس Image-to-Image Translation

2 تولید متن Text Generation

3 تولید گراف شبکه Network Graph

4 ترکیب یا سنتز صدا Audio Synthesis

تبدیل عکس به عکس Image-to-Image Translation

ترجمه ماشین این قابلیت را دارد که با یادگیری نگاشت‌های جفت Pair mapping جمله یا عبارت، از زبان مبداء به زبان مقصد ترجمه کند؛ به همین ترتیب، ترجمه عکس به عکس نیز به یادگیریِ نگاشت میان عکس ورودی و جفت عکس خروجی می‌پردازد.

بر اساس مطالعه‌ای که در دانشگاه برکلی انجام شد، الگوریتمی ارائه شد که یاد می‌گیرد از عکسی به عکس دیگر ترجمه کند. مثلاً از گورخر به اسب، یا از تابستان به زمستان. محققانِ این دانشگاه در مطالعه خود روشی برای یادگیری در صورت نبودِ مثال‌های جفتی ارائه کردند. این روش که از زبان تخاصمی Adversarial Loss استفاده می‌کند، می‌تواند مرزهای یادگیری بدون نظارت را جابجا کند. شما می‌توانید با مراجعه وب‌سایتِ ما با کاربردهایِ خلاقانۀ این روش آشنا شوید.

تولید متن Text Generation

ماهیتِ متن، کار را برای GAN در تولید زنجیره‌هایی از توکن‌های گسسته Discrete Tokens دشوار می‌کند. خروجی‌های گسسته، انتقالِ آپدیت گرادیان از مدل تفکیک کننده به مدل تولیدکننده را به امری سخت و دشوار بدل کرده است. با این حال، آقای «یو» و همکارانش، SeqGAN را برای سرودن شعر چینی پیشنهاد دادند. SeqGAN با استفاده از ابزار BLEU score که در ارزیابی کیفیت متن کاربرد دارد، به سرودن اشعاری می‌پردازد که با نمونه‌های سروده شده توسط انسان توان رقابت دارد.

افزون بر این، محققان اشعار چینیِ اصیل و تولید شده با این ابزار را ادغام نموده و از کارشناسان چینی در حوزه شعر دعوت به عمل آوردند تا دیدگاه خود را درباره اشعار اصیل و اشعار سروده شده توسط ماشین را اعلام کنند. در کمال تعجب، این کارشناسان نتوانستند اشعار اصیل را از اشعار ماشینی تشخیص دهند!

تولید گراف شبکه Network Graph

قابلیت تولید گراف‌های ترکیبی اما واقع‌گرایانه از اهمیت بسزایی در تشخیص نابهنجاری برخوردار است؛ به طوری که تفکیک میان شبکه‌های غیرعادی و شبکه‌های عادی به آسانی صورت می‌گیرد. بوچفسکی و همکارانش، NetGAN را پیشنهاد دادند. NetGAN گراف‌هایی تولید می‌کند که الگوهای مشهور شبکه را با استفاده از Wasserstein GAN نمایش می‌دهد. تولیدکننده NetGAN یاد می‌گیرد که گام‌های تصادفی در گراف واقعی ایجاد کند، اما تفکیک کننده این گراف را از گراف‌های اصلی تمییز می‌دهد.

ترکیب یا سنتز صدا Audio Synthesis

سنتز صدا در طراحیِ خلاقانۀ صدا در موسیقی و فیلم به کار برده شده است. این کلیپ‌های صوتی در پایگاه‌های داده بزرگی از افکت‌های صوتی ذخیره می‌شوند، اما شاید افکت صوتی ایده‌آلی در کتابخانه وجود نداشته باشد. آیا این امکان وجود دارد که با تنظیم چند پارامتر ورودی، افکت‌های صوتیِ مربوط به حرکت روی مسیرهای سنگریزه‌دار یا مسیرهای شِنی را تولید کنیم؟

محققان دانشگاه کالیفرنیا به ارائۀ WaveGAN پرداختند. این ابزار یاد می‌گیرد تا صدا را برای تولید افکت‌های صوتی سنتز یا ترکیب کند. این ابزار در تولید افکت‌های صوتیِ نواخته شدن طبل عملکرد خوبی داشته است. WaveGAN می‌تواند صدای انواع گوناگونی از پرندگان را نیز تولید کند. این ابزار برای تولید صداهای پیانو از طیف وسیعی از الگوهای ریتمیک استفاده می‌کند. نمونه صداهای مربوط به آزمایش در این لینک گنجانده شده است.

یو و همکارانش از SeqGAN با آموزش مجموعه‌ای قطعات موسیقی محلی به تولید آثار موسیقیایی پرداختند. این محققان در کارهای تحقیقاتی‌شان، فایل‌های midi را به زنجیره‌ای از اعداد (1 تا 88) تبدیل کردند تا 88 صدای مختلف کلیدهای پیانو را پوشش دهند. روش آنان عملکردی بهتر از الگوریتم‌های موجود داشت، اما کارشناسان در خصوص قطعات موسیقیِ تولید شده اظهار نظر نکرده‌اند.

https://hooshio.com/?p=6291

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

استفاده از شبکه های مولد تخاصمی برای تولید آثار هنری و فراتر از آن

تبدیل عکس به عکس Image-to-Image Translation

تولید متن Text Generation

تولید گراف شبکه Network Graph

ترکیب یا سنتز صدا Audio Synthesis

دانشمند ارشد Anthropic با پیامی مرموز استعفا داد

گوگل از سرقت «Gemini» خبر داد

بدون هوش مصنوعی شانسی در رقابت‌های جهانی نداریم

نویسنده «پالپ فیکشن» با کمک هوش مصنوعی صاحب ۳ فیلم جدید شد

یک مدل زبانی بزرگ برای ستارگان

آغاز عصر نوین در اثبات‌های ریاضی

مسابقه رمزگشایی یک طومار باستانی

مهندسی پرامپت: راهنمای جامع از مبتدی تا پیشرفته

بدون هوش مصنوعی شانسی در رقابت‌های جهانی نداریم

رونمایی از نخستین دستیار هوش مصنوعی قضایی ایران

ضرورت بازنگری نقش کمیسیون هوش مصنوعی سازمان نصر ایران در سالگرد تأسیس

سامانه هوش مصنوعی مرکز وکلا قوه قضاییه رونمایی شد

دانشمند ارشد Anthropic با پیامی مرموز استعفا داد

گوگل از سرقت «Gemini» خبر داد

نویسنده «پالپ فیکشن» با کمک هوش مصنوعی صاحب ۳ فیلم جدید شد

gemini 3.1 pro معرفی شد

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

یک مدل زبانی بزرگ برای ستارگان

آغاز عصر نوین در اثبات‌های ریاضی

مسابقه رمزگشایی یک طومار باستانی

دانشمند ارشد Anthropic با پیامی مرموز استعفا داد

گوگل از سرقت «Gemini» خبر داد

تبدیل عکس به عکس Image-to-Image Translation

تولید متن Text Generation

تولید گراف شبکه Network Graph

ترکیب یا سنتز صدا Audio Synthesis

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید