شبکه های مولد تخاصمی
آموزش‌های پایه‌ای هوش مصنوعیآموزش‌های پیشرفته هوش مصنوعیبینایی ماشینپایتون و ابزارهای یادگیری عمیق

استفاده از شبکه های مولد تخاصمی برای تولید آثار هنری و فراتر از آن

    0
    مدت زمان مطالعه: ۳ دقیقه

    شبکه های مولد تخاصمی (GAN) Generative Adversarial Networks (GANs به طرز قابل ملاحظه‌ای پیشرفت کرده‌ است؛ از جمله قابلیت‌های پیشرفتۀ آن می‌توان به ترکیب و شبیه­ سازی فوق‌العاده دقیق چهره انسان، بازیابی رنگ و کیفیت ویدئوهای قدیمی و ساخت ویدئوهای دیپ فیک واقع‌گرایانه اشاره کرد. شبکه های‌ مولد تخاصمی عمدتاً بر تولید نمونه تمرکز دارد. پیکرۀ اصلیِ شبکه‌ های مولد تخاصمی از تولید کننده Generator و تفکیک کننده Discriminator تشکیل یافته است.

    تولید­کننده به ساخت نمونه‌هایی می‌پردازد که معمولاً از داده‌های آموزشی نشات می‌گیرند، اما تفکیک­ کننده به قضاوت درباره نمونه‌هایِ ساخته شده می‌پردازد تا واقعی یا جعلی بودن آنها مشخص شود. مثال: فرد جاعلی که در تلاش است پولی چاپ کند که قابل تشخیص از پول اصلی باشد، اما پلیس در تلاش است تا پول جعلی را تشخیص دهد. اگرچه GAN عمدتاً در زمینه ترکیب و شبیه­سازی عکس به موفقیت‌های چشمگیری دست یافته است، اما آیا امکانِ استفاده از GAN در حوزه‌های دیگر نیز وجود دارد؟

    تبدیل عکس به عکس Image-to-Image Translation

    ترجمه ماشین این قابلیت را دارد که با یادگیری نگاشت‌های جفت Pair mapping  جمله یا عبارت، از زبان مبداء به زبان مقصد ترجمه کند؛ به همین ترتیب، ترجمه عکس به عکس نیز به یادگیریِ نگاشت میان عکس ورودی و جفت عکس خروجی می‌پردازد.

    شبکه های مولد تخاصمی

    بر اساس مطالعه‌ای که در دانشگاه برکلی انجام شد، الگوریتمی ارائه شد که یاد می‌گیرد از عکسی به عکس دیگر ترجمه کند. مثلاً از گورخر به اسب، یا از تابستان به زمستان. محققانِ این دانشگاه در مطالعه خود روشی برای یادگیری در صورت نبودِ مثال‌های جفتی ارائه کردند. این روش که از زبان تخاصمی Adversarial Loss استفاده می‌کند، می‌تواند مرزهای یادگیری بدون نظارت را جابجا کند. شما می‌توانید با مراجعه وب‌سایتِ ما با کاربردهایِ خلاقانۀ این روش آشنا شوید.

    تولید متن Text Generation

    ماهیتِ متن، کار را برای GAN در تولید زنجیره‌هایی از توکن‌های گسسته Discrete Tokens دشوار می‌کند. خروجی‌های گسسته، انتقالِ آپدیت گرادیان از مدل تفکیک­ کننده به مدل تولید­کننده را به امری سخت و دشوار بدل کرده است. با این حال، آقای «یو» و همکارانش، SeqGAN را برای سرودن شعر چینی پیشنهاد دادند. SeqGAN با استفاده از ابزار BLEU score که در ارزیابی کیفیت متن کاربرد دارد، به سرودن اشعاری می‌پردازد که با نمونه‌های سروده شده توسط انسان توان رقابت دارد.

    افزون بر این، محققان اشعار چینیِ اصیل و تولید شده با این ابزار را ادغام نموده و از کارشناسان چینی در حوزه شعر دعوت به عمل آوردند تا دیدگاه خود را درباره اشعار اصیل و اشعار سروده شده توسط ماشین را اعلام کنند. در کمال تعجب، این کارشناسان نتوانستند اشعار اصیل را از اشعار ماشینی تشخیص دهند!

    تولید گراف شبکه Network Graph

    قابلیت تولید گراف‌های ترکیبی اما واقع‌گرایانه از اهمیت بسزایی در تشخیص نابهنجاری برخوردار است؛ به طوری که تفکیک میان شبکه‌های غیرعادی و شبکه‌های عادی به آسانی صورت می‌گیرد. بوچفسکی و همکارانش، NetGAN را پیشنهاد دادند. NetGAN گراف‌هایی تولید می‌کند که الگوهای مشهور شبکه را با استفاده از Wasserstein GAN نمایش می‌دهد. تولید­کننده NetGAN یاد می‌گیرد که گام‌های تصادفی در گراف واقعی ایجاد کند، اما تفکیک­ کننده این گراف را از گراف‌های اصلی تمییز می‌دهد.

    ترکیب یا سنتز صدا Audio Synthesis

    سنتز صدا در طراحیِ خلاقانۀ صدا در موسیقی و فیلم به کار برده شده است. این کلیپ‌های صوتی در پایگاه‌های داده بزرگی از افکت‌های صوتی ذخیره می‌شوند، اما شاید افکت صوتی ایده‌آلی در کتابخانه وجود نداشته باشد. آیا این امکان وجود دارد که با تنظیم چند پارامتر ورودی، افکت‌های صوتیِ مربوط به حرکت روی مسیرهای سنگریزه‌دار یا مسیرهای شِنی را تولید کنیم؟

    محققان دانشگاه کالیفرنیا به ارائۀ WaveGAN پرداختند. این ابزار یاد می‌گیرد تا صدا را برای تولید افکت‌های صوتی سنتز یا ترکیب کند. این ابزار در تولید افکت‌های صوتیِ نواخته شدن طبل عملکرد خوبی داشته است. WaveGAN می‌تواند صدای انواع گوناگونی از پرندگان را نیز تولید کند. این ابزار برای تولید صداهای پیانو از طیف وسیعی از الگوهای ریتمیک استفاده می‌کند. نمونه صداهای مربوط به آزمایش در این لینک گنجانده شده است.

    یو و همکارانش از SeqGAN با آموزش مجموعه‌ای قطعات موسیقی محلی به تولید آثار موسیقیایی پرداختند. این محققان در کارهای تحقیقاتی‌شان، فایل‌های midi را به زنجیره‌ای از اعداد (۱ تا ۸۸) تبدیل کردند تا ۸۸ صدای مختلف کلیدهای پیانو را پوشش دهند. روش آنان عملکردی بهتر از الگوریتم‌های موجود داشت، اما کارشناسان در خصوص قطعات موسیقیِ تولید شده اظهار نظر نکرده‌اند.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    بهینه سازی و روش جدید آن به منظور طراحی محاسباتی نرم‌افزارهای صنعتی

    مقاله قبلی

    چاپ مدولاتور موج میلی متری و ساخت آنتن آرایه فازی برای ارتباطات برگشتی

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *