کتابخانه های نرم افزاری سبک TF-GAN
کتابخانه های نرم افزاری که امروزه برای یادگیری ماشینی استفاده میشوند، نقش بسیار مهمی در موفقیت تحقیقات ما دارند. باید کتابخانه های نرم افزاری با چنان سرعتی بهروزرسانی شوند که تحقیقات یادگیری ماشینی از قافله عقب نماند و به پیشرفت خود ادامه دهد.
ما در سال 2017 از عرضه کتابخانه سبک «TF-GAN» برای آموزش و ارزیابی شبکههای مولد تخاصمی (GANs) خبر دادیم. از آن زمان به بعد، «TF-GAN» در چندین پروژه و مقاله تاثیرگذار استفاده شده است. اکنون زمان معرفی نسخه جدیدی از «TF-GAN» فرا رسیده است. ویژگیهای جدیدی در این نسخه گنجانده شده است که در زیر به آنها اشاره خواهیم کرد.
پشتیبانی TPU ابری
دوره خودآموزشیِ شبکه مولد تخاصمی
متریک GAN
نمونهها
بسته PyPi
آموزش بر روی colaboratory
منبع GitHub
تنسورفلو (نسخه 2.0)
پروژههایی که از «TF-GAN» استفاده میکنند.
شبکه مولد تخاصمی خودتوجهی در TPU ابری
شبکه مولد تخاصمیِ خودتوجهی با استفاده از دو واحد سنجش «Inception Score» و «Frechet Inception Distance» به نتایج تازهای در خصوص تولید عکس دست یافتند. اکنون دو نسخه از این مدل به صورت منبع باز موجود میباشد و یکی از آنها در TPU ابری اجرا میشود. نسخه TPU عملکردی یکسان با نسخه GPU دارد؛ فقط با این تفاوت که 12 برابر سریعتر آموزش میدهد.
گسترش عکس (Image Extension):
مشکلی به نام «Image in-painting» وجود دارد که طی آن، بخش ناموجود از یک عکس بر اساس بافت پیرامونی پُر میشود. مطالعات زیادی در خصوص رفع این مشکل صورت گرفته است. اما مشکل دیگری موسوم به بسط عکس (image extension) مستلزم توجه و تحقیق بیشتری است. بر این اساس، الگوریتم باید عکس را بیرون از مرزهای آن و به شکلی سازگار و منطقی بسط بدهد. این کار میتواند در محیطهای واقعیت مجازی مفید باشد؛ یعنی جایی که نیاز به شبیهسازیِ خصوصیات مختلف دوربین احساس میشود. مهندسان تحقیقات گوگل اخیراً الگوریتم جدیدی ساختهاند که عکس را با ابزارهای کمتری در مقایسه با روشهای قبلی گسترش میدهد.
چند نمونه از روش بسط عکس
روش جدید با بکارگیری «TF-GAN» در ستون سمت راست قابل مشاهده است. امکان ایجاد اَشکال شیء بهتر با آن وجود دارد و در مقایسه با روشهای «in-painting» بافت خوبی هم ایجاد میکند. این دو روش با نام «DeepFill» و «PConv» شناخته میشوند.
BigGAN
تیم تحقیقات «DeepMind» در این مقاله روشهای تولید عکس را ارتقاء بخشید. در این راستا، از ترکیبی از تغییرات معماری، شبکه بزرگتر، مجموعه بزرگتر و TPU گوگل استفاده گردید. محققان از ماژول ارزیابی «TF-GAN» برای استاندارد کردن واحدهای اندازهگیریِ خود استفاده کردند و توانستند کیفیت عکس را در اندازههای مختلف ارتقاء ببخشند. شما میتوانید در TF Hub به عوامل BigGan دسترسی پیدا کنید.
GANSynth
محققان از کتابخانه «TF-GAN» برای ساخت «GanSynth» استفاده کردند که یک شبکه عصبی مولد تخاصمی است. این شبکه میتواند نوت موسیقی تولید کند. نوتهای تولیدشده واقعگرایانهتر از کارهای قبلی هستند. «GanSynth» همچنین میتواند ویژگیهای دیگری از قبیل آلت موسیقی را هم در فرایند کاری خود مد نظر قرار دهد.
به نظر شما چه پروژههای دیگری را میتوان با استفاده از «TF-GAN» انجام داد؟