کتابخانه های نرم افزاری سبک TF-GAN

تیم تحریریه
۱۷ اسفند ۱۴۰۰

زمان مطالعه: 4 دقیقه

کتابخانه های نرم افزاری که امروزه برای یادگیری ماشینی استفاده می‌شوند، نقش بسیار مهمی در موفقیت تحقیقات ما دارند. باید کتابخانه های نرم افزاری با چنان سرعتی به‌روزرسانی شوند که تحقیقات یادگیری ماشینی از قافله عقب نماند و به پیشرفت خود ادامه دهد.

ما در سال 2017 از عرضه کتابخانه سبک «TF-GAN» برای آموزش و ارزیابی شبکه‌های مولد تخاصمی (GANs) خبر دادیم. از آن زمان به بعد، «TF-GAN» در چندین پروژه و مقاله تاثیرگذار استفاده شده است. اکنون زمان معرفی نسخه جدیدی از «TF-GAN» فرا رسیده است. ویژگی‌های جدیدی در این نسخه گنجانده شده است که در زیر به آنها اشاره خواهیم کرد.

پشتیبانی TPU ابری

اکنون امکان استفاده از «TF-GAN» برای آموزش شبکه‌های مولد تخاصمی در سرویس‌های TPU ابری گوگل وجود دارد. واحدهای پردازش تنسور که به اختصار «TPU» نامیده می‌شوند، به گفته می‌شود. TPUها برای شتاب‌دهی به حجم کار یادگیری ماشینی استفاده می‌شوند. مدل‌هایی که قبلاً در پلتفرم‌های سخت‌افزاریِ دیگر به چند هفته زمان احتیاج داشتند، می‌توانند در عرض چند ساعت در واحدهای TPU ادغام شوند. این نمونه‌ی منبع باز به آموزشِ شبکه مولد تخاصمی اشاره می‌کند که توان تولید عکس را دارد. ما در بخش‌های زیر به تفصیل درباره این موضوع بحث خواهیم کرد. همچنین، کاربران می‌توانند کتابخانه «TF-GAN» را به صورت رایگان در TPU اجرا کنند.

دوره خودآموزشیِ شبکه مولد تخاصمی

یادگیری ماشین زمانی به بهترین نحو عمل می‌کند که دسترسی به دانش، آزادانه در دسترس باشد. به همین منظور، یک دوره خودآموزشیِ شبکه مولد تخاصمی بر اساس دوره‌های GAN ارائه شده است که شرکت گوگل برای چندین سال آن دوره را برای کارمندان خود در نظر گرفته است. تماشای ویدئوها، خواندن دستورالعمل‌ها، پیگیری تمرین‌ها و انجام نمونه کدها از جمله اقدامات خوبی هستند که می‌توانید به منظور کسب تخصص در یادگیری ماشینی انجام دهید.

متریک GAN

گاهی اوقات مقاله‌های آکادمیک یک واحد سنجش ابداع کرده و سپس از آن برای اندازه‌گیری نتایج‌شان استفاده می‌کنند. به منظور تسهیل مقایسه نتایج مقاله‌های مختلف، «TF-GAN» استفاده از واحد‌های اندازه‌گیری استاندارد را سهولت بخشیده است. واحدهای اندازه‌گیری «TF-GAN» علاوه بر افزایش دقتِ عددی و کاهش سوگیری آماری، از لحاظ محاسباتی بسیار کارآمد هستند و کاربران در استفاده از آن احساس راحتی می‌کنند.

نمونه‌ها

تحقیقات در خصوص شبکه‌های مولد تخاصمی با سرعتی باورنکردنی در جریان است. «TF-GAN» خواهانِ این نیست که روی همه نمونه مدل‌های GAN تمرکز کند، اما نمونه‌هایی در این مقاله آورده‌شده است که از نظر ما مفید و مرتبط هستند؛ مثل شبکه مولد تخاصمیِ خودتوجهی .

بسته PyPi

اکنون امکان نصب «TF-GAN» با pip install tensorflow-gan برای کاربران فراهم شده است. کاربران همچنین می‌توانند آن را با import tensorflow_gan as tfgan نیز استفاده نمایند.

آموزش بر روی colaboratory

در حال حاضر، می‌توانید دوره‌های آموزشی را با TPUها و GPUهای رایگان گوگل استفاده کنید.

منبع GitHub

در حال حاضر کتابخانه «TF-GAN» که یکی از کتابخانه های نرم افزاری است در منبع خود قابل دسترس است. این کار باعث می‌شود تغییرات به راحتی ردیابی شوند.

تنسورفلو (نسخه 2.0)

«TF-GAN» اکنون با نسخه دوم نیز سازگار است؛ تلاش‌ها برای سازگار کردنِ آن با «Keras» ادامه دارد. می‌توان چند نمونه «GAN Keras» پیدا کنید که از «TF-GAN» در tensorflow.org/beta استفاده نمی‌کنند؛ مثل DCGAN، Pix2Pix و CycleGAN.

پروژه‌هایی که از «TF-GAN» استفاده می‌کنند.

شبکه مولد تخاصمی خودتوجهی در TPU ابری

tpu — عکس سمت چپ: واقعی، عکس میانی: تولیدشده(TPU)، عکس سمت راست: تولیدشده(TPU)

شبکه مولد تخاصمیِ خودتوجهی با استفاده از دو واحد سنجش «Inception Score» و «Frechet Inception Distance» به نتایج تازه‌ای در خصوص تولید عکس دست یافتند. اکنون دو نسخه از این مدل به صورت منبع باز موجود می‌باشد و یکی از آنها در TPU ابری اجرا می‌شود. نسخه TPU عملکردی یکسان با نسخه GPU دارد؛ فقط با این تفاوت که 12 برابر سریع‌تر آموزش می‌دهد.

گسترش عکس (Image Extension):

مشکلی به نام «Image in-painting» وجود دارد که طی آن، بخش ناموجود از یک عکس بر اساس بافت پیرامونی پُر می‌شود. مطالعات زیادی در خصوص رفع این مشکل صورت گرفته است. اما مشکل دیگری موسوم به بسط عکس (image extension) مستلزم توجه و تحقیق بیشتری است. بر این اساس، الگوریتم باید عکس را بیرون از مرزهای آن و به شکلی سازگار و منطقی بسط بدهد. این کار می‌تواند در محیط‌های واقعیت مجازی مفید باشد؛ یعنی جایی که نیاز به شبیه‌سازیِ خصوصیات مختلف دوربین احساس می‌شود. مهندسان تحقیقات گوگل اخیراً الگوریتم جدیدی ساخته‌اند که عکس را با ابزارهای کمتری در مقایسه با روش‌های قبلی گسترش می‌دهد.

image extention — چند نمونه از بسط عکس: روش جدید با استفاده از TF-GAN در ستون سمت راست قرار دارد. این شکل های بهتری را از شیء ایجاد می کند (ردیف های بالا / میانی) و بافت های خوبی را ایجاد می کند (ردیف های میانی / پایین) ، در مقایسه با دوحالت از روشهای ثبت هنرعکاسی: DeepFill و PConv. تصویر ورودی بر روی ناحیه ماسک شده (نشان داده شده در ستون خاکستری ، سمت چپ) گسترش می یابد.

چند نمونه از روش بسط عکس

روش جدید با بکارگیری «TF-GAN» در ستون سمت راست قابل مشاهده است. امکان ایجاد اَشکال شیء بهتر با آن وجود دارد و در مقایسه با روش‌های «in-painting» بافت خوبی هم ایجاد می‌کند. این دو روش با نام «DeepFill» و «PConv» شناخته می‌شوند.

BigGAN

تیم تحقیقات «DeepMind» در این مقاله روش‌های تولید عکس را ارتقاء بخشید. در این راستا، از ترکیبی از تغییرات معماری، شبکه بزرگتر، مجموعه بزرگتر و TPU گوگل استفاده گردید. محققان از ماژول ارزیابی «TF-GAN» برای استاندارد کردن واحدهای اندازه‌گیریِ خود استفاده کردند و توانستند کیفیت عکس را در اندازه‌های مختلف ارتقاء ببخشند. شما می‌توانید در TF Hub به عوامل BigGan دسترسی پیدا کنید.

GANSynth

محققان از کتابخانه «TF-GAN» برای ساخت «GanSynth» استفاده کردند که یک شبکه عصبی مولد تخاصمی است. این شبکه می‌تواند نوت موسیقی تولید کند. نوت‌های تولیدشده واقع‌گرایانه‌تر از کارهای قبلی هستند. «GanSynth» همچنین می‌تواند ویژگی‌های دیگری از قبیل آلت موسیقی را هم در فرایند کاری خود مد نظر قرار دهد.

به نظر شما چه پروژه‌های دیگری را می‌توان با استفاده از «TF-GAN» انجام داد؟

https://hooshio.com/?p=5264