شناخت دیپ فیک و تشخیص تصاویر توسط هوش مصنوعی (بخش دوم)

تیم تحریریه
۲۹ بهمن ۱۳۹۹
زمان مطالعه 15 دقیقه

در این مطلب قصد داریم به نحوه شناخت دیپ فیک بپردازیم. امروزه تعداد زیادی از بسته‌های نرم‌افزاری به صورت رایگان در اختیار کاربران قرار می‌گیرند و کاربرد آن‌ها بسیار آسان است و در همان‌حال استفاده از آن‌ها مستلزم کسب دانش و تخصص در زمینه هوش مصنوعی نیست، مجموع این عوامل باعث شده دیپ فیک توجهات بسیاری را به سوی خود جلب کند. اگر به مبانی پایه ویرایش ویدئو تسلط دارید و یک کارت گرافیک با کیفیت قابل‌ قبول در اختیار دارید به آسانی می‌توانید یک ویدئو یا کیفیت خوب تولید کنید. هرچند فن‌‍آوری‌های دیگری نیز وجود دارند که ویدئوهای جعلی تولید می‌کنند و شناخت دیپ فیک و یا حقیقی بودن این ویدئوها بسیار دشوار است. در بخش دوم از این سری مقالات به بحث و گفت‌و‌گو راجع به آن‌ها خواهیم پرداخت.

فهرست مقاله پنهان

1 دیپ فیک

1.1 RecycleGAN

1.2 طراحی RecycleGAN ( اختیاری)

1.3 Face2Face

1.4 طراحی Face2Face (اختیاری)

1.5 یادگیری هماهنگ‌سازی لب از صوت

1.6 هماهنگ‌سازی لب از طراحی فایل صوتی (اختیاری)

1.7 ویرایش متنی ویدئوهای Talking-head

1.8 طراحی ویرایش متنی ویدئوهای Talking-head ( اختیاری)

1.9 مرحله اول – واج‌آرایی

1.10 مرحله دوم – ردیابی و بازسازی سه بعدی چهره

1.11 مرحله سوم – جست‌و‌جوی وایزم

1.12 مرحله چهارم – ترکیب و زمان‌بندی مجدد پارامترها

1.13 مرحله پنجم – ایجاد عصبی چهره

1.14 یادگیری تخاصمی چند مرحله‌ای مدل‌های عصبی واقع‌گرایانه Talking Head

1.15 طراحی یادگیری تخاصمی چند مرحله‌ای مدل‌های عصبی واقع‌گرایانه Talking Head (اختیاری)

1.16 تولید فایل صوتی

1.17 ویدئو پرتره عمیق

1.18 طراحی ویدئو پرتره عمیق (اختیاری)

1.19 ویرایش محاسباتی ویدئوهایی با صحنه‌های گفت‌و‌گو محور

دیپ فیک

برای شناخت دیپ فیک باید بدانید، دیپ فیک برای ساخت و تولید ویدئو به رویکردهای مبتنی بر یادگیری عمیق متکی است، در مقابل فن‌آوری‌های دیگر با بهره‌گیری از دانش تخصصی در زمینه دستکاری سه بعدی چهره ۳-D facial manipulation، واقعیت مجازی و اعوجاج Warping ویدئو تولید می‌کنند. علاوه بر این، اگر بتوانید با استفاده از فریم‌های ویدئوی اصلی، محتوای جدیدی تولید کنید تا حدودی می‌توانید مسائل مربوط به روشنایی، رنگ پوست و غیره را تحت کنترل خود در آورید. در بسیاری موارد، برای این‌که این فریم‌ها با صوتی (صداگذاری بر روی ویدئو) که جدا تولید شده است برای همگام بودن با لب دستکاری می‌شوند و یا مجدداً ایجاد می‌شوند . معمولاً بیشتر تغییرات در ناحیه دهان مشاهده می‌شود.

در مقاله پیش رو به بررسی و مطالعه مباحث فنی و سطح بالا خواهیم پرداخت. اگر به مطلبی علاقه ندارید می‌توانید به آسانی از کنار آن عبور کنید و در صورت نیاز به اطلاعات و جزئیات بیشتر می‌توانید به مقاله پژوهشی رجوع کنید.

RecycleGAN

برای شناخت دیپ فیک لازم است به این قسمت توجه ویژه‌‎ای داشته باشید. یکی از کاربردهای رایج و متداول GAN تبدیل تصاویر یک حوزه به حوزه دیگر است. برای مثال، می‌توانیم مولدهایی بسازیم که تصاویر واقعی را به سبک نقاشی‌های ون‌گوگ درآورند. برای انجام این کار CycleGAN تصاویر واقعی و ساختگی را به صورت جداگانه به متمایزکننده Discriminator تغذیه می‌کند و بدین وسیله متمایزکننده را آموزش می‌دهد تا تفاوت‌های میان تصاویر ساختگی و نقاشی‌های ون گوگ را تشخیص دهد. سپس نکات و تفاوت‌هایی که متمایزکننده تشخیص داده برای مولد منتشر می‌شود تا مولد بتواند تصاویر بهتری تولید کند. هدف از انجام این کار آموزش مولد و هم‌چنین متمایزکننده است تا این دو بتوانند به صورت مداوم به یکدیگر کمک کنند. در نهایت، مولد ارتقا پیدا می‌کند و می‌تواند تصاویر واقعی را به سبک نقاشی‌های ون گوگ بازآفرینی کند.

RecycleGAN برای ساخت و تولید ویدئو در CycleGAN هم این چنین روشی به کار می‌بندد. RecycleGAN ابتدا اطمینان حاصل می‌کند که تمامی فریم‌های تولیدشده «سبک» حوزه موردنظر را به ارث خواهد برد. اما فقط این کافی نیست. برای این‌که فریم‌ها انسجام زمانی داشته باشند، RecycleGAN امکان انتقال ملایمSmooth transition میان فریم‌های متوالی را فراهم می‌کند. انتقال ملایم موجب می‌شود که تکان‌ها و لرزش‌های فیلم کاهش یابند و یا به طور کامل برطرف شوند.

برای شناخت دیپ فیک باید بدانید اغلب جعل عمیق با فن‌آوری GAN اشتباه گرفته می‌شود. در واقع بخش عظیمی از پیاده‌سازی و اجرا به GAN مربوط نمی‌شود. هرچند به عقیده من همزمان با ارتقا وضوح تصویر GAN می‌تواند – همانند تصاویری که ممکن است SytleGAN بسازد – به تولید تصاویری با کیفیت بهتر در ویدئوها کمک کند. برخی از پیاده‌سازی‌ها اقدام به افزودن مدل‌های GAN کرده‌اند. اما برای انجام این کار هنوز زود است و علاوه بر آن آموزش GAN کار دشواری است.

[irp posts=”۱۹۹۰۳″]

طراحی RecycleGAN ( اختیاری)

مبحث را با تابع زیانLoss Function دیپ فیک و این‌که چگونه می‌توان به چنین انسجام زمانی دست پیدا کرد آغاز می‌کنیم. تابع زیان انکودر و دیکودر جعل عمیق زیان بازسازی Reconstruction loss را به حداقل می‌رساند.

در GAN، تابع هدف Objective function نوعی بازی مینیماکس Min-max game است که به صورت متناوب باعث ارتقا و پیشرفت مولد و متمایزکننده می‌شود.

در این حالت هدف RecycleGAN این است که تابع زیانی اضافه کند که فریم‌های متعلق به دامنه Y ( انسجام مکانیSpatial consistency) را تولید کند و در همان حال انسجام زمانی را هم حفظ کند.

فرض کنید P یک پیش‌بینی‌کننده موقتی است ( که با نام مولد هم شناخته می‌شود) و با در نظر گرفتن تمامی فریم‌های قبلی، فریم‌های ویدئو را پیش‌بینی می‌کند. برای آموزش این پیش‌بینی‌کننده، RecycleGAN زیان بازگشتی Recurrent loss را به حداقل می‌رساند؛ زیان بازگشتی فریم‌های پیش‌بینی‌شده را با فریم‌های اصلی مقایسه می‌کند.

فرض کنید GY (x_i) مولدی است که فریم x_i را به فریم y_i تبدیل می‌کند. در این حالت می‌توانیم یک تابع زیان دیگر موسوم به زیان بازیابیRecycle loss ارائه دهیم که تعریف آن از این قرار است:

زیان بازیابی در تولید تصاویر از مولد و پیش‌بینی‌کننده استفاده می‌کند و بدین وسیله زیان بازآفرینی را محاسبه می‌کند. تابع زیان، انسجام زمانی و هم‌چنین انسجام مکانی را تقویت می‌کند.

آخرین تابع زیان RecycleGAN شامل تابع هدف در GAN، زیان بازیابی و زیان بازگشتی می‌شود.

Face2Face

در ادامه به بخش دیگری از مقاله مربوط به شناخت دیپ فیک پرداخته شده است. Face2Face حالات چهره بازیگر مبدأ ( بازیگری که در قسمت بالا، سمت چپ قرار دارد) را به بازیگر مقصد (دونالد ترامپ) منتقل می‌کند. برای مثال، اگر بازیگر مبدأ دهان خود را باز کند، Face2Face همان حالات را بر روی ویدئوی مقصد به اجرا در می‌آورد. برای تماشای این ویدئو کلیک کنید.

طراحی Face2Face (اختیاری)

Face2Face با سکانس‌های ویدئویی آموزش می‌بیند و از یک مدل تحلیل مؤلفه‌های اصلی تقلید می‌کند تا در یک فریم ویدئویی که فضایی پنهان با ابعاد کم دارد ، چهره‌ای را نشان دهد. در پایین این مدل، چهره با استفاده از پارامترهای مدل چهره از جمله شکل صورت، بازتابندگی پوست و حالات چهره پارامتری می‌شود. دو عامل اول فرد را تشخیص می‌دهند، در حالی‌که حالات چهره در فریم‌های مختلف تغییر می‌کنند.

در زمان اجرا، Face2Face با استفاده از پارامترهای حالات چهره از حالات چهره فریم‌های ویدئوی مبدأ و هم‌چنین ویدئوی مقصد تقلید می‌کند. در مرحله بعد Face2Face انتقال تغییر شکل Deformation transfer را در پارامترهای حالت میان مبدأ و مقصد اجرا می‌کند. در نتیجه حالت‌های چهره مقصد تغییر می‌کنند تا حالت‌های بازیگر مبدأ را بازآفرینی کنند.

سپس Face2Face چهره ساختگی مقصد را با استفاده از ضرایب حالات منتقل‌شده و هم‌چنین پارامترهای ویدئوی مقصد ایجاد می‌کند؛ در اینجا منظور از پارامترهای ویدئو مقصد سایر پارامترهای مدل چهره، نور تخمینی محیط و اطلاعات ژست است. علاوه بر این از پارامترهای دوربین نیز استفاده می‌شود.

Face2Face برای آن‌که قسمت دهان در ویدئوی مقصد حالتی طبیعی داشته باشد، سکانس‌های ویدئوی مقصد را برای یافتن دهانی که فضای داخلی آن بیشترین شباهت را به حالت مورد نظر داشته باشد، جست‌و‌جو می‌کند. با این وجود به منظور برقراری انسجام زمانی میان فریم قبلی دهان و فریمی که بیشترین شباهت را با آن داشته هماهنگی‌هایی ایجاد می‌شود. به لحاظ فنی Face2Face فریم‌ سکانس‌های آموزشی را که مجموع وزن‌های لبه را به آخرین فریم بازیابی شده و فریم کنونی گراف ظاهر به حداقل می‌رساند پیدا می‌کند. بسیاری از جزئیات آن در گراف نشان داده نشده‌ است. در پایان Face2Face از طریق ادغام آلفا، فریم‌های ویدئوی اصلی، فریم دهان و مدل چهره ارائه‌شده را با هم ترکیب می‌کند و فریم ورودی جدیدی به وجود می‌آورد.

[irp posts=”۷۸۵۲″]

یادگیری هماهنگ‌سازی لب از صوت

در ادامه توضیح درباره شناخت دیپ فیک، فرض کنید یک ویدئو و یک فایل صوتی جداگانه در اختیار داریم، آیا می‌توانیم قسمت دهان (حرکت لب‌ها) را بازآفرینی کنیم تا حرکت لب‌ و دهان با صوتی که در اختیار داریم هماهنگ شود؟ اگر انجام این کار ممکن شود، آسیب‌ها و خطرات بسیاری به همراه خواهد داشت. برای مثال، برخی افراد می‌توانند متن یک فایل صوتی جعلی و ساختگی را بر روی یک ویدئو واقعی بگذارند.

در این بخش از مال شناخت دیپ فیک به بحث و گفت‌و‌گو راجع به فن‌آوری هماهنگ‌سازی لب خواهیم پرداخت که در دانشگاه واشنگتن انجام شده‌ است. دیاگرام مقابل فرایند هماهنگ کردن حرکت لب و دهان با فایل صوتی را نشان می‌دهد. در دیاگرام مقابل فایل صوتی یکی از سخنرانی‌های هفتگی ریاست جمهوری با فایل صوتی دیگری (ورودی صوتی) جا به جا شده است. در طول این فرایند قسمت دهان، گونه و چانه بازآفرینی شده‌اند تا حرکت آن‌ها با فایل صوتی جعلی هماهنگ شود.

هماهنگ‌سازی لب از طراحی فایل صوتی (اختیاری)

دیاگرام ابتدا با در نظر گرفتن فایل صوتی سخنرانی اوباما، از شبکه‌های حافظه کوتاه مدت طولانی LSTM network استفاده می‌کند تا ۱۸ نقطه راهنمای دهان را مدل‌‌سازی کند.

سپس با استفاده از نقاط راهنما بافت دهان و قسمت پایینی صورت (که بعداً بیشتر به آن خواهیم پرداخت) را ایجاد می‌کند. سپس بخشی را که در آن بافت جدید دهان باید با ویدئوی مقصد ترکیب شود را مجدداً زمان‌بندی می‌کند. برای مثال، اوباما معمولاً زمانی که مکث می‌کند، سر خود را هم دیگر تکان نمی‌دهد. این‌گونه هم‌ردیف‌سازی‌ها موجب می‌شود که حرکات سر طبیعی‌تر به نظر برسند و با حرکات لب همگام باشند. در آخر نیز همه‌چیز را با هم ترکیب می‌شود.

در ادامه این فرایند را با ارائه جزئیات بیشتری شرح می‌دهیم. فایل صوتی با ضریب‌ کپسترال فرکانس مل MFCC coefficients نشان داده می‌شود که به طور گسترده در تشخیص گفتار مورد استفاده قرار می‌گیرند.

شکل دهان با استفاده از ۱۸ نقطه راهنمای دهان که در ادامه می‌توانید تصویر آن را مشاهده کنید، نشان داده می‌شود. دیاگرام با در اختیار داشتن ساعت‌های زیادی از ویدئوهای سخنرانی‌های هفتگی اوباما ، یک LSTM آموزش می‌دهد تا یک ضریب MFCC را به عنوان ورودی دریافت کند و سکانسی از نقاط راهنمای دهان به عنوان خروجی ارائه دهد.

در مرحله بعد، بر مبنای نقاط راهنما قسمت پایینی صورت ایجاد می‌شود.

برای هر یک از فریم‌های ویدئوی مقصد، مدل سه بعدی صورت را بازسازی می‌کند و شکل دهان را استنباط می‌کند.

سپس فریم‌ها n که کوچک‌ترین فاصله L2 را میان فریم‌های شکل دهان و فریم‌های شکل دهان مقصد دارند، انتخاب می‌شوند. مقدار n با دقت انتخاب می‌شود چرا که همزمان با افزایش n، انسجام زمانی نیز افزایش پیدا می‌کند اما کیفیت تصویر کاهش پیدا می‌کند. در مرحله بعد میانه وزنی Weighted median بافت دهان به ازای هر پیکسل از فریم‌های n محاسبه می‌شود؛ در فریم‌های n وزن‌ها نشان می‌دهند که تا چه میزان شکل دهان در فریم‌های منتخب و ویدئوی مقصد با یکدیگر شباهت دارند.

همان‌گونه پیش‌تر در مقاله‌های مربوط به شناخت دیپ فیک عنوان شده:

«ایجاد ناحیه دهان به صورتی که طبیعی و واقعی به نظر برسد، فرایندی چالش برانگیز است. دندان‌ها باید محکم، واضح و مرتب باشند، رنگ آن‌ها یکسان باشد و خوب با لب جفت شوند.»

برای ارتقای کیفیت ناحیه دهان، دیاگرام فرکانس‌های پایین بافت میانه وزنی را با جزئیات فرکانس بالای دندان در ویدئوی مقصد ادغام می‌کند. سپس وضوح ناحیه دندان را افزایش می‌دهد تا دندان‌ها طبیعی و واقعی به نظر برسند.

علاوه بر این در هنگام صحبت کردن، حرکات سر نیز تغییر می‌کنند. برای مثال، زمانی که اوباما مکث می‌کند، سر و ابروهای او از حرکت باز می‌ایستند. حرکت سر در ویدئوی مقصد با بافت جدید دهان – که با گفتار جدید (فایل صوتی جدید) هماهنگ است – هماهنگ نخواهد بود. به منظور حل این مشکل بافت جدید دهان بار دیگر با ویدئوی مقصد و مطابق با حرکات سر هماهنگ می‌شود. برای مثال، زمانی که گوینده فایل صوتی جدید مکث می‌کند، حرکات سر هم متوقف می‌شوند.

در مرحله بعد، برای ارتقای کیفیت ترکیب زاویه فک – بافت پایین‌تر صورت با سر مقصد – از اعوجاج استفاده می‌کند. همان‌گونه که در تصویر پائین مشاهده می‌کنید، در تصویر دوم اوباما، کیفیت خط فک ارتقا پیدا کرده و دو زاویه ندارد.

با توجه به ویدئوی مقصد و بافت دهان ایجادشده، دیاگرام لایه‌های (a) تا (d) را ایجاد می‌کند و برای ترکیب آن‌ها با یکدیگر از روش هرم لاپلاسیان Laplacian pyramid استفاده می‌کند.

این روش باعث کاهش برخی نکات و موارد غیرطبیعی از جمله دو چانه و پخش‌شدن رنگ در ناحیه چانه می‌شود.

ردیف بالا ویدئوی فایل صوتی ورودی است و ردیف پایین ویدئوی ساخته شده است.

ویرایش متنی ویدئوهای Talking-head

در ادامه مقاله شناخت دیپ فیکم به این موضوع توجه کنید. جمله « شاخص داو جونز صد و پنجاه واحد سقوط کرد» با جمله «شاخص داو جونز دو هزار و بیست واحد سقوط کرد» تفاوت‌های زیادی دارد، جمله آخر ممکن است منجر به فروش هیجانی شود. در مقاله ویرایش متنی ویدئوهای Talking-head، متن اصلی در ویرایش‌گر متن ویرایش می‌شود و تصاویر ویدئو تغییر می‌کنند تا با محتوای متنی ویرایش شده هماهنگ شوkد. برای تماشای این ویدئو کلیک کنید.

طراحی ویرایش متنی ویدئوهای Talking-head ( اختیاری)

ویدئوی اصلی و متن ویرایش‌شده به عنوان ورودی به سیستم داده می‌شوند.

مرحله اول – واج‌آرایی

برای شناخت دیپ فیک باید بدانید در مرحله واج آرایی ابتدا ویدئو به بخش‌های مختلفی تقسیم می‌شود و هر کدام از این بخش‌ها دارای برچسب واج و زمان شروع و زمان پایان خواهند بود. برای مثال واج کلمه “people” – “/ˈpēpəl/” است. واج‌ کلمات به ما نشان می‌دهد که چگونه باید یک کلمه رو تلفظ کنیم.

فرض بر این است که فایل صوتی با یک رونوشت متنی صحیح و مناسب برچسب‌گذاری می‌شود. در ادامه باید مدت زمان هر واج را با استفاده از نرم‌افزار واج‌آرایی خودکار مشخص کنیم. مجموع این بخش‌ها کتابخانه‌ای از کلیپ‌های بصری تشکیل می‌دهند که به صورت غیرمستقیم چهره‌ای را که در ویدئو در حال صحبت کردن است بازسازی می‌کنند.

مرحله دوم – ردیابی و بازسازی سه بعدی چهره

سیستم از تک تک فریم‌های ویدئو یک مدل پارامتریک و سه بعدی از چهره (شکل هندسی، ژست، بازتابندگی، حالت و نور و روشنایی) استخراج می‌کند. سپس کلیپ‌هایی که نسبت به دیگر کلیپ‌ها هماهنگی بیشتری با واج‌ها دارند را پیدا می‌کند و آن‌ها را با مدل‌های صورت که پیش از این استخراج کرده بود، ترکیب می‌کند.

مرحله سوم – جست‌و‌جوی وایزم

هدف از جست‌و‌جوی وایزمViseme Search یافتن آن دسته از سکانس‌های واجی ویدئو است که می‌توان آن‌ها را با هم ترکیب کرد و ویدئویی را بازسازی کرد که با فایل صوتی متن ویرایش‌شده تطابق داشته باشد. در اینجا فرض بر این است که واج‌های مشابه ویدئو تصاویر مشابهی تولید می‌کنند. بنابراین اگر متن ویرایش‌شده‌ای از توالی کلمات W در اختیار داشته باشیم، باید آن دسته از سکانس‌های فرعی ویدئو که هماهنگی و تشابه بیشتری با واج‌ مورد نظر ما دارند پیدا کنیم و به دنبال روشی باشیم تا به بهترین نحو آن‌ها را با هم ترکیب کنیم تا با متن ویرایش‌شده هماهنگ باشند. در مثالی که در مقابل آورده‌ایم، W به W_۱ و W_۲ تقسیم شده است ( در اینجا چگونگی یافتن بهترین بخش را توضیح نخواهیم داد) برای هر بخش (W_۱ یا W_۲) سیستم مشخص می‌کند که در چه قسمت‌هایی ممکن است ویدئوی اصلی همان توالی سکانس‌ها را داشته باشد.

علاوه بر این، یک ترکیب‌کننده گفتاری Speech synthesizer مدت زمان واج‌ها (پرسمانQuery ) را تعیین و مشخص می‌کند.

[irp posts=”۵۱۶۶″]

مرحله چهارم – ترکیب و زمان‌بندی مجدد پارامترها

با این وجود این روش دو ایراد دارد. هنگام پیدا کردن سکانس‌های مطابق، مدت زمان واج‌ها در نظر گرفته نمی‌شود و بعید است که مشابه هم باشند. علاوه بر این، انتقال سکانس‌های مطابق (میان W_۱ و W_۲) ملایم نخواهد بود.

زمان‌بندی مجدد پس‌زمینه: سیستم ناحیه پیرامون کلمه ویرایش‌شده – که به اندازه کافی بزرگ باشد- را انتخاب می‌کند و بخش ویدئوی اصلی را استخراج می‌کند. سپس این بخش مجدداً زمان‌بندی می‌شود تا با بخش‌های فرعی فایل صوتی جدید مطابقت داشته باشد. به منظور دست‌یابی به این هدف، اندازه فریم‌های جدید با استفاده از نزدیک‌ترین همسایه از فریم‌های اصلی تغییر می‌کند تا ویدئویی تولید شود که طول آن با طول فایل صوتی جدید مطابقت داشته باشد؛ طول فایل صوتی جدید با استفاده از ترکیب‌کننده گفتاری محاسبه می‌شود. این فرایند زمان‌بندی مجدد سکانس پس‌زمینه Retimed background sequence نامیده می‌شود. در مقابل، نمونه‌ای از این سکانس را آورده‌ایم. از آنجایی‌که فریم‌ها از قسمت‌های مختلف ویدئو استخراج می‌شوند، ممکن است سایز سر و ژست در آن‌ها متفاوت باشد. همین امر باعث تکان خوردن فریم‌ها می‌شود.

در مرحله بعد، زمان‌بندی مجدد سکانس‌های فرعی Subsequence retiming انجام می‌شود. در فرایند زمان‌بندی مجدد سکانس‌های فرعی مدت زمان بخش‌های مطابق نیز با طول بخش‌های صوتی برابر خواهد بود (زمان‌بندی مجدد/ نگاشت Mapping در اولین ردیف مقابل نشان داده شده است).

به عبارت دیگر در مرحله اول، بخش‌ها در ویدئوی اصلی تبدیل می‌شوند تا طول آن‌ها با W برابر شود. در مرحله دوم، بخش‌های مطابق تغییر پیدا می‌کنند تا طول آن‌ها نیز با W برابر شود.

ترکیب پارامتر: مدل پارامتریک و سه بعدی چهره شامل شکل صورت، بازتابندگی، نور و روشنایی، ژست و حالت می‌شود. در این حالت لازم است مدل جدیدی بسازیم که سکانس‌‌های پس‌زمینه و بخش‌های منطبق که مجدداً زمان‌بندی شده‌اند را با یکدیگر ترکیب کند. ابتدا توضیح می‌دهیم کدام یک از پارامترهای مدل چهره سکانس پس‌زمینه باید ثابت بماند و حفظ شود.

شکل صورت و بازتابندگی از فردی به فرد دیگر فرق می‌کند و به همین دلیل باید آن‌ها را حفظ کرد و تغییری در آن‌ها ایجاد نکرد.
نور صحنه قبل و بعد از صحنه بخش ویرایش‌شده به صورت خطی درون‌یابی Linear interpolation می‌شود. این کار باعث کاهش تکان‌ها و لرزش‌ها در نور و روشنایی می‌شود.
حالت سر از سکانس پس‌زمینه که مجدداً زمان‌بندی شده است، مدل‌برداری می‌شود.
آخرین عاملی که باید حفظ شود حالت است که شامل ۶۴ پارامتر می‌شود؛ این پارامترها شامل اطلاعاتی راجع به حرکات دهان و صورت هستند. این پارامترها از بخش‌های منطبقی که مجدداً زمان‌بندی شده‌اند استخراج می‌شوند. با این وجود برای جلوگیری از تکان خوردن و لرزش فریم‌ها و هم‌چنین برای ایجاد انتقال ملایم میان فریم‌ها، در ناحیه ۶۷ هزارم ثانیه اطراف انتقال فریم، درون‌یابی خطی انجام می‌شود.

در این مرحله، سیستم یک سکانس پارامتری تولید می‌کند که حرکات صورت جدیدی که به آن‌ها نیاز است و هم‌چنین سکانس‌های پس‌زمینه که مجدداً زمان‌بندی شده‌اند را توصیف می‌کند.

مرحله پنجم – ایجاد عصبی چهره

در مرحله بعد، سیستم قسمت پایینی صورت را در ویدئوی پس‌زمینه که مجدداً زمان‌بندی شده است ، می‌پوشاند و با استفاده از مدل ترکیبی چهره قسمت پایینی جدیدی برای چهره ایجاد می‌کند. در نتیجه r_i به وسطه‌ای برای نمایش ویدئو تبدیل می‌شود. سپس این نمایش به یک شبکه RNN منتقل می‌شود تا سکانس نهایی ویدئو را بازسازی کند. فریم‌هایی که در آن‌ها قسمت پایینی صورت با خطوط مشکلی نشان داده‌ شده‌اند r_i هستند. فریم‌های سمت راست فریم‌هایی هستند که توسط RNN تولید شده‌اند.

مدل RNN برای هر ویدئویی که به عنوان ورودی دریافت می‌کند به ازای هر شخص جداگانه آموزش داده می‌شود. مدل RNN به جای این‌که با سکانس‌های مطابق آموزش داده شود، با r_i آموزش داده می‌شود که از سکانس اصلی ایجاد شده‌اند. هدف از آموزش RNN مشابه GAN است که در آن تلاش می‌شود سکانسی بازآفرینی شود که تشخیص آن از سکانس اصلی امکان‌پذیر نباشد.

یادگیری تخاصمی چند مرحله‌ای مدل‌های عصبی واقع‌گرایانه Talking Head

در ادامه مقاله مربوط به شناخت دیپ فیک، فرض کنید یک ویدئوی مقصد در اختیار دارید ، آیا می‌توان سبک آن را دوباره و مطابق با تصاویر مبدأ ( ردیف بالا) بازآفرینی کرد؟ برای مثال، در ویدئوی نهایی حرکات سر تغییری نخواهند کرد اما چهره و شیوه لباس پوشیدن از همان فرد و یا فردی متفاوت الگوبرداری خواهد شد. علاوه بر این، مولد باید تا جایی که امکان دارد با تعداد کمی تصویر آموزش داده شود و یاد بگیرد، در این حالت می‌توان از ۸ تصویر اصلی یا کمتر از این تعداد استفاده کرد. در اینجا هدف یادگیری با داده های محدود Few-shot learning یا انتقال یادگیری Transfer learning است.

در مثال پیش‌رو، مولد برای تولید یک تصویر، سبک فرد دیگری را به فرد مقصد منتقل می‌کند. ابتدا با استفاده از نرم‌افزار رده عام Off-the-shelf software نمای چهره از تصویر مقصد استخراج می‌شود. سپس نقاط راهنما با سبک دامنه مبدأ بازسازی و بازآفرینی می‌شوند. در این مثال، فقط یک تصویر مبدأ در اختیار مولد قرار گرفته است (یادگیری تک مرحله‌ای).

طراحی یادگیری تخاصمی چند مرحله‌ای مدل‌های عصبی واقع‌گرایانه Talking Head (اختیاری)

امیدوارم مقاله شناخت دیپ فیک تا اینجا شما را خسته نکرده باشد. آموزش سیستم در دو مرحله انجام می‌شود. در مرحله فرایادگیریMeta-learning سیستم با سکانس‌های ویدئویی افراد مختلف آموزش می‌بیند. در مرحله تنظیم دقیق Fine-tunning stage سیستم با تعداد کمی از تصاویر آموزش داده می‌شود (یادگیری چند مرحله‌ای) تا برای فرد خاصی – که در مرحله فرایادگیری نشان داده نشده‌ است – سکانس‌های ویدئویی ایجاد کند.

تعبیه‌کننده Embedder، تصویری به همراه نقاط راهنمای چهره ،که نرم‌افزار رده عام آن‌ها را تشخیص داده، به عنوان ورودی دریافت می‌کند و بردار N بُعدی e را ایجاد می‌کند. در مرحله فرایادگیری، فریم‌های K به صورت تصادفی از یک ویدئو استخراج می‌شوند و به صورت جداگانه به تعبیه‌کننده تغذیه می‌شوند. سپس میانگین‌ آن‌ها را محاسبه می‌کند.

بردار ، اطلاعات مختص به فیلم ،از جمله هویت فردی‌ای که قرار است در تمامی فریم‌ها و ژست‌ها یکسان باشد را کدگذاری می‌کند.

سپس فریم ویدئویی دیگری را از همان ویدئو به عنوان نمونه انتخاب می‌کند و نمای چهره را استخراج می‌کند. نمای استخراج‌شده به همراه میانگین e – که در بالا محاسبه شد – به مولد تغذیه می‌شود تا یک تصویر ایجاد کند. در اینجا هدف این است که مولد تصویری ایجاد کند که به لحاظ ادراکی با حقیقت مبنا مطابقت داشته باشد.

برای آن‌که مولد بتواند به درستی با استفاده از نقاط راهنمای چهره یک تصویر ایجاد کند، e را در ماتریس P ( Pe) – ماتریس تصویر و قابل آموزش- ضرب می‌کند تا اطلاعات سبک را یاد بگیرد. برای مثال، رنگ پوست و ویژگی‌های چهره از جمله سبک‌هایی هستند که یاد گرفته می‌شوند. به لحاظ فنی، Pe در عملیات AdaIn به عنوان یک پارامتر AdaIN عمل می‌کند که تعریف آن از قرار زیر است:

در سطح بالا، سیستم بخش‌های مختلف اطلاعات سبک را در لایه‌های مکانی مختلف اجرا می‌کند تا به تولید پیکسل کمک کند. این فرایند جزئیات زیادی دارد.

در همان زمان، سیستم متمایزکننده را که یک تصویر و نقاط راهنمای چهره را به عنوان ورودی دریافت کند، آموزش می‌دهد. علاوه بر این، برای هر ویدئو بردار W_i را آموزش می‌دهد؛ بردار W_i را می‌توان نمایش تعبیه‌شده این ویدئو قلمداد کرد (مشابه واژه تعبیه‌کردن در حوزه پردازش زبان طبیعی). متمایزکننده بردار V، خروجی CNN، را در مقدار تعبیه‌شده ضرب می‌کند تا امتیاز نهایی r را محاسبه کند.

تابع زیان که از آن برای آموزش مدل استفاده شد، تفاوت‌های بصری میان تصویری که مجدداً ایجاد شده و حقیقت مبنا و زیان GAN را شامل می‌شود. علاوه بر این، e و W_i هدف واحدی را دنبال می‌کنند – و به عنوان عاملی پنهان برای iامین ویدئو عمل می‌کنند. به همین دلیل یک زیان جفت Match loss تعریف می‌شود که آن‌ها را تشویق کند مقادیر مشابهی داشته باشند.

اکنون مدل آموزش دیده تا تصاویری ایجاد کند که از ویدئوهای آموزشی تقلید می‌کنند. اما برای تقلید از یک فرد خاص، با استفاده از تصاویر آن فرد – مرحله تنظیم دقیق را بار دیگر پشت سر می‌گذارد. اما در اینجا مدل از طریق آموزش چند مرحله‌ای آموزش می‌بیند، به عبارت دیگر تعداد کمی ورودی، برای مثال ۱ تا ۸ تصویر، به سیستم تغذیه می‌شود.

ابتدا، طراحی مولد به آرامی تغییر می‌کند. در این حالت ورودی عملیات AdaIN که ψ’ نامیده می‌شوند را می‌توان آموزش داد. در ابتدا ψ’ به عنوان Pe با نمونه تصاویر جدید اجرا خواهد شد.

علاوه بر این، متمایزکننده W_i را جایگزین مجموع wo و e خواهد کرد.

تولید فایل صوتی

برای شناخت دیپ فیک باید بدانید در بسیاری از ویدئوهای جعل عمیق از فایل صوتی جعل‌کننده هویت (ویدئوی مقصد) در ویدئوی نهایی استفاده می‌کنند. با این وجود، همان‌گونه که در Stable Voices کانال یوتیوب نشان داده شده با استفاده از مدلی که با فایل‌های صوتی فرد مورد نظر آموزش دیده می‌توان یک فایل صوتی جدید ایجاد کرد. در صورت عدم دسترسی به جعل‌کننده هویت و عدم امکان استفاده از فایل صوتی او می‌توان از یک ترکیب‌کننده صوتVoice synthesizer استفاده کرد که به یادگیری ماشین و برخی مدل‌های یادگیری عمیق مجهز باشد. برای راحتی و سهولت، چگونگی تولید فایل صوتی با استفاده از فن‌آوری‌های یادشده را در اینجا توضیح نمی‌دهیم اما فرایند تولید فایل صوتی تا حدودی همانند تولید فایل بصری (تصویر و ویدئو) است با این تفاوت که در اینجا ورودی سیستم فایل صوتی است.

[irp posts=”۸۰۸۲″]

ویدئو پرتره عمیق

در این مقاله شناخت دیپ فیک تلاش کردیم بسیاری از فن‌آوری‌هایی که در تولید ویدئو مورد استفاده قرار می‌گیرند را معرفی کنیم. فن‌آوری‌های دیگری نیز وجود دارند که می‌توان از آن‌ها در تولید ویدئو استفاده کرد اما نمی‌توانیم همه آن‌ها را در اینجا معرفی کنیم. در ادامه، به معرفی برخی از آن‌ها خواهیم پرداخت اما برای اختصار، جزئیات فنی و تخصصی آن را شرح نخواهیم داد.

در ویدئو پرتره‌‌های عمیق، سیستم حالات و حرکات سر، حالات چهره، حرکات چشم بازیگر مبدأ را به بازیگر مقصد منتقل می‌کند.

طراحی ویدئو پرتره عمیق (اختیاری)

ویرایش محاسباتی ویدئوهایی با صحنه‌های گفت‌و‌گو محور

در رابطه با شناخت دیپ فیک تا به اینجا فقط صدا و یا چهره بازیگر مبدأ را در فیلم مقصد جایگزین و بازآفرینی کرده‌ایم. اما می‌توانیم ژست بازیگر مبدأ را برای بازیگر مقصد بازسازی کنیم. برای مثال ، می‌توانیم ویدئویی تولید کنیم که در آن رقصنده‌ای غیرحرفه‌ای شبیه به رقصنده‌ای ماهر برقصد.

در تصویر مقابل، مدلی نمایش داده شده که از GAN استفاده می‌کند.