تشخیص دیپ فیک و تصاویر جعلی، توسط هوش مصنوعی (بخش اول)

تیم تحریریه
۴ مرداد ۱۴۰۰

زمان مطالعه: 18 دقیقه

چه کسی می خواهد میلیونر شود؟ 2913 نفر رویای میلیونر شدن را در سر می‌پرورانند و بر سر جایزه یک میلیونی مسابقه تشخیص دیپ فیک با یکدیگر به رقابت می‌پردازند. هدف از برگزاری مسابقه در ماه مارس 2020، ساخت و توسعه فن‌آوری‌هایی است که بتوانند دیپ فیک و رسانه‌های دستکاری ‌شده را تشخیص دهند.

در ماه دسامبر سال 2019، شرکت فیسبوک 682 حساب کاربری را حذف کرد. شرکت فیسبوک مدعی شد صاحبان این حساب‌های کاربری با اشاعه اعمال فریبکارانه قصد داشتند 55 میلیون کاربر را به طرفداری و حمایت از ترامپ ترغیب کنند. طبق اظهارات فیسبوک، برخی از این حساب‌های کاربری از عکس‌های ایجادشده توسط هوش مصنوعی برای پروفایل خود استفاده کردند و خود را آمریکایی جا زده‌اند. گزارش‌ها حاکی از آن است که این تصاویر در یک وب‌سایت عمومی ساخته شده که در آن برای ایجاد تصاویر پروفایل از StyleGAN استفاده می‌شود. تصاویری که در مقابل مشاهده می‌کنید توسط نسخه ارتقاء یافته موسوم به StyleGAN 2 ایجاد شده است. StyleGAN 2 در دسترس همگان قرار دارد.

فهرست مقاله پنهان

1 تشخیص دیپ فیک

2 نواقص طراحی و پیاده‌سازی

3 مروری بر دیپ فیک

3.1 نقاط راهنمای صورت

3.2 نواقص و کاستی‌های deep fake

3.3.3 عدم انسجام بخش‌های مختلف Spatial inconsistency

3.3.4 تکان خوردن

3.3.5 تصویر و روشنایی مرتعش و لرزان Shimmering

3.3.6 مرز

3.4 ویرایش ویدئو پس از اتمام فرایند تولید

3.4.1 دندان

3.4.2 ژست

3.4.3 اشیای تار Obscure Objects

3.4.4 درخشندگی و انعکاس

3.4.5 عینک

3.4.6 تنبلی چشم

3.5 سیاست‌مداران و افراد مشهور

3.5.1 شکل و زاویه صورت

3.6 ویدئوهایی با بودجه بالا

3.6.1 سریال بریکینگ بد

3.7 ویدئوهایی با بودجه پایین

4 چک لیست بررسی دیپ فیک در ویدیوها و تصاویر

5 مشکلات دیپ فیک

6 راه حل مقابله با دیپ فیک

7 دیپ‌فیک‌ها معمولا چگونه استفاده می‌شوند؟

8 فناوری‌های مقابله با دیپ‌فیک‌ها

9 آیا دیپ فیک قانونی است؟

9.1 سوالات متداول

9.1.1 چطور فناوری دیپ فیک می‌تواند بر امنیت سایبری تأثیر بگذارد؟

9.1.2 چگونه تشخیص دهیم که ویدیوی دیپ فیک است یا نه؟

9.1.3 آیا دیپ فیک‌ها می‌توانند به امنیت فردی آسیب بزنند؟

تشخیص دیپ فیک

آیا می‌توانید تشخیص دهید کدام یک از تصاویر مقابل جعلی است و کدام یک توسط StyleGAN ایجاد شده است؟

تصویر ساخته شده با StyleGAN یا واقعی — ( تصویر جعلی توسط StyleGAN ایجاد شده است)

تشخیص‌ این‌که کدام تصویر جعلی است بسیار ساده است. تصویر سمت چپ جعلی و ساختگی است چرا که در بسیاری از تصاویری که StyleGAN ایجاد می‌کند، آرتیفکت Artifacts به چشم می‌خورد. حالا تصاویر مقابل را مشاهده کنید.

تمامی تصاویر ستون سمت چپ جعلی و ساختگی هستند. نرخ دقت من در تشخیص تصاویر StyleGAN، 95% است. اما StyleGAN پیشرفته‎ تر و در نتیجه تشخیص این‌که کدام تصویر جعلی است دشوارتر. تمامی تصاویر پیش رو جعلی هستند.

شبکه‌های مولد تخاصمی GAN و deep fake صرفاً به موضوعی برای تحقیق و پژوهش‌ و یا وسیله‌ای سرگرمی برای مهندسان محدود نیستند. GAN و deepfake که در ابتدا مفهومی نوآورانه بودند، اکنون به ابزاری برای ارتباطات تبدیل شده‌اند. با کلیک کردن بر روی این لینک می‌توانید ویدئویی را مشاهده کنید که به طور گسترده به اشتراک گذاشته شده، در حالی‌که این ویدئو با استفاده از Adobe After Effects و FakeAPP (یکی از نرم‌افزارهای کاربردی deep fake) ساخته شده است.

نواقص طراحی و پیاده‌سازی

طراحی و پیاده‌سازی همواره با نواقص و کاستی‌هایی همراه است. برای مثال، شیوه نرمال‌سازی نمونه Instance normalization method که در StyleGAN از آن استفاده می‌شود اغلب باعث ایجاد حباب‌های آرتیفکت و پخش‌شدن رنگ Color bleeding در تصاویر ایجاد شده می‌شود.

با این حال همانند سایر فن‌آوری‌های GAN و deep fake، راهکارهایی برای حل این مشکل ارائه شده است. برای مثال، در تصاویر StyleGAN حباب‌هایی آرتیفکت ایجاد می‌شد، اما در StyleGAN 2 با بهره‌گیری از شیوه تفکیک وزن Weight demodulation – و به عنوان روش جایگزین نرمال‌سازی – این مشکل حل شده است.

اگر با دقت به تصاویر StyleGAN 2 نگاه کنید باز هم نواقص و کاستی‌هایی می‌بینید. برای مثال، در تصویر مقابل، ساختار پس‌زمینه مناسب و صحیح نیست. به بیانی دقیق‌تر، ساختارهای ارائه‌شده حالات صحیح خطوط و اشکال را حفظ نمی‌کنند.

ایجاد و حفظ تقارن نیز امری دشوار است. برای مثال، ممکن است به یک گوش، گوشواره باشد و گوش دیگر گوشواره نداشته باشد. در تصویر مقابل، حالت شانه سمت راست هم‌سو با شانه سمت چپ نیست.

مروری بر دیپ فیک

همان‌گونه که در تصویر مقابل مشاهده می‌کنید، در مرحله اول دیپ فیک یک رمزگذار Encoder معمولی می‌سازد تا ویژگی‌های تصاویر دو فرد متفاوت را کدگذاری کند. در مرحله دوم و سوم، دیپ فیک دو رمزگشا مجزا می‌سازد تا تصویر اول و دوم را بازسازی کند. برای آن‌که تصویر به درستی بازآفرینی شود، رمزگذار باید تمامی متغیرهای موجود در تصاویر یک فرد را ثبت کند؛ در اینجا منظور از متغیر ویژگی‌هایی است که دربردارنده اطلاعاتی همچون ژست، حالات، نور و غیره است.

حالا در یک ویدئو چهره مِری را با چهره اِمی جایگزین کنیم. ابتدأ ویژگی‌های چهره مِری در این ویدئو را ثبت می‌کنیم و سپس آن‌ها را با استفاده از رمزگذار سمت امی منتقل می‌کنیم. در نتیجه، چهره اِمی ژست، نور و روشنایی و حالات احساسی ویدئوی اصلی را خواهد داشت.

البته اگر این کار به درستی انجام نشود، شکل فرایند «بریدن و درج کردن» به خود می‌گیرد و در جایی که چهره درج شده بر روی خطوط و مرزها آرتیفکت‌ها به وضوح آشکار خواهند بود.

برای حل این مشکل انکودر می‌تواند ماسکی را یاد بگیرد تا بهتر بتواند چهره جدید را با چهره اصلی ترکیب کند.

با این وجود، ادغام چهره جدید با چهره اصلی دشواری‌هایی به همراه دارد. جلوه‌های سایه‌اندازی Ghosting effects، تغییر شدت رنگ و مرزهای واضح جعلی‌بودن محصولات کم بودجه از جمله برخی ویدئوهای موجود در دیتاست DFDC را نشان می‌دهد.

نقاط راهنمای صورت

برای ارتقا کیفیت از تکنیک دیگری نیز می‌توان استفاده کرد. جایگزین کردن صورت با استفاده از نقاط راهنما Face Landmarks
صورت پیش از روی کار آمدن فناوری هوش مصنوعی نیز انجام می‌شده است. بخشی از صورت بریده می‌شود و نقاط راهنمای آن با نقاط راهنمای چهره مقصد مطابقت داده می‌شوند.

به منظور کاهش وضوح مرزها محو گاوسی Gaussian blur اعمال می‌شود. اما احتمالاً رنگ پوست و میزان روشنایی دو تصویر با هم هم‌خوانی نداشته باشند. همان‌گونه که پیش از این نیز گفتیم، با استفاده از دیپ فیک می‌توان این مشکل را حل کرد.

برخی از پیاده‌سازی‌های دیپ فیک، مشخصه‌های صورت را تشخیص می‌دهند و بر روی آن اعوجاج ایجاد می‌کند تا مطابق با مشخصه‌های چهره اصلی باشد و موجب می‌شود ژست بهتری ایجاد شود و با شکل و ابعاد چهره اصلی تطبیق بیشتری داشته باشد. به منظور کاهش وضوح مرز‌ها فیلتر گاوسی اضافه می‌شود.

ابتدا محصولات کم‌ بودجه دیپ فیک را با هم بررسی کنیم. در بسیاری از نسخه‌هایی که بودجه بالایی دارند، هنوز نواقص و کاستی‌هایی مشاهده می‌شود اما تعداد آن‌ها بسیار کمتر است.

نواقص و کاستی‌های deep fake

تیره و تار

در بسیاری از ویدئوهای دیپ فیک، چهره‌ها به طور غیرمعمولی تیره و تار هستند. چهره‌ها به دو دلیل در این ویدئو‌ها تیره و تار هستند. اول، چهره جدید باید به خوبی با باقی تصویر ترکیب و ادغام شود. از این روی فیلترهایی اعمال می‌شود که اندکی چهره را تیره و تار خواهند کرد. دوم، بسیاری از محصولات کم بودجه از تصاویر چهره که وضوح پایینی دارند برای آموزش انکودر استفاده می‌کنند. از آنجایی که همزمان با افزایش وضوح چهره، زمان آموزش هم افزایش پیدا می‌کند، استفاده از تصاویری با وضوح پایین باعث می‌شود از فضای GPU کمتر استفاده شود و علاوه بر آن زمان آموزش هم کاهش پیدا می‌کند. در ابتدا، بسیاری از محصولات کم بودجه از چهره‌هایی با وضوح 64×64 استفاده می‌کردند و در نتیجه چهره‌هایی تیره و تار به وجود می‌آمد.

از این روی، در زمان کنونی بسیاری از محصولاتی که بودجه بالایی صرف تولید آن‌ها می‌شود با دقت بیشتری وضوح ورودی را انتخاب می‌کنند (اغلب ورودی‌هایی را انتخاب می‌کنند که وضوح بالاتری دارند). پس از آن‌که ویدئو برای روزهای متوالی با استفاده از کارت‌های گرافیک درجه یک High-end graphics cards آموزش دید، کیفیت آن به طرز قابل توجهی ارتقا پیدا می‌کند و تشخیص دیپ فیک دشوار می‌شود.

علاوه بر این می‌توانیم میزان شفافیت یک تصویر Sharpness، نور و شدت رنگ Tone color را با سایر چهره‌هایی که در ویدئو نمایش داده می‌شوند مقایسه کنیم. اگر شخصیت دیگری که در ویدئو حضور دارد واقعی باشد، تشخیص تفاوت‌ها به سادگی امکان‌پذیر است.

هرچند در ویدئویی که جردن پیل از اوباما منتشر کرده تنها یک فرد حضور دارد. در این ویدئو از ماسک‌ها استفاده می‌شود تا ناحیه فک و دهان اوباما کمتر تغییر کند. سایر اجزای صورت تغییری نکرده‌اند و ثابت باقی مانده‌اند. اما اگر به دقت ویدئو را تماشا کنید، متوجه می‌شوید که قسمت دهان نسبت به چشم‌ها تارتر است.

ویدئو با ماسک‌ها — جردن پیل و BuzzFeed با استفاده از Adobe After Effects و FakeApp این ویدئو را ساخته‌اند

توجه داشته باشید که این مشکل فقط در محصولاتی مشاهده می‌شود که بودجه پائینی برای تولید آن‌ها در نظر گرفته شده است. بسیاری از ویدئو‌های دیپ فیک با چهره‌هایی با وضوح بالا آموزش می‌بینند و نتیجه تولید ویدئویی با کیفیت 1440p خواهد بود. هرچند در این حالت نیز چهره‌ها کمی تار هستند اما در مقایسه با ویدئوهایی که با کیفیت HD (740p) مشاهده می‌کنیم کیفیت بالاتری دارد. در این حالت، به دلیل کیفیت بالای چهره‌ها، این فکر کمتر به ذهن بیننده خطور می‌کند که شاید این ویدئوها ساختگی و جعلی باشند. اما در تصویر مقابل می‌توانید قسمت‌هایی را مشاهده کنید که فیلتر گوسی به طور نامساوی اعمال شده و به همین دلیل می‌توان نتیجه گرفت که تصویر دستکاری شده است.

هرچند ویدئوهایی هم وجود دارند که در آن‌ها شخصیت‌های اصلی آرایش سنگینی دارند و یا بیش از اندازه در معرض نور قرار دارند. اگر دیپ فیک به درستی آموزش ببیند تشخیص نواقص و کاستی‌هایی که در بالا به آن‌ها اشاره شد، دشوار خواهد بود.

تصویری که در مقابل سمت چپ مشاهده می‌کنید یکی از ویدئوهای دیپ فیک با «بودجه بالا» است و وضوح تصویر آن بالا است (1440p). در این تصویر در مقایسه با نسخه HD (740p) جزئیات بیشتری به نمایش گذاشته شده و به دشواری می‌توان نواقص و کاستی‎هایی که پیش از آن به آن‌ اشاره کردیم (تیره و تار بودن) را در این تصویر تشخیص دهیم. با توجه به تصویر مقابل متوجه می‌شویم دیپ فیک چگونه می‌تواند بر نواقص و کاستی‌های پیشین خود از جمله وضوح پایین، غلبه کند.

رنگ پوست

در برخی چهره‌هایی که جایگزین چهره دیگری شده‌اند رنگ پوست غیرطبیعی به نظر می‌رسد.

یا شاید افراد مشهور جای مناسبی را برای برنزه کردن و حمام آفتاب گرفتن انتخاب نکرده‌اند؟!

برای حل این مشکل می‌توان افرادی را انتخاب کرد که رنگ پوست، مدل مو و شکل صورت آن‌ها مشابه شخصیتی اصلی است.

در تصویر مقابل، چهره پل راد با چهره جیمی فلن جا به جا شده است.

علاوه بر این، می‌‌توانیم افرادی را انتخاب کنیم که در تقلید صدا، ژست و حالات افراد دیگر مهارت بالایی دارند. برای تماشای این ویدئو کلیک کنید.

دو ابرو

در صورتی که فرایند ترکیب و یا ماسک‌گذاری به درستی انجام نشود، در زمان ترکیب چهره جایگزین با چهره اصلی ممکن است در تصویر دو جفت ابرو ببینیم- یک جفت ابرو متعلق به چهره جدید و جفت دیگر متعلق به چهره اصلی.

دو چانه

علاوه بر این ممکن است در تصویر دو چانه مشاهده شود، اما اگر شخصیت اصلی حاضر در ویدئو را به خوبی نشناسید، تشخیص این‌که چانه متعلق به شخصیت اصلی است یا خیر دشوار است.

عدم انسجام بخش‌های مختلف Spatial inconsistency

برای مشخص کردن ناهنجاری‌ها و موارد غیرطبیعی چهره، ابتدا می‌توانیم صورت را با سایر قسمت‌های بدن مقایسه کنیم. بدیهی است که نمی‌توانیم چهره یک بازیگر 60 ساله را جایگزین چهره یک بازیگر بیست و چند ساله کنیم. در تصویر مقابل چهره بازیگر دیگری جایگزین چهره جنیفر لارنس شده است. بافت پوست و لطافت بازوها با صورت همخوانی ندارد.

به بیانی دیگر برای این‌که تشخیص دهید تصویری اصلی است یا ساختگی، شدت رنگ، میزان شفافیت تصویر و بافت چهره‌های جایگزین‌شده را با باقی فیلم و فریمی که در مقابل شما است مقایسه کنید.

در هنگام جست‌و‌جو برای ناهماهنگی‌هایی که میان قسمت‌های مختلف تصویر وجود دارد می‌توانید عدم انسجام زمانی را نیز جست‌و‌جو کنید.

تکان خوردن

یکی از ایرادات اصلی دیپ فیک ها این است که فریم‌های ویدئو به صورت جداگانه و فریم به فریم تولید می‌شوند. تولید فریم‌های ویدئو به صورت جداگانه و تک تک ممکن است منجر به تولید فریم‌هایی شود که به لحاظ شدت رنگ، نور و سایه با فریم قبلی تفاوت‌های فاحشی داشته باشند. علاوه بر این در زمان بازپخش ویدئو، فریم‌ها تکان می‌خورند. برای تماشای این ویدئو کلیک کنید.

برخی مواقع، کیفیت فریم جایگزین ‌شده به حدی پایین است که فریم‌هایی که کیفیت پایینی دارند به صورت دستی یا خودکار حذف می‌شوند. در صورتی که تعداد زیادی از فریم‌ها حذف نشود و بیننده هم دقت زیادی به خرج ندهد، متوجه عدم وجود برخی از فریم‌ها نمی‌شود.

در مقابل دو تصویر مشاهده می‌کنید. هرچند دو تصویر مقابل در فاصله کوتاهی از یکدیگر نمایش داده‌ شده‌اند اما میزان شفافیت تصویر و شدت رنگ آن دو تفاوت‌های فاحشی با یکدیگر دارد.

در نمودار مقابل دو فریم دیگر نمایش داده شده که توزیع رنگ RGB آن‌ها با یکدیگر تفاوت دارد.

تصویر و روشنایی مرتعش و لرزان Shimmering

اگر این ویدئو را با سرعت 0.25 پخش کنید همزمان با تکان خوردن سر، پوست صورت هم تکان می‌خورد و شدت رنگ به صورت غیرطبیعی تغییر می‌کند.

در دیپ فیک حرکت‌های سریع، ایجاد فریم‌هایی با صافی موضعی Temporal smoothness مناسب را با مشکل مواجه می‌کند. ممکن است دیکودر به اشتباه در ویژگی‌های چهره‌های فریم‌های مجاور تغییرات زیادی اعمال کند. تنها راه‌حل رفع این مشکل این است که در تابع هزینه مدت دیگری اضافه کنیم تا در طول فرایند آموزش ارتعاش در تصاویر و تغییر رنگ‌ها را جبران کند ( و ممکن است برای انجام این کار مجبور شویم تغییرات به خصوصی در طراحی و پیاده‌سازی اعمال کنیم).

مرز

در دیپ فیک، برای آن‌که بتوانید ویدئوهای جعلی را تشخیص دهید باید توجه ویژه‌ای به برخی نواحی نشان دهید. یکی از این نواحی مرزهای صورت در جایی است که با چهره اصلی ترکیب شده است.

در ویدئوها و تصاویری که از اهمیت بالاتری برخوردار هستند، تشخیص و مشاهده آرتیفکت‌ها دشوار است. در ماسک‌گذاری چهره‌های جدید می‌توان از الگوریتم‌های بهتری استفاده کرد و یا به صورت دستی تغییراتی در آن اعمال کرد.

در مقابل تصویری از یک ویدئو با «بودجه بالا» را مشاهده می‌کنید. تصویر مقابل بی‌نقص است و ایرادی ندارد مگر اینکه با دقت به زوایای صورت گیلیان اندرسون توجه کنید.

ویرایش ویدئو پس از اتمام فرایند تولید

به طور کلی افزودن داده‌های آموزش برای برقرای تعادل میان زوایای چهره اصلی و چهره جایگزین یا ارتقا رنگ به صورت خودکار در طول فرایند آموزش بسیاری از آرتیفکت‌هایی را که در این مقاله به آن‌ها اشاره کردیم، برطرف می‌کند. با این حال، پس از اتمام فرایند تولید با استفاده از یک ماسک می‌توان ویدئو را ویرایش کرد و سایر نواقص و کاستی‌ها را برطرف کرد.

دندان

یکی از اصلی‌ترین ایراداتی که می‌توان به ویدئوهای دیپ فیک وارد کرد، قسمت دندان‌ است. بازسازی ناحیه کوچکی که ساختار مشخصی هم دارد برای دیکودر دشوار است. اغلب در ویدئوهای دیپ فیک دندان‌ها تیره و تار هستند.

در موارد دیگر، دندان‌ها نامرتب هستند و یا یکی از دندان‌ها دراز و یا کوچک است.

متوجه شدم که در یکی از فیلم‌ها دیکودر دندان‌هایی ایجاد کرده که تعداد آن‌ها بیشتر از حد معمول است. برخی مواقع در ایجاد و نمایش دندان‌ها از جلوه سایه‌اندازی زیاد استفاده می‌شود. و دندان در فریم‌های مختلف فیلم، ظاهری متفاوت دارد. حتی در ویدئوهایی که «بودجه بالا»یی صرف تولید آن‌ها شده و از کیفیت بالایی برخوردار هستند، ممکن است دندان‌ها به درستی نمایش داده نشوند. همان‌گونه که در تصویر بالا مشاهده می‌کنید، چندین دندان به هم متصل شده‌اند.

ژست

زمانی‌که ویدئوهای دیپ فیک فیلم سکوت بره‌ها را با فیلم اصلی مقایسه می‌کردم، متوجه شدم که چندین ثانیه از فیلم اصلی حذف شده‌ است.

فریمی که از این فیلم حذف شده، شامل قسمتی است که دوربین فک آنتونی هاپکینز را نشان می‌دهد. به احتمال زیاد تهیه‌کننده به اندازه کافی از ویلم دفو فریم در اختیار نداشته تا به مدل دیپ فیک آموزش دهد صحنه را به درستی بازآفرینی کند. در نتیجه این صحنه را به صورت دستی ویرایش کرده است. در بسیاری از ویدئوهای دیپ فیک، کیفیت نمای نیم‌رخ بازیگر جایگزین به حدی پایین است که به آسانی می‌توان تشخیص داد که ویدئو جعلی و ساختگی است.

هرچند ویدئوهای دیپ فیک سریال «بریکینگ بد» در تقلید و جعل دونالد ترامپ بسیار موفق عمل کرده‌اند، اما کیفیت نمای نیم‌رخ (جانبی) چندان خوب نیست.

در هر حال در فرایند آموزش می‌توان ویدئوفریم‌های مرتبط را اضافه کرد و بر این مشکل غلبه کرد. در آینده بیشتر به این مبحث خواهیم پرداخت.

اشیای تار Obscure Objects

برخی اوقات اشیای تار و نامشخصی که پیرامون صورت جابه‌جا می‌شوند می‌توانند مدل دیپ فیک را به اشتباه بیندازند. دلیل اصلی روی دادن چنین اتفاقی این است که به اندازه کافی داده به مدل تغذیه نمی‌شود تا این‌گونه موقعیت‌ها را به درستی یاد بگیرد. در یکی از ویدئوهای «بودجه بالای» دیپ فیک سریال «بریکینگ بد» قسمتی از تصویر حذف شده و باعث شده که چهره سمت چپ تار شود. به همین دلیل اغلب در ویدئوها به دنبال چهره‌هایی می‌گردم که مات و نامشخص هستند، وجود این‌گونه چهره‌های نشان می‌دهد که ویدئو جعلی و ساختگی است یا خیر.

درخشندگی و انعکاس

به نظر می‌رسد در برخی ویدئوهای دیپ فیک در میزان درخشندگی و انعکاس یا زیاده‌روی شده، یا اصلاً اعمال نشده و یا شدت و کیفیت مناسب را ندارند. یکی دیگر از ایراداتی که می‌توان به دیپ فیک وارد کرد این است که در ایجاد و نمایش ساختارهای کوچک عملکرد مناسبی ندارد. در هر حال، این عامل باعث می‌شود که به فیلم‌های واقعی – در مقایسه با ویدئوهای جعلی و ساختگی- اعتماد بیشتری داشته باشم.

درخشندگی در تشخیص دیپ فیک — تصویر سمت راست جعلی و ساختگی است

انعکاس در تشخیص دیپ فیک — تصویر سمت چپ جعلی و ساختگی است

عینک

در بسیاری از ویدئوهایی با «بودجه پایین»، دسته‌های عینک از تصویر حذف می‌شوند.

تنبلی چشم

کماکان از فریم‌های 2-D برای ساخت مدل‌های‌ دیپ فیک استفاده می‌شود. عملیات‌هایی همچون ایجاد اعوجاج ممکن است در طول فرایند از برخی اطلاعات 3-D غافل بمانند. برای مثال، ممکن است در ویدئوی دیپ فیک شاهد تنبلی چشم باشیم،

اما در ویدئوی اصلی نشانی از آن نباشد.

این مشکل می‌تواند در GAN روی دهد که در مقاله StyleGAN2 نیز راجع به آن توضیح داده شده:

«در این تصویر دندان‌ها هم‌سو با ژست نیستند اما همان‌گونه که با خط آبی نشان داده شده است، با دوربین در یک جهت قرار دارند.»

دندان‌ها هم‌سو با ژست نیستند-تشخیص دیپ فیک

سیاست‌مداران و افراد مشهور

شکل و زاویه صورت

سیاست‌مداران و افراد مشهور جز کسانی هستند که بیش از سایرین در معرض جعل هویت (در تصاویر و ویدئو‌ها) قرار دارند. معمولاً از deep fake در ویدئوهای مستهجن افراد مشهور استفاده می‌شود.

در حال حاضر در بسیاری از موارد، نمای کلی چهره را جایگزین نمی‌کنیم. از این روی، می‌توانیم دیتابیسی متشکل از شخصیت‌های مردمی ایجاد می‌کنیم تا بتوانیم ویدئوها و تصاویر ساختگی و جعلی را تشخیص دهیم. هرچند، فن‌آوری‌های نوین‌تر ممکن است از GAN برای جایگزینی نمای کلی چهره استفاده کنند. اما استفاده از GAN برای جایگزینی نمای کلی چهره هنوز در مراحل اولیه به سر می‌برد. لازم است یادآور شویم که برخلاف تصور بسیاری، dدیپ فیک‌ها از GAN استفاده نمی‌کنند.

برای مثال، در ویدئوهای دیپ فیک فیلم «نابودگر» پیشانی بلند استالونه به خوبی نمایش داده نشده است.

ویدئوهایی با بودجه بالا

منظور از واژه ویدئوهایی با «بودجه بالا» ،که به دفعات در این مقاله به آن اشاره شد، لزوماً پروژه‌هایی که سرمایه‌های هنگفتی صرف تولید آن‌ها شده نیست. در مقاله پیش‌رو، واژه ویدئوهایی با «بودجه بالا» به پروژه‌هایی اطلاق می‌شود که در ساخت و تولید آن‌ها کارت‌های گرافیک کامپیوتر با کیفیت بالا استفاده شده، مدت زمان ( روز) قابل قبولی به آموزش مدل‌های اختصاص داده شده و علاوه بر آن افراد متخصص در ساخت و تولید آن‌ها مشارکت داشته‌اند. جمع‌آوری، انتخاب و پاک‌کردن دیتاست آموزشی در سطح کیفیت پروژه نقش حیاتی دارد. کسب دانش تخصصی در این زمینه کار دشواری نیست. ویدئوهای آموزشی و ابزارهای رایگان بسیاری در اختیار علاقه‌مندان به این حوزه قرار دارد. برای یادگیری این حرفه ممکن است به آزمون و خطا نیاز داشته باشید اما نیازی به فراگیری دانش هوش مصنوعی نیست. ( هرچند کسب دانش در حوزه هوش مصنوعی ممکن است به شما کمک کند، اما راهنماهای بسیاری وجود دارند که می‌توانند به شما کمک کنند.) اغلب پس از اتمام فرایند تولید به صورت دستی تغییراتی در ویدئو اعمال می‌شود تا ویدئویی با کیفیت عالی تولید شود. بسیاری از افرادی که تجربه ویرایش فیلم دارند می‌توانند به سرعت این فرایند را فرا بگیرند.

در این مقاله، این‌گونه به نظر می‌رسد که به آسانی با تماشای ویدئو می‌توان جعلی یا واقعی بودن فیلم را تشخیص داد. اما این باور غلط است چرا که افراد دانش تخصصی بیشتری برای تولید جدید‌ترین ویدئوها کسب می‌کنند. برای تشخیص ویدئوهای deep fake یک راه‌حل واحد وجود ندارد. در هر ویدئو ایرادات و اشتباهات متفاوتی مشاهده می‌شود. بدتر از آن، اشتباهات کمتر روی می‎دهند و تشخیص آن‌ها دشوارتر است. در مقالات بعدی، برخی روش‌های برنامه‌ای تشخیص ویدئوهای جعلی را با هم بررسی می‌کنیم. با بهره‌گیری از دانشی که در این مقاله کسب‌ کرده‌اید می‌توانید این ویدئوها را تحلیل کنید و نکاتی که در این مقاله فرا گرفته‌اید را بر روی آن‌ها اعمال کنید.

اگر با دقت ویدئوها را تماشا کنید متوجه می‌شوید که یکی از فاحش‌ترین اشتباهات در چشم‌ها روی می‌دهد. در این ویدئوها مردک چشم دایره‌شکل نیست.

همان‌گونه که پیش از این نیز گفتیم، با دقت به مرزها نیز می‌توان ویدئوهای deep fake را تشخیص داد.

سریال بریکینگ بد

برای تماشای این ویدئو کلیک کنید.

چروک اطراف چشم با لطافت و صافی پیرامون چانه هم‌خوانی ندارد. در بسیاری از ویدئوهای دیپ فیک افراد مشهور اغلب این مشکل روی می‌دهد. اما شاید جلسات بوتاکس افراد مشهور موفقیت آمیز نبوده است!

سایه یک طرف صورت غیر طبیعی است. و متأسفانه کاملاً نشان می‌دهد که ویدئو جعلی و ساختگی است.

علاوه بر این، ترس و وحشتی که در چهره نمایان است را به دشواری می‌توان بازآفرینی کرد، چرا که جمع‌آوری داده‌ها (تصاویر) جرد کوشنر که در صورت وی ترس و وحشت دیده شود، دشوار است. در عوض، در فریمی که بازآفرینی شده فقط علامت‌های تار و نامشخصی نمایش داده می‌شود.

برای تماشای یک ویدئوی ساختگی و جعلی دیگر، کلیک کنید.

و برای مشاهده ویدئوی اصلی بر روی این لینک کلیک کنید تا بتوانید ایرادات و مشکلات را تشخیص دهید.

ویدئوهایی با بودجه پایین

ما همان‌ چیزی را باور می‌کنیم که می‌خواهیم باور کنیم. یک ویدئوی جعلی و ساختگی از نانسی پلوسی در اینترنت منتشر شده که به نظر می‌رسد نانسی پلوسی در آن فیلم حالت غیرطبیعی دارد و جویده جویده صحبت می‌کند. این ویدئو که کیفیت پایینی دارد با استفاده از deep fake تولید نشده است. در عوض، نما 25% کند شده و گام‌ها تغییر کرده‌اند تا این‌گونه به نظر برسد که وی جویده جویده صحبت می‌کند. درسی که در اینجا می‌توانیم یاد بگیریم این است که ویدئوهای جعلی و ساختگی نیز می‌توانند به صورت گسترده به اشتراک گذاشته شوند. محتواها با استفاده از الگوریتم‌ها در شبکه‌های اجتماعی به اشتراک گذاشته می‌شوند و هیچ یک از این محتواها از استانداردهای روزنامه‌نگاری تبعیت نمی‌کنند. برای همین لازم است ابتدأ منبع را به دقت بررسی کنید. شبکه‌های اجتماعی منبع اطلاعاتی خوبی نیستند و نمی‌توان به اطلاعاتی که در آن‌ها منتشر می‌شود اعتماد کرد.

ویدئوهای جعلی و ساختگی اخبار حقیقی و واقعی را هم با مشکل مواجه می‌کنند. بارها شنیده‌ایم که سیاست‌مداران مدعی شده‌اند که شایعاتی که راجع به آن‌ها منتشر شده ساختگی و جعلی است. این شایعات پیش از روی کار آمدن دیپ فیک منتشر شده، اما دیپ فیک می‌تواند همه را به اشتباه بیندازد.

چک لیست بررسی دیپ فیک در ویدیوها و تصاویر

حالا دیگر نمی‌توان تنها به نگاه بصری اعتماد کرد؛ بلکه لازم است مجموعه‌ای از بررسی‌های فنی، ظاهری و الگوریتمی انجام شود تا به‌درستی اصالت یک تصویر یا ویدیو ارزیابی گردد. چک لیستی را آماده کرده‌ایم که می‌توانید براساس آن پیش بروید تا عملیات تشخیص دیپ فیک و تصاویر جعلی را انجام دهید:

معیار بررسی	نوع محتوا	توضیح
ناهماهنگی حرکت لب با صدا	ویدیو	لب‌ها دقیق با گفتار هماهنگ نیستند.
جهت نور و سایه غیرطبیعی	تصویر/ویدیو	نور و سایه با موقعیت واقعی منبع نور مطابقت ندارند.
نرخ فریم نامنظم یا پرش تصویر	ویدیو	ویدیو ممکن است در برخی فریم‌ها پرش داشته باشد یا نرخ فریم یکنواخت نباشد.
مرزهای غیرطبیعی اطراف چشم و دهان	تصویر/ویدیو	لبه‌ها ممکن است مصنوعی، تار یا براق به نظر برسند.
بافت غیرعادی یا بیش از حد صاف پوست	تصویر	پوست ممکن است بدون منفذ یا بیش از حد نرم دیده شود.
عدم پلک زدن یا پلک زدن مکانیکی	ویدیو	پلک‌ زدن ممکن است کم، کند یا غیرطبیعی باشد.
تطابق نداشتن انعکاس در چشم	تصویر	انعکاس نور در مردمک چشم با محیط سازگار نیست.
صدای بدون ریتم یا تن مصنوعی	ویدیو	صدا ممکن است یکنواخت، بی‌احساس یا غیرطبیعی باشد.
نویز دیجیتال متفاوت در بخش‌های تصویر	تصویر	بعضی نواحی ممکن است وضوح یا نویز متفاوتی نسبت به سایر بخش‌ها داشته باشند.
اطلاعات EXIF و متادیتای دست‌کاری‌شده	تصویر	داده‌های فایل ممکن است حاوی تغییرات مشکوک یا حذف اطلاعات اصلی باشد.
حرکت غیرعادی سر نسبت به بدن	ویدیو	چرخش یا موقعیت سر با حرکت بدن تطابق ندارد.
تطابق نداشتن زبان بدن با گفتار	ویدیو	حرکات بدن و دست با احساس و ریتم گفتار ناسازگار است.
استفاده از ابزارهای تشخیص خودکار	تصویر/ویدیو	ابزارهایی مثل Deepware یا Hive می‌توانند بررسی اولیه انجام دهند.
نبود انعکاس در عینک یا اشیای براق	تصویر	اشیای براق باید انعکاس نور یا تصویر داشته باشند، نبود آن مشکوک است.
حرکات غیرطبیعی مو یا لباس در باد	ویدیو	حرکت مو و لباس ممکن است ساکن یا ناهماهنگ با محیط باشد.

مشکلات دیپ فیک

فناوری دیپ‌فیک مشکلاتی ایجاد کرده، اما بیشتر این نگرانی‌ها جدید نیستند. یکی از اصلی‌ترین دغدغه‌ها، استفاده از دیپ‌فیک برای دستکاری سیاسی است. این فناوری می‌تواند ویدیوهایی بسازد که بسیار واقعی به نظر می‌رسند و باعث گمراهی مردم می‌شوند. تا امروز، یکی از رایج‌ترین کاربردهای دیپ‌فیک، ساخت ویدیوهایی از سیاستمداران مشهوری مانند ترامپ یا الکساندرا اوکاسیو کورتز بوده که به‌طور گسترده در شبکه‌های اجتماعی منتشر شده‌اند. این موضوع نگران‌کننده است، اما همان‌طور که «سامانتا کول» در سایت وایس گفته، ویدیوهای جعلی و گمراه‌کننده حتی قبل از دیپ‌فیک هم با ابزارهای قدیمی‌تری ساخته می‌شدند.

بسیاری از کارشناسان این مشکلات را بررسی کرده‌اند، اما مسئله مهم دیگری وجود دارد که کمتر به آن پرداخته شده: تأثیر دیپ‌فیک بر امنیت سایبری است. پیش از این هم گفته شده که پخش اطلاعات نادرست می‌تواند امنیت سازمان‌ها را تهدید کند حالا با افزایش حملات فیشینگ، به‌راحتی می‌توان تصور کرد که به‌زودی دیپ‌فیک‌هایی ساخته می‌شوند که در آن‌ها مثلا مدیرعامل شرکت از کارمندان رمز عبور یا اطلاعات حساس را درخواست می‌کند.

راه حل مقابله با دیپ فیک

برای مقابله با مشکلات ناشی از دیپ‌فیک، دو راه‌حل اصلی پیشنهاد شده است: استفاده از فناوری برای شناسایی ویدیوهای جعلی و افزایش سواد رسانه‌ای.

راه‌حل فنی شامل تلاش برای شناسایی دیپ‌فیک‌ها با استفاده از همان فناوری هوش مصنوعی است که برای ساخت این ویدیوها به کار می‌رود. به عنوان مثال، در آوریل گذشته، آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده (DARPA) سه قرارداد به گروه تحقیقاتی SRI International داده تا راه‌های بهتری برای تشخیص دیپ‌فیک پیدا کنند. محققان دانشگاه آلبانی هم بودجه‌ای از DARPA دریافت کرده‌اند تا به مطالعه دیپ‌فیک بپردازند.

این تحقیقات بدون شک مهم است، اما سوالی که مطرح می‌شود این است: اگر یک ویدیو جعلی شناسایی شد، چه اتفاقی می‌افتد؟ چون در حال حاضر ویدیوهای زیادی که با ویرایش ساده منتشر شده‌اند، بدون استفاده از دیپ‌فیک هم اطلاعات نادرست را منتشر می‌کنند. دیپ‌فیک‌ها ممکن است واقعی‌تر به نظر برسند، اما اگر مردم به محتوای یک ویدیو باور داشته باشند، معمولاً به دنبال نشانه‌هایی از جعلی بودن آن نمی‌روند.

بنابراین، نیاز به راه‌حل دیگری داریم. یکی از پیشنهادات این است که سواد رسانه‌ای مردم افزایش یابد تا بتوانند «اخبار جعلی» را به راحتی شناسایی کنند. اما هنوز مشخص نیست که چگونه می‌توان به این هدف دست پیدا کرد.

دیپ‌فیک‌ها معمولا چگونه استفاده می‌شوند؟

دیپ‌فیک‌ها در کاربردهای مختلفی به کار می‌روند که شامل موارد مثبت و منفی است:

هنر و سرگرمی: از دیپ‌فیک برای خلق آثار هنری جدید یا در فیلم‌ها و بازی‌های ویدیویی برای شبیه‌سازی صدا و تصویر بازیگران استفاده می‌شود.

باج‌گیری و آسیب به اعتبار: یکی از رایج‌ترین استفاده‌ها که برای انتقام یا آزار و اذیت سایبری به کار می‌رود.
پشتیبانی و خدمات مشتری: دیپ‌فیک در خدماتی مانند پاسخ به تماس‌ها و پشتیبانی تلفنی مشتری برای انجام کارهای ساده مانند بررسی موجودی حساب استفاده می‌شود.
کلاهبرداری و امنیت سایبری: دیپ‌فیک برای جعل هویت افراد و دسترسی به اطلاعات حساس مانند شماره کارت‌های اعتباری به کار می‌رود.
اطلاعات نادرست و دستکاری سیاسی: ویدیوهای دیپ‌فیک برای تغییر افکار عمومی یا تاثیرگذاری بر نتایج سیاسی یا اجتماعی استفاده می‌شود.
کمپین‌های تبلیغاتی و بازاریابی: برای کاهش هزینه‌های کمپین‌ها، بازاریابان از دیپ‌فیک برای تولید محتوای ویدیویی با استفاده از تصاویر دیجیتالی بازیگران استفاده می‌کنند.
دستکاری سهام: دیپ‌فیک‌ها برای تاثیرگذاری بر قیمت سهام یک شرکت از طریق انتشار ویدیوهای جعلی از مدیران یا پیشرفت‌های تکنولوژیکی به کار می‌روند.
پیامک و تهدیدات هویتی: تهدیدات سایبری می‌توانند از دیپ‌فیک برای کپی کردن سبک پیامکی افراد و انجام کلاهبرداری استفاده کنند.

این فناوری در حال حاضر در بسیاری از زمینه‌ها به کار می‌رود و می‌تواند تهدیدات مختلفی به همراه داشته باشد.

فناوری‌های مقابله با دیپ‌فیک‌ها

شرکت‌ها، سازمان‌ها و نهادهای دولتی مانند آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی وزارت دفاع ایالات متحده در حال توسعه فناوری‌هایی برای شناسایی و مسدود کردن دیپ‌فیک‌ها هستند. برخی از شبکه‌های اجتماعی از فناوری بلاکچین برای تأیید منابع ویدیوها و تصاویر قبل از انتشار آنها در پلتفرم‌های خود استفاده می‌کنند. این کار به شناسایی منابع قابل اعتماد کمک کرده و از انتشار ویدیوهای جعلی جلوگیری می‌کند. شرکت‌های متا و ایکس (که قبلاً به نام توییتر شناخته می‌شدند) استفاده از دیپ‌فیک‌های مخرب را ممنوع کرده‌اند.

بسیاری از شرکت‌ها و سازمان‌ها نرم‌افزارهایی برای محافظت در برابر دیپ‌فیک‌ها ارائه می‌دهند. از جمله این ابزارها:

ادوبی: سیستمی برای سازندگان فراهم کرده که به آنها امکان می‌دهد امضای دیجیتال و اطلاعات مربوط به اثر خود را به ویدیوها و تصاویر اضافه کنند.
Intel FakeCatcher: این سیستم با تجزیه و تحلیل تغییرات جزئی در پیکسل‌ها و جریان خون، دقت بالایی در شناسایی دیپ‌فیک‌ها ارائه می‌دهد.
مایکروسافت: نرم‌افزاری مبتنی بر هوش مصنوعی برای شناسایی دیپ‌فیک‌ها که ویدیوها و عکس‌ها را تجزیه و تحلیل کرده و میزان اطمینان از واقعی بودن آنها را اعلام می‌کند.
عملیات مینروا: از کاتالوگ‌های دیپ‌فیک‌های قبلی برای شناسایی ویدیوهای جدید استفاده کرده و از طریق اثر انگشت دیجیتالی، تشخیص می‌دهد که آیا ویدیو تغییرات جعلی دارد یا نه.
هوش مصنوعی Sensity: پلتفرمی است که از یادگیری عمیق برای شناسایی نشانه‌های رسانه‌های جعلی استفاده می‌کند و کاربران را از محتوای جعلی آگاه می‌کند.
سنتینل (Sentinel): یک پلتفرم مبتنی بر ابر که از روش‌هایی مانند بررسی زمان، تجزیه و تحلیل نشانه‌های چهره و تشخیص پلک زدن برای شناسایی دیپ‌فیک‌ها استفاده می‌کند.

آیا دیپ فیک قانونی است؟

دیپ‌فیک‌ها معمولا قانونی هستند، مگر اینکه قوانین خاصی مانند پورنوگرافی کودکان، افترا یا نفرت‌پراکنی را نقض کنند. با وجود تهدیدات جدی که این فناوری ایجاد می‌کند، بیشتر نیروی انتظامی نمی‌تواند به‌طور مؤثر با آن مقابله کند. برخی ایالات در حال بررسی قوانینی هستند تا استفاده‌های مخرب دیپ‌فیک را محدود کنند. به‌عنوان مثال، پنج ایالت دیپ‌فیک‌هایی که به انتخابات آسیب می‌زنند را ممنوع کرده‌اند و برخی دیگر در حال تصویب قوانینی برای ممنوعیت پورنوگرافی دیپ‌فیک بدون رضایت هستند.

با این حال، چون بسیاری از مردم هنوز از خطرات دیپ‌فیک آگاه نیستند، قربانیان در اکثر موارد حمایت قانونی لازم را دریافت نمی‌کنند. اخیرا تلاش‌هایی برای تصویب قوانینی مانند «قانون سرپیچی» و «قانون جلوگیری از جعل عمیق تصاویر خصوصی» در جریان است که هدف آنها محافظت از قربانیان دیپ‌فیک و جرم‌انگاری برخی از سوءاستفاده‌ها از این فناوری است. این قوانین به دنبال ایجاد یک چارچوب قانونی برای مقابله با تهدیدات دیپ‌فیک و حمایت از حقوق افراد هستند.

سوالات متداول

چطور فناوری دیپ فیک می‌تواند بر امنیت سایبری تأثیر بگذارد؟

دیپ‌فیک‌ها می‌توانند برای جعل هویت، دسترسی به اطلاعات حساس یا دور زدن سیستم‌های احراز هویت استفاده شوند، که تهدید جدی برای امنیت سایبری است.

چگونه تشخیص دهیم که ویدیوی دیپ فیک است یا نه؟

بررسی دقیق ویژگی‌هایی مانند حرکت غیرطبیعی چشم، لب‌خوانی نادرست، یا برش‌های غیرطبیعی در صدا و تصویر می‌تواند نشان‌دهنده جعلی بودن ویدیو باشد.

آیا دیپ فیک‌ها می‌توانند به امنیت فردی آسیب بزنند؟

بله، دیپ‌فیک‌ها می‌توانند با جعل هویت افراد در ویدیوهای تماس یا حتی فایل‌های صوتی تهدیداتی جدی برای امنیت فردی و اجتماعی ایجاد کنند.

منابع

https://hooshio.com/?p=6576