صداهای جعل عمیق در فناوری تبدیل متن به گفتار

تیم تحریریه
۳ آبان ۱۴۰۱

زمان مطالعه: 4 دقیقه

عموم مردم، فناوری جعل عمیق یا دیپ‌فیک را فناوری مربوط به تصویر و بینایی ماشینی می‌دانند؛ در صورتی که جعل عمیق تنها در زمینه تصویر و ویدئو کارکرد ندارد و فناوری صداهای جعل عمیق نیز به عنوان یکی از شاخه‌های پردازش گفتار چند وقتی است که خودنمایی کرده. تصور کنید گوینده یا دوبلر مورد علاقه شما از دنیا رفته، شما حتماً افسوس خواهید خورد که دیگر صدای زیبا و آرام‌بخش او را نخواهید شنید؛ این موضوعی است که هوش مصنوعی با صداهای جعل عمیق آن را حل کرده و تا چند وقت دیگر شما می‌توانید، هر صدایی را که دوست دارید، با هر متنی که دوست دارید، بشنوید.

فهرست مقاله پنهان

1 مختصری از تاریخچه جعل عمیق

2 تعریف «صداهای جعل عمیق» دقیقاً چیست؟

3 فواید صداهای جعل عمیق کدامند؟

مختصری از تاریخچه جعل عمیق

در شناخت تاریخچه جعل عمیق اگر اصطلاح دیپ‌فیک را تا نقطه منشأ آن دنبال‌ کنید، از اینکه بدانید از دنیای خبری ردیت آمده، شگفت‌زده خواهید شد. کاربری این اصطلاح را ابداع کرد و از آن به‌عنوانِ نامِ خود استفاده کرد. امروزه این کلمه به گونه‌ای تکامل یافته ‌است که هر محتوایی را که به‌عنوان رسانه مصنوعی طبقه‌بندی می‌شود، در بر می‌گیرد. با استفاده از نوعی فناوری هوش مصنوعی به ‌نام یادگیری عمیق، می‌توانید تصویر، ویدئو یا صدایی بسازید که شباهت اصلی یک شخص با دیگری را عوض کند. در مورد صداهای جعل عمیق هم به‌ همین شکل ‌است.

با این‌ حال، این مفهوم تکنولوژیکی خیلی قبل از اینکه ردیت به‌ وجود بیاید، وجود داشته. در تاریخچه جعل عمیق، در اواخر دهه 90 میلادی، یک مقاله دانشگاهی که مفهوم دیپ‌فیک را بررسی می‌کرد، برنامه‌ای ارائه کرد که اولین نمونه از چیزی است که امروز آن را فناوری دیپ‌فیک می‌نامیم و به صداهای جعل عمیق رسیده‌ است. داده‌های این مقاله بر اساس کارهای قبلی انجام شده، در مورد تجزیه‌وتحلیل چهره‌ها، ترکیب صدا از متن و سپس مدل‌سازی اعمال دهان انسان در فضای سه بعدی انجام می‌شود. با ترکیب این سه محور، نویسندگان آن‌را به‌ عنوان برنامه بازنویسی ویدئو نوشتند؛ چراکه این برنامه انیمیشن‌های چهره جدیدی را از ضبط‌های صوتی ارائه‌شده ترکیب می‌کرد.

پس از انتشار آن مقاله دانشگاهی، مطالعه این فناوری در اوایل دهه 2000 سرد شد، اما در آغاز دهه جدید در سال 2010 تحقیقات یک بار دیگر افزایش یافت و عمدتاً بر توسعه قابلیت‌های تشخیص چهره تمرکز داشت. این موضوع با انتشار دو مقاله دیگر تغییر کرد، یکی در سال 2016 و دیگری در سال 2017. این مقالات با استفاده از سخت‌افزار درجه‌یک مصرف‌کننده، قدرت ایجاد دیپ‌فیک را تأیید کردند. از زمانی که به‌لطف آن کاربر بدنام Reddit به‌عنوان deepfake شناخته شد، این فناوری به‌سرعت به‌برنامه‌های حرفه‌ای و عملی‌تر تبدیل‌ شد.

در راستای صداهای جعل عمیق در تاریخچه جعل عمیق، یکی از این برنامه‌ها تکرار یا شبیه‌سازی صدای یک فرد است. این موردِ خاص به‌لطف سرفصل‌های متناوب، بیشتر دیده شده ‌است. یکی از جنجال‌های اخیر پیرامون این فناوری مربوط به تکرار سرآشپز مشهور، مستندساز و نویسنده «آنتونی بودین» بود که صدایش با صداهای جعل عمیق شبیه‌سازی و در مستندی درباره زندگی‌اش استفاده شد. در حالی که مردم می‌توانند از این فناوری برای احیای صداهایی که دیگر در میان ما نیستند استفاده کنند، این امر باعث ایجاد پرسش‌های اخلاقی نیز می‌شود.

تعریف «صداهای جعل عمیق» دقیقاً چیست؟

صداهای جعل عمیق که به‌آن شبیه‌سازی صدا یا صدای مصنوعی نیز می‌گویند، از هوش مصنوعی برای تولید یک همزاد از صدای یک فرد استفاده می‌کند؛ این تعریف صداهای جعل عمیق است. هم‌اکنون این فناوری صداهای جعل عمیق به‌حدی پیشرفت کرده ‌است که می‌تواند صدای انسان را با دقت بسیار زیادی در لحن و شباهت تکرار کند.

ایجاد دیپ‌فیک به رایانه‌های پیشرفته با کارت‌های گرافیکی قدرتمند و استفاده از قدرت محاسبات ابری نیاز دارد. با استفاده از سخت‌افزار محاسباتی قدرتمندتر، می‌توانید فرایند رندر را تسریع کنید، که بسته به دستگاه شما ممکن است هفته‌ها، روزها یا ساعت‌ها طول بکشد.

در تعریف صداهای جعل عمیق، برای شبیه‌سازی صدای یک نفر، باید داده‌های آموزشی برای تغذیه مدل‌های هوش مصنوعی داشته باشید. این داده‌ها اغلب ضبط‌های اصلی هستند که نمونه‌ای عالی از صحبت کردن فرد مورد نظر را ارائه می‌دهند. هوش مصنوعی می‌تواند از این داده‌ها برای ارائه صدایی معتبر استفاده کند و سپس می‌تواند برای صحبت کردن، هر چیزی را که تایپ می‌کنید، با فناوری‌های «تبدیل متن به گفتار» و یا حتی «گفتار به گفتار» انجام دهد.

حال‌ که تعریف صداهای جعل عمیق را می‌دانیم، این فناوری بسیاری را نگران کرده است، چراکه بر طیف وسیعی از چیزها، از گفتمان سیاسی گرفته تا حاکمیت قانون تأثیر می‌گذارد. برخی از نشانه‌های هشدار اولیه، قبلاً به ‌شکل کلاهبرداری تلفنی و ویدئوهای جعلی در رسانه‌های اجتماعی از افرادی که کارهایی را انجام می‌دهند که هرگز انجام نداده‌اند، ظاهر شده ‌است. سؤالاتی در مورد استفاده اخلاقی نیز مطرح ‌شده ‌است، به‌ویژه در مواردی مانند مستند آنتونی بوردین.

اکنون دو راه برای حفاظت از آسیب‌های صداهای جعل عمیق وجود دارد: نخست، ایجاد راهی برای تجزیه‌وتحلیل یا تشخیص معتبر بودن یک صدا یا ویدئو است. این رویکرد همانند نرم‌افزار ضدویروس، به ناچار به‌طور اجتناب‌ناپذیری عمل می‌کند، زیرا این آشکارسازها توسط ژنراتورهای همیشه‌ در حال تکامل، شکست می‌خورند. دومین و مسلماً بهترین راه پیشِ رو، جاسازی اطلاعات ایجاد و ویرایش در نرم‌افزار یا سخت‌افزار است. البته این تنها در صورتی کار می‌کند که این داده‌ها غیرقابل ویرایش باشند، اما ایده این است که یک واترمارک غیرقابل شنیدن ایجاد کند که به‌عنوان نشانه حقیقتی در صدا عمل کند.

فواید صداهای جعل عمیق کدامند؟

موارد فراوانی در مورد کارکرد مثبت و فواید صداهای جعل عمیق وجود دارد. البته این فناوری بسیار قدرتمند است و بدون شک نیاز به نرده‌های محافظ برای دفاع در برابر سوء‌استفاده دارد؛ اما اخیراً ثابت‌کرده‌است، که چگونه می‌توان از نظر اخلاقی برای استفاده مثبت هم کارایی‌داشته‌‌باشد؛ در این‌جا تلاش می‌کنیم تا فواید صداهای جعل عمیق را بشناسیم. برای مثال، از آن به‌عنوان راهی برای کمک به‌افرادی که صدای خود را به‌دلیل بیماری‌های گلو یا سایر مسائل پزشکی ازدست‌داده‌اند، استفاده‌شده تا با کمک فناوری صداهای جعل عمیق، صدای خود را بازگردانند. این امر اخیراً به وال کیلمر که صدای خود را به‌دلیل سرطان ازدست‌داده‌بود، کمک کرد.

یکی دیگر از فواید صداهای جعل عمیق استفاده تجاری آن است. استفاده مثبت از صداهای جعل عمیق، از منظر تجاری، درها را به‌روی فرصت‌های مختلف باز کرده‌است. می‌توان از آن برای ایجاد طرح یک برند یا ارائه محتواهای متنوعی مانند گزارش‌های آب‌وهوا و ورزشی در دنیای پخش، استفاده‌کرد. شرکت‌های سرگرمی می‌توانند استعدادهای گذشته را بازگردانند یا صدای یک شخصیت تاریخی را در برنامه‌های خود بگنجانند. اخیراً برای کمک به ترجمه محتوای پادکستی به زبان‌های مختلف با استفاده از صداهای جعل عمیق استفاده‌شده‌است، اما این‌کار باید اخلاقی و با تأییدیه‌های مناسب انجام‌شود.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

https://hooshio.com/?p=37261

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

صداهای جعل عمیق در فناوری تبدیل متن به گفتار

مختصری از تاریخچه جعل عمیق

تعریف «صداهای جعل عمیق» دقیقاً چیست؟

فواید صداهای جعل عمیق کدامند؟

عطرهای سفارشی با هوش مصنوعی

تفنگ خودکار هوشمند در ارتش هند؛ گام بزرگ در تسلیحات کشنده با هوش مصنوعی

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

سایه هوش مصنوعی بر پادشاه سرطان‌ها

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

آیا استفاده از چت‌بات‌های هوش مصنوعی فعالیت مغز انسان را تغییر می‌دهد؟

وقتی هوش مصنوعی به چشم پزشکان بدل می‌شود

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

هوش مصنوعی در خدمت جامعه؛ از ابزار سرکوب تا فناوری مدنی

چگونه فناوری می‌تواند مسیر کنشگری اجتماعی را متحول کند؟

عطرهای سفارشی با هوش مصنوعی

تفنگ خودکار هوشمند در ارتش هند؛ گام بزرگ در تسلیحات کشنده با هوش مصنوعی

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

سایه هوش مصنوعی بر پادشاه سرطان‌ها

عطرهای سفارشی با هوش مصنوعی

تفنگ خودکار هوشمند در ارتش هند؛ گام بزرگ در تسلیحات کشنده با هوش مصنوعی

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

مختصری از تاریخچه جعل عمیق

تعریف «صداهای جعل عمیق» دقیقاً چیست؟

فواید صداهای جعل عمیق کدامند؟

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید