صداهای جعل عمیق در فناوری تبدیل متن به گفتار
عموم مردم، فناوری جعل عمیق یا دیپفیک را فناوری مربوط به تصویر و بینایی ماشینی میدانند؛ در صورتی که جعل عمیق تنها در زمینه تصویر و ویدئو کارکرد ندارد و فناوری صداهای جعل عمیق نیز به عنوان یکی از شاخههای پردازش گفتار چند وقتی است که خودنمایی کرده. تصور کنید گوینده یا دوبلر مورد علاقه شما از دنیا رفته، شما حتماً افسوس خواهید خورد که دیگر صدای زیبا و آرامبخش او را نخواهید شنید؛ این موضوعی است که هوش مصنوعی با صداهای جعل عمیق آن را حل کرده و تا چند وقت دیگر شما میتوانید، هر صدایی را که دوست دارید، با هر متنی که دوست دارید، بشنوید.
مختصری از تاریخچه جعل عمیق
در شناخت تاریخچه جعل عمیق اگر اصطلاح دیپفیک را تا نقطه منشأ آن دنبال کنید، از اینکه بدانید از دنیای خبری ردیت آمده، شگفتزده خواهید شد. کاربری این اصطلاح را ابداع کرد و از آن بهعنوانِ نامِ خود استفاده کرد. امروزه این کلمه به گونهای تکامل یافته است که هر محتوایی را که بهعنوان رسانه مصنوعی طبقهبندی میشود، در بر میگیرد. با استفاده از نوعی فناوری هوش مصنوعی به نام یادگیری عمیق، میتوانید تصویر، ویدئو یا صدایی بسازید که شباهت اصلی یک شخص با دیگری را عوض کند. در مورد صداهای جعل عمیق هم به همین شکل است.
با این حال، این مفهوم تکنولوژیکی خیلی قبل از اینکه ردیت به وجود بیاید، وجود داشته. در تاریخچه جعل عمیق، در اواخر دهه 90 میلادی، یک مقاله دانشگاهی که مفهوم دیپفیک را بررسی میکرد، برنامهای ارائه کرد که اولین نمونه از چیزی است که امروز آن را فناوری دیپفیک مینامیم و به صداهای جعل عمیق رسیده است. دادههای این مقاله بر اساس کارهای قبلی انجام شده، در مورد تجزیهوتحلیل چهرهها، ترکیب صدا از متن و سپس مدلسازی اعمال دهان انسان در فضای سه بعدی انجام میشود. با ترکیب این سه محور، نویسندگان آنرا به عنوان برنامه بازنویسی ویدئو نوشتند؛ چراکه این برنامه انیمیشنهای چهره جدیدی را از ضبطهای صوتی ارائهشده ترکیب میکرد.
پس از انتشار آن مقاله دانشگاهی، مطالعه این فناوری در اوایل دهه 2000 سرد شد، اما در آغاز دهه جدید در سال 2010 تحقیقات یک بار دیگر افزایش یافت و عمدتاً بر توسعه قابلیتهای تشخیص چهره تمرکز داشت. این موضوع با انتشار دو مقاله دیگر تغییر کرد، یکی در سال 2016 و دیگری در سال 2017. این مقالات با استفاده از سختافزار درجهیک مصرفکننده، قدرت ایجاد دیپفیک را تأیید کردند. از زمانی که بهلطف آن کاربر بدنام Reddit بهعنوان deepfake شناخته شد، این فناوری بهسرعت بهبرنامههای حرفهای و عملیتر تبدیل شد.
در راستای صداهای جعل عمیق در تاریخچه جعل عمیق، یکی از این برنامهها تکرار یا شبیهسازی صدای یک فرد است. این موردِ خاص بهلطف سرفصلهای متناوب، بیشتر دیده شده است. یکی از جنجالهای اخیر پیرامون این فناوری مربوط به تکرار سرآشپز مشهور، مستندساز و نویسنده «آنتونی بودین» بود که صدایش با صداهای جعل عمیق شبیهسازی و در مستندی درباره زندگیاش استفاده شد. در حالی که مردم میتوانند از این فناوری برای احیای صداهایی که دیگر در میان ما نیستند استفاده کنند، این امر باعث ایجاد پرسشهای اخلاقی نیز میشود.
تعریف «صداهای جعل عمیق» دقیقاً چیست؟
صداهای جعل عمیق که بهآن شبیهسازی صدا یا صدای مصنوعی نیز میگویند، از هوش مصنوعی برای تولید یک همزاد از صدای یک فرد استفاده میکند؛ این تعریف صداهای جعل عمیق است. هماکنون این فناوری صداهای جعل عمیق بهحدی پیشرفت کرده است که میتواند صدای انسان را با دقت بسیار زیادی در لحن و شباهت تکرار کند.
ایجاد دیپفیک به رایانههای پیشرفته با کارتهای گرافیکی قدرتمند و استفاده از قدرت محاسبات ابری نیاز دارد. با استفاده از سختافزار محاسباتی قدرتمندتر، میتوانید فرایند رندر را تسریع کنید، که بسته به دستگاه شما ممکن است هفتهها، روزها یا ساعتها طول بکشد.
در تعریف صداهای جعل عمیق، برای شبیهسازی صدای یک نفر، باید دادههای آموزشی برای تغذیه مدلهای هوش مصنوعی داشته باشید. این دادهها اغلب ضبطهای اصلی هستند که نمونهای عالی از صحبت کردن فرد مورد نظر را ارائه میدهند. هوش مصنوعی میتواند از این دادهها برای ارائه صدایی معتبر استفاده کند و سپس میتواند برای صحبت کردن، هر چیزی را که تایپ میکنید، با فناوریهای «تبدیل متن به گفتار» و یا حتی «گفتار به گفتار» انجام دهد.
حال که تعریف صداهای جعل عمیق را میدانیم، این فناوری بسیاری را نگران کرده است، چراکه بر طیف وسیعی از چیزها، از گفتمان سیاسی گرفته تا حاکمیت قانون تأثیر میگذارد. برخی از نشانههای هشدار اولیه، قبلاً به شکل کلاهبرداری تلفنی و ویدئوهای جعلی در رسانههای اجتماعی از افرادی که کارهایی را انجام میدهند که هرگز انجام ندادهاند، ظاهر شده است. سؤالاتی در مورد استفاده اخلاقی نیز مطرح شده است، بهویژه در مواردی مانند مستند آنتونی بوردین.
اکنون دو راه برای حفاظت از آسیبهای صداهای جعل عمیق وجود دارد: نخست، ایجاد راهی برای تجزیهوتحلیل یا تشخیص معتبر بودن یک صدا یا ویدئو است. این رویکرد همانند نرمافزار ضدویروس، به ناچار بهطور اجتنابناپذیری عمل میکند، زیرا این آشکارسازها توسط ژنراتورهای همیشه در حال تکامل، شکست میخورند. دومین و مسلماً بهترین راه پیشِ رو، جاسازی اطلاعات ایجاد و ویرایش در نرمافزار یا سختافزار است. البته این تنها در صورتی کار میکند که این دادهها غیرقابل ویرایش باشند، اما ایده این است که یک واترمارک غیرقابل شنیدن ایجاد کند که بهعنوان نشانه حقیقتی در صدا عمل کند.
فواید صداهای جعل عمیق کدامند؟
موارد فراوانی در مورد کارکرد مثبت و فواید صداهای جعل عمیق وجود دارد. البته این فناوری بسیار قدرتمند است و بدون شک نیاز به نردههای محافظ برای دفاع در برابر سوءاستفاده دارد؛ اما اخیراً ثابتکردهاست، که چگونه میتوان از نظر اخلاقی برای استفاده مثبت هم کاراییداشتهباشد؛ در اینجا تلاش میکنیم تا فواید صداهای جعل عمیق را بشناسیم. برای مثال، از آن بهعنوان راهی برای کمک بهافرادی که صدای خود را بهدلیل بیماریهای گلو یا سایر مسائل پزشکی ازدستدادهاند، استفادهشده تا با کمک فناوری صداهای جعل عمیق، صدای خود را بازگردانند. این امر اخیراً به وال کیلمر که صدای خود را بهدلیل سرطان ازدستدادهبود، کمک کرد.
یکی دیگر از فواید صداهای جعل عمیق استفاده تجاری آن است. استفاده مثبت از صداهای جعل عمیق، از منظر تجاری، درها را بهروی فرصتهای مختلف باز کردهاست. میتوان از آن برای ایجاد طرح یک برند یا ارائه محتواهای متنوعی مانند گزارشهای آبوهوا و ورزشی در دنیای پخش، استفادهکرد. شرکتهای سرگرمی میتوانند استعدادهای گذشته را بازگردانند یا صدای یک شخصیت تاریخی را در برنامههای خود بگنجانند. اخیراً برای کمک به ترجمه محتوای پادکستی به زبانهای مختلف با استفاده از صداهای جعل عمیق استفادهشدهاست، اما اینکار باید اخلاقی و با تأییدیههای مناسب انجامشود.
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید