Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 صداهای جعل عمیق در فناوری تبدیل متن به گفتار

صداهای جعل عمیق در فناوری تبدیل متن به گفتار

زمان مطالعه: 3 دقیقه

عموم مردم، فناوری جعل عمیق یا دیپ‌فیک را فناوری مربوط به تصویر و بینایی ماشینی می‌دانند؛ در صورتی که جعل عمیق تنها در زمینه تصویر و ویدئو کارکرد ندارد و فناوری صداهای جعل عمیق نیز به عنوان یکی از شاخه‌های پردازش گفتار چند وقتی است که خودنمایی کرده. تصور کنید گوینده یا دوبلر مورد علاقه شما از دنیا رفته، شما حتماً افسوس خواهید خورد که دیگر صدای زیبا و آرام‌بخش او را نخواهید شنید؛ این موضوعی است که هوش مصنوعی با صداهای جعل عمیق آن را حل کرده و تا چند وقت دیگر شما می‌توانید، هر صدایی را که دوست دارید، با هر متنی که دوست دارید، بشنوید.

صداهای جعل عمیق

مختصری از تاریخچه جعل عمیق   

در شناخت تاریخچه جعل عمیق اگر اصطلاح دیپ‌فیک را تا نقطه منشأ آن دنبال‌ کنید، از اینکه بدانید از دنیای خبری ردیت آمده، شگفت‌زده خواهید شد. کاربری این اصطلاح را ابداع کرد و از آن به‌عنوانِ نامِ خود استفاده کرد. امروزه این کلمه به گونه‌ای تکامل یافته ‌است که هر محتوایی را که به‌عنوان رسانه مصنوعی طبقه‌بندی می‌شود، در بر می‌گیرد. با استفاده از نوعی فناوری هوش مصنوعی به ‌نام یادگیری عمیق، می‌توانید تصویر، ویدئو یا صدایی بسازید که شباهت اصلی یک شخص با دیگری را عوض کند. در مورد صداهای جعل عمیق هم به‌ همین شکل ‌است.

با این‌ حال، این مفهوم تکنولوژیکی خیلی قبل از اینکه ردیت به‌ وجود بیاید، وجود داشته. در تاریخچه جعل عمیق، در اواخر دهه 90 میلادی، یک مقاله دانشگاهی که مفهوم دیپ‌فیک را بررسی می‌کرد، برنامه‌ای ارائه کرد که اولین نمونه از چیزی است که امروز آن را فناوری دیپ‌فیک می‌نامیم و به صداهای جعل عمیق رسیده‌ است. داده‌های این مقاله بر اساس کارهای قبلی انجام شده، در مورد تجزیه‌وتحلیل چهره‌ها، ترکیب صدا از متن و سپس مدل‌سازی اعمال دهان انسان در فضای سه بعدی انجام می‌شود. با ترکیب این سه محور، نویسندگان آن‌را به‌ عنوان برنامه بازنویسی ویدئو نوشتند؛ چراکه این برنامه انیمیشن‌های چهره جدیدی را از ضبط‌های صوتی ارائه‌شده ترکیب می‌کرد.

مختصری از تاریخچه جعل عمیق   

پس از انتشار آن مقاله دانشگاهی، مطالعه این فناوری در اوایل دهه 2000 سرد شد، اما در آغاز دهه جدید در سال 2010 تحقیقات یک بار دیگر افزایش یافت و عمدتاً بر توسعه قابلیت‌های تشخیص چهره تمرکز داشت. این موضوع با انتشار دو مقاله دیگر تغییر کرد، یکی در سال 2016 و دیگری در سال 2017. این مقالات با استفاده از سخت‌افزار درجه‌یک مصرف‌کننده، قدرت ایجاد دیپ‌فیک را تأیید کردند. از زمانی که به‌لطف آن کاربر بدنام Reddit به‌عنوان deepfake شناخته شد، این فناوری به‌سرعت به‌برنامه‌های حرفه‌ای و عملی‌تر تبدیل‌ شد.

در راستای صداهای جعل عمیق در تاریخچه جعل عمیق، یکی از این برنامه‌ها تکرار یا شبیه‌سازی صدای یک فرد است. این موردِ خاص به‌لطف سرفصل‌های متناوب، بیشتر دیده شده ‌است. یکی از جنجال‌های اخیر پیرامون این فناوری مربوط به تکرار سرآشپز مشهور، مستندساز و نویسنده «آنتونی بودین» بود که صدایش با صداهای جعل عمیق شبیه‌سازی و در مستندی درباره زندگی‌اش استفاده شد. در حالی که مردم می‌توانند از این فناوری برای احیای صداهایی که دیگر در میان ما نیستند استفاده کنند، این امر باعث ایجاد پرسش‌های اخلاقی نیز می‌شود.

تعریف «صداهای جعل عمیق» دقیقاً چیست؟

صداهای جعل عمیق که به‌آن شبیه‌سازی صدا یا صدای مصنوعی نیز می‌گویند، از هوش مصنوعی برای تولید یک همزاد از صدای یک فرد استفاده می‌کند؛ این تعریف صداهای جعل عمیق است. هم‌اکنون این فناوری صداهای جعل عمیق به‌حدی پیشرفت کرده ‌است که می‌تواند صدای انسان را با دقت بسیار زیادی در لحن و شباهت تکرار کند.

ایجاد دیپ‌فیک به رایانه‌های پیشرفته با کارت‌های گرافیکی قدرتمند و استفاده از قدرت محاسبات ابری نیاز دارد. با استفاده از سخت‌افزار محاسباتی قدرتمندتر، می‌توانید فرایند رندر را تسریع کنید، که بسته به دستگاه شما ممکن است هفته‌ها، روزها یا ساعت‌ها طول بکشد.

تعریف «صداهای جعل عمیق» دقیقاً چیست؟

در تعریف صداهای جعل عمیق، برای شبیه‌سازی صدای یک نفر، باید داده‌های آموزشی برای تغذیه مدل‌های هوش مصنوعی داشته باشید. این داده‌ها اغلب ضبط‌های اصلی هستند که نمونه‌ای عالی از صحبت کردن فرد مورد نظر را ارائه می‌دهند. هوش مصنوعی می‌تواند از این داده‌ها برای ارائه صدایی معتبر استفاده کند و سپس می‌تواند برای صحبت کردن، هر چیزی را که تایپ می‌کنید، با فناوری‌های «تبدیل متن به گفتار» و یا حتی «گفتار به گفتار» انجام دهد.

حال‌ که تعریف صداهای جعل عمیق را می‌دانیم، این فناوری بسیاری را نگران کرده است، چراکه بر طیف وسیعی از چیزها، از گفتمان سیاسی گرفته تا حاکمیت قانون تأثیر می‌گذارد. برخی از نشانه‌های هشدار اولیه، قبلاً به ‌شکل کلاهبرداری تلفنی و ویدئوهای جعلی در رسانه‌های اجتماعی از افرادی که کارهایی را انجام می‌دهند که هرگز انجام نداده‌اند، ظاهر شده ‌است. سؤالاتی در مورد استفاده اخلاقی نیز مطرح ‌شده ‌است، به‌ویژه در مواردی مانند مستند آنتونی بوردین.

آنتونی بوردین

اکنون دو راه برای حفاظت از آسیب‌های صداهای جعل عمیق وجود دارد: نخست، ایجاد راهی برای تجزیه‌وتحلیل یا تشخیص معتبر بودن یک صدا یا ویدئو است. این رویکرد همانند نرم‌افزار ضدویروس، به ناچار به‌طور اجتناب‌ناپذیری عمل می‌کند، زیرا این آشکارسازها توسط ژنراتورهای همیشه‌ در حال تکامل، شکست می‌خورند. دومین و مسلماً بهترین راه پیشِ رو، جاسازی اطلاعات ایجاد و ویرایش در نرم‌افزار یا سخت‌افزار است. البته این تنها در صورتی کار می‌کند که این داده‌ها غیرقابل ویرایش باشند، اما ایده این است که یک واترمارک غیرقابل شنیدن ایجاد کند که به‌عنوان نشانه حقیقتی در صدا عمل کند.

فواید صداهای جعل عمیق کدامند؟

موارد فراوانی در مورد کارکرد مثبت و فواید صداهای جعل عمیق وجود دارد. البته این فناوری بسیار قدرتمند است و بدون شک نیاز به نرده‌های محافظ برای دفاع در برابر سوء‌استفاده دارد؛ اما اخیراً ثابت‌کرده‌است، که چگونه می‌توان از نظر اخلاقی برای استفاده مثبت هم کارایی‌داشته‌‌باشد؛ در این‌جا تلاش می‌کنیم تا فواید صداهای جعل عمیق را بشناسیم. برای مثال، از آن به‌عنوان راهی برای کمک به‌افرادی که صدای خود را به‌دلیل بیماری‌های گلو یا سایر مسائل پزشکی ازدست‌داده‌اند، استفاده‌شده تا با کمک فناوری صداهای جعل عمیق، صدای خود را بازگردانند. این امر اخیراً به وال کیلمر که صدای خود را به‌دلیل سرطان ازدست‌داده‌بود، کمک کرد.

یکی دیگر از فواید صداهای جعل عمیق استفاده تجاری آن است. استفاده مثبت از صداهای جعل عمیق، از منظر تجاری، درها را به‌روی فرصت‌های مختلف باز کرده‌است. می‌توان از آن برای ایجاد طرح یک برند یا ارائه محتواهای متنوعی مانند گزارش‌های آب‌وهوا و ورزشی در دنیای پخش، استفاده‌کرد. شرکت‌های سرگرمی می‌توانند استعدادهای گذشته را بازگردانند یا صدای یک شخصیت تاریخی را در برنامه‌های خود بگنجانند. اخیراً برای کمک به ترجمه محتوای پادکستی به زبان‌های مختلف با استفاده از صداهای جعل عمیق استفاده‌شده‌است، اما این‌کار باید اخلاقی و با تأییدیه‌های مناسب انجام‌شود.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]