صداپیشه های مجهز به هوش مصنوعی بیش از پیش شبیه به انسانها میشوند
WellSaid Labs آنچه مشتریان میتوانند از هشتتا از صداپیشه های مجهز به هوش مصنوعی و دیجیتال جدید آن انتظار داشته باشند را چنین توصیف میکند: توبین «پرانرژی و خردمند است.» پِیج «خونسرد و رسا است.» و آوا «مبادی آداب، با اعتماد به نفس و حرفهای است.»
هر یک از این صداپیشه های مجهز به هوش مصنوعی براساس صدای یک صداپیشه واقعی ساخته شدهاند و شباهت آنها به صدای فرد واقعی به لطف هوش مصنوعی ممکن شده است. اکنون شرکتها میتوانند هر آنچه را که لازم دارند به این برنامهها داده و از آن بخواهند آن را تکرار کند. به این منظور کافی است متن موردنظر را وارد موتور صوتی کنند تا یک کلیپ صوتی واضح با صدای طبیعی و انسانی به عنوان خروجی دریافت نمایند.
WellSaid Labs یکی از استارت آپهای موسسه غیرانتفاعی و تحقیقاتی Allen Institute of Artificial Intelligence است که در سیاتل واقع شده است. این شرکت یکی از جدیدترین شرکتهای ارائهدهنده صداپیشه های مجهز به هوش مصنوعی دیجیتال است. درحالحاضر این شرکت در حوزه تولید صدا برای بخش آموزش الکترونیک شرکتها فعالیت میکند. سایر استارتآپهای این حوزه در زمینههایی چون دستیاران دیجیتال، اپراتورهای مراکز تماس و حتی شخصیتهای بازی ویدیویی فعالیت دارند.
صداهای دیپ فیک
چندی پیش این قبیل صداها که در واقع دیپفیک هستند، به دلیل استفاده برای کلاهبرداریهای تلفنی و اینترنتی، شهرت زیادی داشتند. اما بهبود کیفیت آنها از آن زمان باعث شد بتوانند توجه شرکتهای بیشتری را به خود جلب کنند. پیشرفتهای اخیر در حوزه یادگیری عمیق امکان تقلید بسیاری از ظرافتهای گفتار بشری را فراهم آورده است. این الگوریتمها زمان مکث و نفس گرفتن در میانه متن را به درستی تشخیص میدهند و میتوانند سبک حرف زدن یا احساس خود را تغییر دهند. اگر صحبت این الگوریتم طولانی شود، تفاوت آن با انسان را میتوان به راحتی تشخیص داد، اما در کلیپهای صوتی کوتاه، برخی از آنها قابل تمیز از انسان نیستند.
صداپیشگان مجهز به هوش مصنوعی ارزان و مقیاسپذیر هستند و کار با آنها آسان است. برخلاف صداپیشگان انسانی، صداهای مصنوعی میتوانند متن صحبت خود را در لحظه به روزرسانی کنند. این ویژگی فرصتهای جدیدی برای شخصیسازی تبلیغات ایجاد خواهد کرد.
البته گسترش این صداهای جعلی اما فوق واقعی عواقبی نیز دارد. به ویژه صداپیشگان انسانی میخواهند بدانند که این الگوریتمها چه تاثیری روی زندگی کاری و امرارمعاش آنها خواهد گذاشت.
چگونه یک صدای جعلی تولید کنیم؟
صداهای جعلی مدتی است که رواج یافتهاند. اما انواع قدیمی این صداها از جمله صدای اصلی سیری(Siri) و الکسا (Alexa)، کلمات و اصوات را بهم میچسباندند و در نهایت صدایی رباتیک و نامطلوب از آنها به گوش میرسید. به علاوه، تغییر آنها و تبدیل صدایشان به صدایی طبیعیتر امری پرزحمت و دشوار بود. اما یادگیری عمیق این مسئله را به کل تغییر داد. توسعهدهندگان صدا با کمک این فناوری دیگر نیازی به تعیین دقیق سرعت حرف زدن، تلفظ یا آهنگ صدای تولیدشده ندارند و تنها کافیست فایل صوتی مناسب را به الگوریتم بدهند و از آن بخواهند که خودش این الگوها را یاد بگیرد.
«اگر من چتبات پیتزا Hut باشم، مطمئناً صدای من نباید شبیه چتبات Domino یا Papa John باشد.»
روپال پاتل، بنیانگذار و مدیر عامل شرکت VocaliD
محققان طی چندین سال گذشته از این ایده برای ساخت موتورهای صوتی پیچیدهتری استفاده کردهاند. برای مثال، موتور ساختهشده توسط آزمایشگاه WellSaid از دو مدل اولیه یادگیری عمیق استفاده میکند. کار مدل اول این است که از یک متن، ضرب صدای گوینده از جمله لهجه، گام و زنگ صدا را پیشبینی کند. مدل دوم نیز جزئیات گفتار از جمله تنفس و طنین صدا در محیط را پوشش میدهد.
تولید صدای جعلی باکیفیت
تولید یک صدای جعلی متقاعدکننده و قابلقبول فراتر از فشردن یک دکمه است. بخشی از آنچه باعث میشود صدای فرد، کاملاً انسانی به نظر برسد رسایی، یکنواخت نبودن و توانایی انسان در بیان جملات یکسان در سبکهای کاملاً متفاوت (بسته به بافت متن) است.
شناسایی و رعایت این نکات ظریف مستلزم یافتن صداپیشههای مناسب برای تهیه دادههای آموزشی مناسب و تنظیم دقیق مدلهای یادگیری عمیق است. WellSaid میگوید فرایند تولید یک صدای واقعی به حداقل یک فایل صوتی یک الی دو ساعته و چند هفته کار و تلاش نیاز دارد.
شرکتهای مشهوری که میخواهند صدای صداپیشه آنها طی میلیونها تعاملی که با مشتریانشان دارد، یکسان و باثبات به نظر برسد، توجه و علاقه بیشتری به صداهای تولیدشده توسط هوش مصنوعی نشان دادهاند. امروزه با فراگیر شدن بلندگوهای هوشمند، ظهور سیستمهای خودکار در حوزه خدمات مشتریان و همچنین دستیارهای دیجیتال تعبیهشده در اتومبیلها و دستگاههای هوشمند، ممکن است این شرکتها به تولید بیش از صد ساعت صدا در ماه نیاز پیدا کنند. اما آنها دیگر نمیخواهند از صداهای تولیدشده توسط فناوریهای سنتی متن به گفتار استفاده کنند. این روند در دوران پاندمی کرونا با افزایش شمار مشتریانی که تعاملات آنلاین را به تعاملات حضوری در فضای شرکت ترجیح میدهند، سرعت بیشتری گرفته است.
تفکر در مورد صداهای شرکتها
روپال پاتل، استاد دانشگاهNortheastern و بنیانگذار و مدیرعامل VocaliD، که وعده تولید صداهای شخصیسازیشده برای برندها را داده است، میگوید: «اگر من چتبات پیتزا Hut باشم، مطمئناً صدای من نباید شبیه چتبات Domino یا Papa John باشد.. هر یک از این برندهای تجاری برای انتخاب رنگ و متن برند خود زمان و هزینه بسیاری صرف کردهاند و حالا باید در مورد صدای خود نیز بیاندیشند.»
شرکتها قبلاً مجبور بودند صداپیشگان مختلفی را برای بازارهای مختلف خود استخدام کنند (برای مثال، لهجه صداپیشه مشتریان ساکن در شمال شرقی آمریکا میبایست با لهجه صداپیشه مشتریان جنوبی متفاوت بود، همچنین زبان صداپیشه مشتریان فرانسوی و مکزیکی نیز نمیتواند یکسان باشد). اما اکنون برخی از شرکتها میتوانند لهجه یا زبان صداپیشه های مجهز به هوش مصنوعی خود را به روشهای مختلف تغییر دهند. این ویژگی به ما امکان میدهد تا نه تنها مشخصههای صوتی بلکه حتی کلمات استفادهشده در تبلیغاتی که در سامانههای پخش آنلاین منتشر میشوند، را بسته به این که چه کسی دارد به آنها گوش میدهد، تغییر دهیم.
برای مثال، در هنگام تبلیغ یک نوشیدنی، میتوان بسته به موقعیت مکانی شنونده، سوپرمارکت متفاوتی را برای خرید آن پیشنهاد کرد. شرکت Resemble.ai، که برای تبلیغات و دستیارهای هوشمند، صدا تولید و طراحی میکند، میگوید که در حال حاضر روی تولید صداهای شخصیسازیشده برای پخش تبلیغات روی سامانههای Spotify و Pandora کار میکند.
صنایع بازی و سرگرمی
این فناوری برای صنایع بازی و سرگرمی نیز مزایایی به دنبال خواهد داشت. Sonantic، شرکتی است که در حوزه تولید صداهای احساسی از قبیل صدای خنده، گریه، زمزمه و فریاد کار میکند و برای صداگذاری شخصیتهای بازیهای ویدیویی با سازندگان آنها همکاری دارد. بسیاری از مشتریان این شرکت از صداهای جعلی تنها در مرحله پیشتولید استفاده میکنند و برای صداگذاری شخصیتها در محصول نهایی از صداپیشگان واقعی استفاده میکنند. اما Sonantic میگوید به تازگی تعداد کمی از سازندگان بازی برای شخصیتهای فرعی که دیالوگهای کمتری دارند، به استفاده از صداهای جعلی روی آوردهاند. سایر شرکتها از جمله Resemble.ai نیز با سازندگان فیلمها و برنامههای تلویزیونی برای جایگزین کردن کلماتی که بازیگر به اشتباه بیان یا تلفظ کرده همکاری میکنند.
اما حتی هوش مصنوعی نیز برای پیشرفت با محدودیتهایی روبهرو است. حفظ کیفیت صدا برای مدتی طولانی برای ضبط کتابهای صوتی و پادکستها ضروری است، اما این کار هنوز هم برای هوش مصنوعی دشوار است. همچنین یک کارگردان نمیتواند برای کنترل عملکرد و گفتار صداپیشه های مجهز به هوش مصنوعی به همان روشی که انسانها را کنترل و هدایت میکند، عمل نماید. زوهیب احمد، بنیانگذار و مدیرعامل Resemble.ai، میگوید: «ما هنوز در ابتدای مسیر تولید گفتار جعلی هستیم.» باید این فناوری را با روزهایی مقایسه کرد که فناوری CGI عمدتاً برای روتوش استفاده میشد نه ایجاد جهانی کاملاً جدید از پرده سبز سینما.
حضور انسان
صداپیشگان هوش مصنوعی نمیتوانند به این زودی صداپیشگان انسانی را کاملاً از میدان به در کنند. هنوز هم برای آن که پروژههای احساسی، خلاقانه و طولانی به بهترین نحو انجام شوند به صداپیشگان انسانی نیاز داریم. همچنین برای تولید هر صدای جعلی توسط این شرکتها، به یک صداپیشه انسانی نیاز است تا دادههای آموزشی را تولید کرده و به الگوریتم بدهد.
سخنگوی SAG-AFTRA، اتحادیهای که نماینده صداپیشگان در ایالات متحده است، میگوید: «در هر حال برخی از صداپیشگان نگران آینده و درآمد خود هستند.» حتی اگر لازم نباشد این افراد نگران از دست دادن شغل خود و جایگزین شدن توسط هوش مصنوعی باشند، نگران عادلانه یا ناعادلانه بودن مبلغ جبران خسارت یا از دست دادن کنترل صدای خود که برند و شهرت آنهاست، هستند.
این مسئله اکنون موضوع دادخواستی است که توسط بِو اِستَندینگ، صداپیشه کانادایی، علیه شبکه اجتماعی TikTok مطرح شده است. این فرد ادعا میکند که صدای جعلی که از صدای او کپی شده است بدون اجازه وی در ویژگی voice-over تعبیهشده در این برنامه استفاده میشود. این اتفاق یادآور چیزی است که سوزان بِنِت، صداپیشه اصلی سیری تجربه کرد. شرکت اپل برای ضبط اولیه صدای خانم بنت به وی مبلغی را پرداخت کرد، اما بعد از آن صدای وی را در میلیونها دستگاه اپل استفاده کرد بدون آن که به وی توجهی داشته باشد.
تعامل مطمئن با صداپیشه های مجهز به هوش مصنوعی
برخی از شرکتها به دنبال راههایی هستند که بتوانند تعاملاتی مطمئنتر با صنعت صداپیشگی داشته باشند. نماینده SAG-AFTRA میگوید: «شرکتهای متعهد به اتحادیه مربوطه مراجعه کردهاند تا بهترین راه برای جبران خسارت و احترام به صداپیشگان را پیدا کنند.»
اکنون شمار کثیری از این شرکتها از یک مدل تقسیم سود استفاده میکنند و هر زمان که مشتری صدای جعلی خاص خود را در جایی استافده کند، مبلغی به صداپیشه مربوطه داده میشود. این امر باعث ایجاد جریان جدیدی از درآمد منفعل برای صداپیشگان شده است. برخی دیگر نیز صداپیشگان را در جریان فرایند طراحی شبیهسازی هوش مصنوعی صدای آنها قرار میدهند و به آنها حق وِتو میدهند. SAG-AFTRA همچنین در تلاش است تا قوانینی نیز برای محافظت از صداپیشگان در برابر کپیبرداری غیرقانونی از صدای آنها تصویب شود.
اما هدف نهایی VocaliD از تولید صداپیشه های مجهز به هوش مصنوعی این نیست که صدای انسان دیگر در هیچجا استفاده نشود و یا فرایند voice-over کنونی کاملاً خودکار شود، بلکه آنها وعده ایجاد فرصتها و در دسترس قرار دادن امکانات کاملاً جدیدی را میدهند. چه میشود اگر در آینده، بتوان با استفاده از صداهای جعلی مطالب آموزش آنلاین را به سرعت با نیازهای مخاطبان مختلف تطابق داد؟ خانم پاتل میگوید: «اگر صداپیشه های مجهز به هوش مصنوعی شما بخواهند با گروهی از کودکان پایینشهر تعامل داشته باشند، بهترین حالت این نیست که صدا و لهجه آنها مشابه جامعه خود آنان باشد؟»