صداپیشه های مجهز به هوش مصنوعی بیش از پیش شبیه به انسان‌ها می‌شوند

تیم تحریریه
۲۲ آبان ۱۴۰۰
زمان مطالعه 6 دقیقه

WellSaid Labs آنچه مشتریان می‌توانند از هشت‌تا از صداپیشه های مجهز به هوش مصنوعی و دیجیتال جدید آن انتظار داشته باشند را چنین توصیف می‌کند: توبین «پرانرژی و خردمند است.» پِیج «خونسرد و رسا است.» و آوا «مبادی آداب، با اعتماد به نفس و حرفه‌ای است.»

هر یک از این صداپیشه های مجهز به هوش مصنوعی براساس صدای یک صداپیشه واقعی ساخته شده‌اند و شباهت آن‌ها به صدای فرد واقعی به لطف هوش مصنوعی ممکن شده است. اکنون شرکت‌ها می‌توانند هر آنچه را که لازم دارند به این برنامه‌ها داده و از آن بخواهند آن را تکرار کند. به این منظور کافی است متن موردنظر را وارد موتور صوتی ‌کنند‌ تا یک کلیپ صوتی واضح با صدای طبیعی و انسانی به عنوان خروجی دریافت نمایند.

WellSaid Labs یکی از استارت آپ‌های موسسه غیرانتفاعی و تحقیقاتی Allen Institute of Artificial Intelligence است که در سیاتل واقع شده است. این شرکت یکی از جدیدترین شرکت‌های ارائه‌دهنده صداپیشه های مجهز به هوش مصنوعی دیجیتال است. درحال‌حاضر‌ این شرکت در حوزه تولید صدا برای بخش آموزش الکترونیک شرکت‌ها فعالیت می‌کند. سایر استارت‌آپ‌های این حوزه در زمینه‌هایی چون دستیاران دیجیتال‌، اپراتورهای مراکز تماس و حتی شخصیت‌های بازی ویدیویی فعالیت دارند.

صداهای دیپ فیک

چندی پیش‌ این قبیل صداها که در واقع دیپ‌فیک هستند، به دلیل استفاده برای کلاهبرداری‌های تلفنی و اینترنتی‌، شهرت زیادی داشتند. اما بهبود کیفیت آن‌ها از آن زمان باعث شد بتوانند توجه شرکت‌های بیشتری را به خود جلب کنند. پیشرفت‌های اخیر در حوزه یادگیری عمیق امکان تقلید بسیاری از ظرافت‌های گفتار بشری را فراهم آورده است. این الگوریتم‌ها زمان مکث و نفس گرفتن در میانه متن را به درستی تشخیص می‌دهند و می‌توانند سبک حرف زدن یا احساس خود را تغییر دهند. اگر صحبت این الگوریتم طولانی شود، تفاوت آن با انسان را می‌توان به راحتی تشخیص داد‌، اما در کلیپ‌های صوتی کوتاه‌، برخی از آن‌ها قابل تمیز از انسان نیستند.

صداپیشگان مجهز به هوش مصنوعی ارزان‌ و مقیاس‌پذیر هستند و کار با آن‌ها آسان است. برخلاف صداپیشگان انسانی‌، صداهای مصنوعی می‌توانند متن صحبت خود را در لحظه به روزرسانی کنند. این ویژگی فرصت‌های جدیدی برای شخصی‌سازی تبلیغات ایجاد خواهد کرد.

البته گسترش این صداهای جعلی اما فوق واقعی عواقبی نیز دارد. به ویژه صداپیشگان انسانی می‌خواهند بدانند که این الگوریتم‌ها چه تاثیری روی زندگی کاری و امرارمعاش آن‌ها خواهد گذاشت.

چگونه یک صدای جعلی تولید کنیم؟

صداهای جعلی مدتی است که رواج یافته‌اند. اما انواع قدیمی‌ این صداها از جمله صدای اصلی سیری(Siri) و الکسا (Alexa)، کلمات و اصوات را بهم می‌چسباندند و در نهایت صدایی رباتیک و نامطلوب از آن‌ها به گوش می‌رسید. به علاوه، تغییر آن‌ها و تبدیل صدایشان به صدایی طبیعی‌تر امری پرزحمت و دشوار بود. اما یادگیری عمیق این مسئله را به کل تغییر داد. توسعه‌دهندگان صدا با کمک این فناوری دیگر نیازی به تعیین دقیق سرعت حرف زدن، تلفظ یا آهنگ صدای تولیدشده ندارند و تنها کافی‌ست فایل صوتی مناسب را به الگوریتم بدهند و از آن بخواهند که خودش این الگوها را یاد بگیرد.

«اگر من چت‌بات پیتزا Hut باشم‌، مطمئناً صدای من نباید شبیه چت‌بات Domino یا Papa John باشد.»

روپال پاتل‌، بنیان‌گذار و مدیر عامل شرکت VocaliD

محققان طی چندین سال گذشته از این ایده برای ساخت موتورهای صوتی پیچیده‌تری استفاده کرده‌اند. برای مثال، موتور ساخته‌شده توسط آزمایشگاه WellSaid از دو مدل اولیه یادگیری عمیق استفاده می‌کند. کار مدل اول این است که از یک متن، ضرب صدای گوینده از جمله لهجه‌، گام و زنگ صدا را پیش‌بینی کند. مدل دوم نیز جزئیات‌ گفتار از جمله تنفس و طنین صدا در محیط را پوشش می‌دهد.

تولید صدای جعلی باکیفیت

تولید یک صدای جعلی متقاعدکننده و قابل‌قبول فراتر از فشردن یک دکمه است. بخشی از آنچه باعث می‌شود صدای فرد، کاملاً انسانی به نظر برسد رسایی، یکنواخت نبودن و توانایی انسان در بیان جملات یکسان در سبک‌های کاملاً متفاوت‌ (بسته به بافت متن) است.

شناسایی و رعایت این نکات ظریف مستلزم یافتن صداپیشه‌های مناسب برای تهیه داده‌های آموزشی مناسب و تنظیم دقیق مدل‌های یادگیری عمیق است. WellSaid می‌گوید فرایند تولید یک صدای واقعی به حداقل یک فایل صوتی یک الی دو ساعته و چند هفته کار و تلاش نیاز دارد.

شرکت‌های مشهوری که می‌خواهند صدای صداپیشه آن‌ها طی میلیون‌ها تعاملی که با مشتریان‌شان دارد‌، یکسان و باثبات به نظر برسد، توجه و علاقه بیشتری به صداهای تولیدشده توسط هوش مصنوعی نشان داده‌اند. امروزه با فراگیر شدن بلندگوهای هوشمند، ظهور سیستم‌های خودکار در حوزه خدمات مشتریان و همچنین دستیارهای دیجیتال تعبیه‌شده در اتومبیل‌ها و دستگاه‌های هوشمند‌، ممکن است این شرکت‌ها به تولید بیش از صد ساعت صدا در ماه نیاز پیدا کنند. اما آن‌ها دیگر نمی‌خواهند از صداهای تولیدشده توسط فناوری‌های سنتی متن به گفتار استفاده کنند. این روند در دوران پاندمی کرونا با افزایش شمار مشتریانی که تعاملات آنلاین را به تعاملات حضوری در فضای شرکت ترجیح می‌دهند، سرعت بیشتری گرفته است.

تفکر در مورد صداهای شرکت‌ها

روپال پاتل‌، استاد دانشگاهNortheastern و بنیانگذار و مدیرعامل VocaliD‌، که وعده تولید صداهای شخصی‌سازی‌شده برای برندها را داده است، می‌گوید: «اگر من چت‌بات پیتزا Hut باشم‌، مطمئناً صدای من نباید شبیه چت‌بات Domino یا Papa John باشد.. هر یک از این برندهای تجاری برای انتخاب رنگ و متن برند خود زمان و هزینه بسیاری صرف کرده‌اند و حالا باید در مورد صدای خود نیز بیاندیشند.»

شرکت‌ها قبلاً مجبور بودند صداپیشگان مختلفی را برای بازارهای مختلف خود استخدام کنند (برای مثال، لهجه صداپیشه مشتریان ساکن در شمال شرقی آمریکا می‌بایست با لهجه صداپیشه مشتریان جنوبی متفاوت بود، همچنین زبان صداپیشه مشتریان فرانسوی و مکزیکی نیز نمی‌تواند یکسان باشد). اما اکنون برخی از شرکت‌ها می‌توانند لهجه یا زبان صداپیشه های مجهز به هوش مصنوعی خود را به روش‌های مختلف تغییر دهند. این ویژگی به ما امکان می‌دهد تا نه تنها مشخصه‌‌های صوتی بلکه حتی کلمات استفاده‌شده در تبلیغاتی که در سامانه‌های پخش آنلاین منتشر می‌شوند، را بسته به این که چه کسی دارد به آن‌ها گوش ‌می‌دهد‌، تغییر دهیم.

برای مثال، در هنگام تبلیغ یک نوشیدنی، می‌توان بسته به موقعیت مکانی شنونده، سوپرمارکت متفاوتی را برای خرید آن پیشنهاد کرد. شرکت Resemble.ai‌، که برای تبلیغات و دستیارهای هوشمند، صدا تولید و طراحی ‌می‌کند‌، ‌می‌گوید که در حال حاضر روی تولید صداهای شخصی‌سازی‌شده برای پخش تبلیغات روی سامانه‌های Spotify و Pandora کار می‌کند.

صنایع بازی و سرگرمی

این فناوری برای صنایع بازی و سرگر‌می ‌نیز مزایایی به دنبال خواهد داشت. Sonantic‌، شرکتی است که در حوزه تولید صداهای احساسی از قبیل صدای خنده، گریه، زمزمه و فریاد کار می‌کند و برای صداگذاری شخصیت‌های بازی‌های ویدیویی با سازندگان آن‌ها همکاری دارد. بسیاری از مشتریان این شرکت از صداهای جعلی تنها در مرحله پیش‌تولید استفاده ‌می‌کنند و برای صداگذاری شخصیت‌ها در محصول نهایی از صداپیشگان واقعی استفاده می‌کنند. اما Sonantic ‌می‌گوید به تازگی تعداد کمی از سازندگان بازی برای شخصیت‌های فرعی که دیالوگ‌های کمتری دارند، به استفاده از صداهای جعلی روی آورده‌اند‌. سایر شرکت‌ها از جمله Resemble.ai نیز با سازندگان فیلم‌‌ها و برنامه‌های تلویزیونی برای جایگزین کردن کلماتی که بازیگر به اشتباه بیان یا تلفظ کرده همکاری می‌کنند.

اما حتی هوش مصنوعی نیز برای پیشرفت با محدودیت‌هایی روبه‌رو است. حفظ کیفیت صدا برای مدتی طولانی برای ضبط کتاب‌های صوتی و پادکست‌ها ضروری است، اما این کار هنوز هم برای هوش مصنوعی دشوار است. همچنین یک کارگردان نمی‌تواند برای کنترل عملکرد و گفتار صداپیشه های مجهز به هوش مصنوعی به همان روشی که انسان‌ها را کنترل و هدایت می‌کند، عمل نماید. زوهیب احمد‌، بنیانگذار و مدیرعامل Resemble.ai‌، ‌می‌گوید: «ما هنوز در ابتدای مسیر تولید گفتار جعلی هستیم.» باید این فناوری را با روزهایی مقایسه کرد که فناوری CGI عمدتاً برای روتوش استفاده ‌می‌شد نه ایجاد جهانی کاملاً جدید از پرده سبز سینما.

‌حضور انسان

صداپیشگان هوش مصنوعی نمی‌توانند به این زودی صداپیشگان انسانی را کاملاً از میدان به در کنند. هنوز هم برای آن که پروژه‌های احساسی، خلاقانه و طولانی به بهترین نحو انجام شوند به صداپیشگان انسانی نیاز داریم. همچنین برای تولید هر صدای جعلی توسط این شرکت‌ها‌، به یک صداپیشه انسانی نیاز است تا داده‌های آموزشی را تولید کرده و به الگوریتم بدهد.

سخنگوی SAG-AFTRA‌، اتحادیه‌ای که نماینده صداپیشگان در ایالات متحده است‌، ‌می‌گوید‌: «در هر حال برخی از صداپیشگان نگران آینده و درآمد خود هستند.» حتی اگر لازم نباشد این افراد نگران از دست دادن شغل خود و جایگزین شدن توسط هوش مصنوعی‌ باشند، نگران عادلانه یا ناعادلانه بودن مبلغ جبران خسارت یا از دست دادن کنترل صدای خود که برند و شهرت آن‌هاست، هستند.

این مسئله اکنون موضوع دادخواستی است که توسط بِو اِستَندینگ، صداپیشه کانادایی، علیه شبکه اجتماعی TikTok مطرح شده است. این فرد ادعا ‌می‌کند که صدای جعلی که از صدای او کپی شده است بدون اجازه وی در ویژگی voice-over تعبیه‌شده در این برنامه استفاده ‌می‌شود. این اتفاق یادآور چیزی است که سوزان بِنِت، صداپیشه اصلی سیری تجربه کرد. شرکت اپل برای ضبط اولیه صدای خانم بنت به وی مبلغی را پرداخت کرد‌، اما بعد از آن صدای وی را در میلیون‌ها دستگاه اپل استفاده کرد بدون آن که به وی توجهی داشته باشد.

تعامل مطمئن با صداپیشه های مجهز به هوش مصنوعی

برخی از شرکت‌ها به دنبال راه‌هایی هستند که بتوانند تعاملاتی مطمئن‌تر با صنعت صداپیشگی داشته باشند. نماینده SAG-AFTRA ‌می‌گوید‌: «شرکت‌های متعهد به اتحادیه مربوطه مراجعه کرده‌اند تا بهترین راه برای جبران خسارت و احترام به صداپیشگان را پیدا کنند.»

اکنون شمار کثیری از این شرکت‌ها از یک مدل تقسیم سود استفاده می‌کنند و هر زمان که مشتری صدای جعلی خاص خود را در جایی استافده کند، مبلغی به صداپیشه مربوطه داده می‌شود. این امر باعث ایجاد جریان جدیدی از درآمد منفعل برای صداپیشگان شده است. برخی دیگر نیز صداپیشگان را در جریان فرایند طراحی شبیه‌سازی هوش مصنوعی صدای آن‌ها قرار می‌دهند و به آن‌ها حق وِتو ‌می‌دهند. SAG-AFTRA همچنین در تلاش است تا قوانینی نیز برای محافظت از صداپیشگان در برابر کپی‌برداری غیرقانونی از صدای آن‌ها تصویب شود.

اما هدف نهایی VocaliD از تولید صداپیشه های مجهز به هوش مصنوعی این نیست که صدای انسان دیگر در هیچ‌جا استفاده نشود و یا فرایند voice-over کنونی کاملاً خودکار شود، بلکه آن‌ها وعده ایجاد فرصت‌ها و در دسترس قرار دادن امکانات کاملاً جدیدی را می‌دهند. چه ‌می‌شود اگر در آینده‌، بتوان با استفاده از صداهای جعلی مطالب آموزش آنلاین را به سرعت با نیازهای مخاطبان مختلف تطابق داد؟ خانم پاتل می‌گوید: «اگر صداپیشه های مجهز به هوش مصنوعی شما بخواهند با گروهی از کودکان پایین‌شهر تعامل داشته باشند، بهترین حالت این نیست که صدا و لهجه آن‌ها مشابه جامعه خود آنان باشد؟»