مایکروسافت اجازه دسترسی محدود به فناوری تبدیل متن به گفتار عصبی را می‌دهد

تیم تحریریه
۳ اسفند ۱۳۹۹

زمان مطالعه: < 1 دقیقه

به تازگی مایکروسافت اعلام کرده که دسترسی محدود افراد به فناوری هوش مصنوعی تبدیل متن به گفتار به نام Custom Neural Voice را باز می‌کند. این فناوری که بخشی از سرویس هوش مصنوعی Azure به نام Speech است به توسعه دهندگان اجازه می‌دهد صداهای مصنوعی سفارشی ایجاد کنند. شرکت‌ها می‌توانند از این فناوری در مواردی همچون دستیارهای صوتی و دستگاه‌های هوشمند مجهز به صدا، چت بات‌ها، آموزش آنلاین و خواندن کتاب‌های صوتی یا اخبار استفاده کنند. افراد و شرکت‌ها برای دسترسی به Neural Voice باید ابتدا درخواست دسترسی دهند و از مایکروسافت تاییدیه بگیرند.

مایکروسافت ادعا می‌کند صداهای تولید شده به وسیله این فناوری، بسیار طبیعی‌تر از صداهای تولید شده‌ دیگر سرویس‌های تبدیل متن به گفتار است. صداهای سفارشی از یک بانک اصوات یا واج‌ها برای ایجاد فونت‌های صوتی استفاده می‌کنند. صدای عصبی سفارشی با استفاده از شبکه های عصبی متعدد سعی می‌کند از لحاظ نوای گفتار (لحن و مدت زمان هر واج) و تلفظ دقیق باشد. این موضوع به هوش مصنوعی کمک می‌کند تا صدای فرد را به درستی تقلید کند یا صدایی مشابه با صدای واقعی تولید کند.

در حال حاضر چندین شرکت از جمله AT&T و برادران وارنر از این فناوری استفاده می‌کنند. آن‌ها اخیراً سیستمی را در فروشگاه AT&T در دالاس نصب کرده اند. در این مکان افراد می‌توانند با باگزبانی تعامل کنند. این شخصیت‌های کارتونی می‌توانند با استفاده از ترکیبی از صدای عصبی سفارشی، واقعیت افزوده و ۵G، به صورت زنده با مشتریان گپ بزنند و در فروشگاه حرکت کنند تا به آن‌ها در یافتن هویج طلایی پنهان شده کمک شود.

اریک باوزا، که در حال حاضر صداپیشه‌ شخصیت‌های باگزبانی است بیش از ۲۰۰۰ خط و عبارت را با کمک مایکروسافت برای ایجاد یک فونت صوتی ضبط کرد. برادران وارنر و مایکروسافت با همکاری یکدیگر صدایی سفارشی ایجاد کردند که به شخصیت و رفتارهای او بسیار نزدیک باشد. همچنین دولینگو از Neural Voice استفاده کرده است تا به افراد در یادگیری زبان‌های جدید کمک کند.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید