لایرا؛ یک کدک جدید با نرخ بیت بسیار پایین، برای فشرده‌سازی گفتار

تیم تحریریه
۱۶ اسفند ۱۳۹۹

زمان مطالعه: 5 دقیقه

به لطف هوش مصنوعی علم ارتباطات متحول شده است. برقراری ارتباط با دیگران از طریق تماس صوتی و تصویری آنلاین به بخش جدایی‌ناپذیری از زندگی روزمره افراد تبدیل شده است. این امکان با استفاده از چارچوب‌های ارتباطی ِ درلحظه، مانند وب‌آر‌تی‌سی، و با کمک کدک‌ها فراهم شده است. در این فرایند برای رمزگذاری یا رمزگشایی سیگنال‌های انتقال یا ذخیره‌سازی، به تکنیک‌های فشرده‌سازی کارآمد نیاز است و این همان جایی است که لایرا به کمک ما می‌آید.

کدک‌ها برای چندین دهه بخشی حیاتی از برنامه‌های رسانه‌ای بوده‌اند. کدک‌ها به برنامه‌های bandwidth-hungry اجازه می‌دهند تا داده ها را به طور موثری انتقال دهند تا یک ارتباط با کیفیت بالا در هر مکان و هر زمان برقرار شود.

با توجه به این موضوع، یک چالش همیشگی در توسعه کدک‌ها، چه برای فیلم و چه برای صدا، افزایش کیفیت، بدون استفاده از داده‌های زیاد و به حداقل رساندن تاخیر برای برقراری ارتباط درلحظه بوده است. اگرچه به نظر می‌رسد ویدئو نسبت به صدا پهنای باند بیشتری نیاز داشته باشد اما کدک‌های ویدئویی مدرن می‌توانند نرخ بیت پایینی نسبت به برخی از کدک‌های گفتاری با کیفیت که امروزه مورد استفاده قرار می‌گیرند، داشته باشند. ترکیب کدک‌های ویدیویی و گفتاری با نرخ بیت پایین می‌تواند تجربه تماس تصویری با کیفیتی را حتی در شبکه‌های با پهنای باند پایین ارائه دهد. با این وجود، از نظر تاریخی، اگر نرخ بیت برای کدک صوتی پایین‌ باشد، سیگنال‌های صوتی قابل فهم نخواهند بود و بیشتر ماشینی به نظر می‌رسند. علاوه بر این، در حالی که برخی از افراد به یک شبکه ثابت و پرسرعت دسترسی دارند، این سطح از اتصال برای همه در سراسر جهان در دسترس نیست. حتی کسانی که اتصال اینترنت قوی و خوبی دارند، ممکن است گاهی اوقات کیفیت پایین، پهنای باند کم و اتصالات شبکه ناپایدار را تجربه کنند.

برای حل این مشکل، لایرا خلق شده است؛ یک کدک گفتاری با کیفیت بالا و نرخ بیت بسیار پایین که ارتباط صوتی را حتی در کندترین شبکه‌ها نیز فراهم می‌کند. برای انجام این کار، تکنیک‌های سنتی کدک به کار گرفته شده‌اند. از یادگیری ماشین و مدل‌هایی که با هزاران ساعت داده آموزش دیده‌اند برای ایجاد یک روش جدید به منظور فشرده‌سازی و انتقال سیگنال‌های صوتی استفاده شده است.

فهرست مقاله پنهان

1 بررسی اجمالی لایرا

1.1 لایرا؛ رویکردی جدید برای فشرده‌سازی

1.2 لایرا در مقایسه با کدک‌های موجود

1.3 اطمینان از انصاف

1.4 تاثیرات اجتماعی لایرا و چشم‌انداز آینده

بررسی اجمالی لایرا

معماری اساسی کدک لایرا کاملاً ساده است. شاخص‌ها یا ویژگی‌های متمایزکننده گفتار، هر ۴۰ ثانیه از گفتار استخراج می‌شوند و سپس برای انتقال فشرده می‌شوند. این ویژگی‌ها خودشان طیف‌نگاره‌های log mel هستند؛ یعنی فهرستی از اعداد که نمایانگر انرژی گفتاری در باندهای فرکانسی مختلف هستند و به طور سنتی برای ارتباط ادراکی استفاده می‌شوند. در سوی دیگر، یک مدل مولد از آن ویژگی‌ها برای ایجاد مجدد سیگنال گفتاری استفاده می‌کند. از این نظر لایرا مشابه سایر کدک‌های پارامتریک سنتی، از جمله MELP است.

با این وجود کدک‌های پارامتریک سنتی، که به سادگی از پارامترهای مهم گفتاری استخراج و برای ایجاد مجدد سیگنال استفاده می‌شوند ممکن است نرخ بیت پایینی داشته باشند و اغلب رباتیک و غیر طبیعی به نظر برسند. این نواقص منجر به تولید نسل جدیدی از مدل‌های تولید گفتار با کیفیت شده است. این مدل‌ها نه تنها می‌توانند بین سیگنال‌ها تفاوت قائل شود، بلکه سیگنال‌های کاملا جدیدی نیز ایجاد می‌کنند که این موضوع باعث انقلابی در این زمینه شده است. WaveNet دیپ مایند اولین نمونه از این مدل‌های مولد بود که راه را برای حضور بسیاری دیگر هموار کرد. علاوه بر این، از مدل مولد WaveNetEQ، که بر پایه تکنیک packet-loss-concealment توسعه داده شده است در گوگل دوو استفاده می‌شود. این کار نشان داد که چگونه می‌توان از این فناوری در سناریوهای واقعی استفاده کرد.

لایرا؛ رویکردی جدید برای فشرده‌سازی

توسعه دهندگان با بکارگیری این مدل‌ها به عنوان خط پایه، توانسته‌اند یک مدل جدید ایجاد کنند که می‌تواند گفتار را با استفاده از حداقل داده‌ها بازسازی کند. لایرا با استفاده از این مدل‌های جدید مولد که دارای صدای طبیعی هستند به دنبال این است که با حفظ نرخ بیت پایین، کدک‌های پارامتریک بتوانند به کیفیت بالایی دست یابند. این کار در تعادل با پیشرفته‌ترین کدک‌های شکل‌موج موجود در اکثر سیستم عامل‌های اصلی و ارتباطی صورت می‌پذیرد. نقطه ضعف کدک‌های شکل‌موج این است که آن‌ها تنها با استفاده از فشرده‌سازی و ارسال نمونه به نمونه‌ی سیگنال‌ها می‌توانند به این حد از کیفیت بالا دست یابند. این فرایند به نرخ بیت بالاتری نیاز دارد که طبق استانداردهای پردازش زبان طبیعی، در اکثر موارد برای دستیابی به گفتار طبیعی، این نرخ بیت ضروری نیست.

یکی از نگرانی‌ها درباره مدل‌های مولد درمورد پیچیدگی محاسباتی آن‌هاست. در لایرا خبری از این پیچیدگی نیست. لایرا از یک مدل مولد بازگشتی ارزان‌تر استفاده می‌کند، که با نرخ بیت کمتری کار می‌کند، اما سیگنال‌های چندگانه موازی را در دامنه‌های فرکانس مختلف تولید می‌کند. این سیگنال‌ها بعدا با یک سیگنال خروجی واحد با سرعت نمونه دلخواه ترکیب می‌شود. با این ترفند می‌توان از لیرا نه تنها در سرورهای ابری، بلکه در گوشی‌های میان‌رده نیز به صورت درلحظه استفاده کرد. (با تاخیر پردازشی ۹۰ میلی ثانیه، که با دیگر کدک‌های گفتاری سنتی مطابقت دارد). سپس این مدل مولد همانند WaveNet با استفاده از هزاران ساعت داده صوتی برای بازآفرینی دقیق گیرنده ورودی، آموزش داده می‌شود و بهینه می‌شود.

لایرا در مقایسه با کدک‌های موجود

از زمان آغاز به کار لایرا، مأموریت توسعه دهندگان آن ارائه یک صوت با کیفیت بوده است. در حال حاضر، کدک منبع باز و بدون حق امتیاز Opus، پرکاربردترین کدک برای برنامه‌های VOIP مبتنی بر وب‌آر‌تی‌سی است. صوت به دست آمده در این حالت ۳۲ کیلوبیت بر ثانیه سرعت دارد و معمولا کیفیت صدای شفافی دارد.

با این وجود در حالی که می‌توان از Opus در محیط‌های با پهنای باند محدود بر ۶ کیلوبیت بر ثانیه استفاده کرد، اما کیفیت صوتی پایین می‌آید. سایر کدک‌ها می‌توانند با نرخ بیت قابل مقایسه با لیرا از جمله Speex, MELP، AMR کار کنند، اما در نهایت ما شاهد صدایی غیر طبیعی هستیم.

لایرا در حال حاضر برای کار با سرعت ۳ کیلوبیت بر ثانیه طراحی شده است. تست‌های شنیداری نشان می‌دهد که لایرا از هر کدک دیگر در این نرخ بیت بهتر عمل می‌کند. اگر لایرا را با Opus در سرعت ۸ کیلوبیت بر ثانیه مقایسه کنیم نتیجه نشان از کاهش ۶۰ درصدی در پهنای باند دارد. لایرا می‌تواند در هر کجا که شرایط پهنای باند برای نرخ بیت بالاتر کافی نیست، به کار گرفته شود و در حال حاضر کدک‌های با نرخ بیت پایین که در حال حاضر موجود هستند، کیفیت قابل قبولی ارائه نمی‌دهند.

(گفتار پاک)Clean Speech

Original

Opus@6kbps

Lyra@3kbps

Speex@3kbps

(محیط شلوغ)Noisy Environment

Original

Opus@6kbps

Lyra@3kbps

Speex@3kbps

اطمینان از انصاف

همچون تمامی سیستم‌های مبتنی بر یادگیری ماشین، لایرا نیز باید آموزش ببینید تا اطمینان حاصل شود که برای همه مفید است. لایرا با استفاده از کتابخانه‌های صوتی منبع باز و هزاران ساعت صوت از بیش از ۷۰ زبان مختلف آموزش داده و سپس تأیید کیفیت صدا با شنوندگان خبره و متخصص انجام شد. یکی از اهداف طراحی لایرا اطمینان از کسب تجربه‌های صوتی با کیفیت بالا و قابل دسترسی در سطح جهانی است. لایرا روی یک دیتاست گسترده، از جمله گویندگان به زبان‌های مختلف، آموزش داده می‌شود تا اطمینان حاصل کند که کدک نسبت به هر موقعیتی آماده است.

تاثیرات اجتماعی لایرا و چشم‌انداز آینده

نتایجی که فناوری‌هایی مانند لایرا در کوتاه مدت و بلند مدت به ارمغان می‌آورند بسیار گسترده است با استفاده از لایرا، میلیاردها کاربر در بازارهای نوظهور می‌توانند به کدک کارآمد با نرخ بیت پایین دسترسی داشته باشند که به آن‌ها امکان می‌دهد صدای با کیفیت بالاتری که پیش از این تجربه نکرده‌اند داشته باشند. علاوه بر این، لایرا می‌تواند در محیط‌های ابری استفاده شود و کاربران با شبکه و دستگاه‌های متفاوت را قادر به گفتگوی یکپارچه با یکدیگر کند. سازگاری لایرا با فناوری‌های جدید فشرده‌سازی فیلم، مانند AV1، این امکان را می‌دهد تا چت‌های ویدئویی حتی برای کسانی که اینترنت دایل آپ دارند امکان‌پذیر شود.

گوگل دوو در حال حاضر از یادگیری ماشین برای کاهش اختلالات صوتی استفاده می‌کند. لایرا برای بهبود کیفیت تماس صوتی و قابلیت اطمینان در اتصالات پهنای باند بسیار پایین توسعه داده شده است. توسعه دهندگان از طریق GPU‌ها و TPU عملکرد و کیفیت لایرا را بهینه خواهند کرد تا اطمینان حاصل شود به طور حداکثری در دسترس قرار خواهد گرفت. آن‌ها همچنین در حال تحقیق در مورد این موضوع هستند که چگونه این فناوری‌ها می‌توانند به یک کدک صوتی عمومی‌تر با نرخ بیت پایین (به عنوان مثال، موسیقی و سایر موارد استفاده غیر گفتاری) منجر شوند.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=11809

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

لایرا؛ یک کدک جدید با نرخ بیت بسیار پایین، برای فشرده‌سازی گفتار