
لایرا؛ یک کدک جدید با نرخ بیت بسیار پایین، برای فشردهسازی گفتار
به لطف هوش مصنوعی علم ارتباطات متحول شده است. برقراری ارتباط با دیگران از طریق تماس صوتی و تصویری آنلاین به بخش جداییناپذیری از زندگی روزمره افراد تبدیل شده است. این امکان با استفاده از چارچوبهای ارتباطی ِ درلحظه، مانند وبآرتیسی، و با کمک کدکها فراهم شده است. در این فرایند برای رمزگذاری یا رمزگشایی سیگنالهای انتقال یا ذخیرهسازی، به تکنیکهای فشردهسازی کارآمد نیاز است و این همان جایی است که لایرا به کمک ما میآید.
کدکها برای چندین دهه بخشی حیاتی از برنامههای رسانهای بودهاند. کدکها به برنامههای bandwidth-hungry اجازه میدهند تا داده ها را به طور موثری انتقال دهند تا یک ارتباط با کیفیت بالا در هر مکان و هر زمان برقرار شود.
با توجه به این موضوع، یک چالش همیشگی در توسعه کدکها، چه برای فیلم و چه برای صدا، افزایش کیفیت، بدون استفاده از دادههای زیاد و به حداقل رساندن تاخیر برای برقراری ارتباط درلحظه بوده است. اگرچه به نظر میرسد ویدئو نسبت به صدا پهنای باند بیشتری نیاز داشته باشد اما کدکهای ویدئویی مدرن میتوانند نرخ بیت پایینی نسبت به برخی از کدکهای گفتاری با کیفیت که امروزه مورد استفاده قرار میگیرند، داشته باشند. ترکیب کدکهای ویدیویی و گفتاری با نرخ بیت پایین میتواند تجربه تماس تصویری با کیفیتی را حتی در شبکههای با پهنای باند پایین ارائه دهد. با این وجود، از نظر تاریخی، اگر نرخ بیت برای کدک صوتی پایین باشد، سیگنالهای صوتی قابل فهم نخواهند بود و بیشتر ماشینی به نظر میرسند. علاوه بر این، در حالی که برخی از افراد به یک شبکه ثابت و پرسرعت دسترسی دارند، این سطح از اتصال برای همه در سراسر جهان در دسترس نیست. حتی کسانی که اتصال اینترنت قوی و خوبی دارند، ممکن است گاهی اوقات کیفیت پایین، پهنای باند کم و اتصالات شبکه ناپایدار را تجربه کنند.
برای حل این مشکل، لایرا خلق شده است؛ یک کدک گفتاری با کیفیت بالا و نرخ بیت بسیار پایین که ارتباط صوتی را حتی در کندترین شبکهها نیز فراهم میکند. برای انجام این کار، تکنیکهای سنتی کدک به کار گرفته شدهاند. از یادگیری ماشین و مدلهایی که با هزاران ساعت داده آموزش دیدهاند برای ایجاد یک روش جدید به منظور فشردهسازی و انتقال سیگنالهای صوتی استفاده شده است.
بررسی اجمالی لایرا
معماری اساسی کدک لایرا کاملاً ساده است. شاخصها یا ویژگیهای متمایزکننده گفتار، هر ۴۰ ثانیه از گفتار استخراج میشوند و سپس برای انتقال فشرده میشوند. این ویژگیها خودشان طیفنگارههای log mel هستند؛ یعنی فهرستی از اعداد که نمایانگر انرژی گفتاری در باندهای فرکانسی مختلف هستند و به طور سنتی برای ارتباط ادراکی استفاده میشوند. در سوی دیگر، یک مدل مولد از آن ویژگیها برای ایجاد مجدد سیگنال گفتاری استفاده میکند. از این نظر لایرا مشابه سایر کدکهای پارامتریک سنتی، از جمله MELP است.
با این وجود کدکهای پارامتریک سنتی، که به سادگی از پارامترهای مهم گفتاری استخراج و برای ایجاد مجدد سیگنال استفاده میشوند ممکن است نرخ بیت پایینی داشته باشند و اغلب رباتیک و غیر طبیعی به نظر برسند. این نواقص منجر به تولید نسل جدیدی از مدلهای تولید گفتار با کیفیت شده است. این مدلها نه تنها میتوانند بین سیگنالها تفاوت قائل شود، بلکه سیگنالهای کاملا جدیدی نیز ایجاد میکنند که این موضوع باعث انقلابی در این زمینه شده است. WaveNet دیپ مایند اولین نمونه از این مدلهای مولد بود که راه را برای حضور بسیاری دیگر هموار کرد. علاوه بر این، از مدل مولد WaveNetEQ، که بر پایه تکنیک packet-loss-concealment توسعه داده شده است در گوگل دوو استفاده میشود. این کار نشان داد که چگونه میتوان از این فناوری در سناریوهای واقعی استفاده کرد.
لایرا؛ رویکردی جدید برای فشردهسازی
توسعه دهندگان با بکارگیری این مدلها به عنوان خط پایه، توانستهاند یک مدل جدید ایجاد کنند که میتواند گفتار را با استفاده از حداقل دادهها بازسازی کند. لایرا با استفاده از این مدلهای جدید مولد که دارای صدای طبیعی هستند به دنبال این است که با حفظ نرخ بیت پایین، کدکهای پارامتریک بتوانند به کیفیت بالایی دست یابند. این کار در تعادل با پیشرفتهترین کدکهای شکلموج موجود در اکثر سیستم عاملهای اصلی و ارتباطی صورت میپذیرد. نقطه ضعف کدکهای شکلموج این است که آنها تنها با استفاده از فشردهسازی و ارسال نمونه به نمونهی سیگنالها میتوانند به این حد از کیفیت بالا دست یابند. این فرایند به نرخ بیت بالاتری نیاز دارد که طبق استانداردهای پردازش زبان طبیعی، در اکثر موارد برای دستیابی به گفتار طبیعی، این نرخ بیت ضروری نیست.
یکی از نگرانیها درباره مدلهای مولد درمورد پیچیدگی محاسباتی آنهاست. در لایرا خبری از این پیچیدگی نیست. لایرا از یک مدل مولد بازگشتی ارزانتر استفاده میکند، که با نرخ بیت کمتری کار میکند، اما سیگنالهای چندگانه موازی را در دامنههای فرکانس مختلف تولید میکند. این سیگنالها بعدا با یک سیگنال خروجی واحد با سرعت نمونه دلخواه ترکیب میشود. با این ترفند میتوان از لیرا نه تنها در سرورهای ابری، بلکه در گوشیهای میانرده نیز به صورت درلحظه استفاده کرد. (با تاخیر پردازشی ۹۰ میلی ثانیه، که با دیگر کدکهای گفتاری سنتی مطابقت دارد). سپس این مدل مولد همانند WaveNet با استفاده از هزاران ساعت داده صوتی برای بازآفرینی دقیق گیرنده ورودی، آموزش داده میشود و بهینه میشود.
لایرا در مقایسه با کدکهای موجود
از زمان آغاز به کار لایرا، مأموریت توسعه دهندگان آن ارائه یک صوت با کیفیت بوده است. در حال حاضر، کدک منبع باز و بدون حق امتیاز Opus، پرکاربردترین کدک برای برنامههای VOIP مبتنی بر وبآرتیسی است. صوت به دست آمده در این حالت ۳۲ کیلوبیت بر ثانیه سرعت دارد و معمولا کیفیت صدای شفافی دارد.
با این وجود در حالی که میتوان از Opus در محیطهای با پهنای باند محدود بر ۶ کیلوبیت بر ثانیه استفاده کرد، اما کیفیت صوتی پایین میآید. سایر کدکها میتوانند با نرخ بیت قابل مقایسه با لیرا از جمله Speex, MELP، AMR کار کنند، اما در نهایت ما شاهد صدایی غیر طبیعی هستیم.
لایرا در حال حاضر برای کار با سرعت ۳ کیلوبیت بر ثانیه طراحی شده است. تستهای شنیداری نشان میدهد که لایرا از هر کدک دیگر در این نرخ بیت بهتر عمل میکند. اگر لایرا را با Opus در سرعت ۸ کیلوبیت بر ثانیه مقایسه کنیم نتیجه نشان از کاهش ۶۰ درصدی در پهنای باند دارد. لایرا میتواند در هر کجا که شرایط پهنای باند برای نرخ بیت بالاتر کافی نیست، به کار گرفته شود و در حال حاضر کدکهای با نرخ بیت پایین که در حال حاضر موجود هستند، کیفیت قابل قبولی ارائه نمیدهند.
(گفتار پاک)Clean Speech
Original
Opus@6kbps
Lyra@3kbps
Speex@3kbps
(محیط شلوغ)Noisy Environment
Original
Opus@6kbps
Lyra@3kbps
Speex@3kbps
اطمینان از انصاف
همچون تمامی سیستمهای مبتنی بر یادگیری ماشین، لایرا نیز باید آموزش ببینید تا اطمینان حاصل شود که برای همه مفید است. لایرا با استفاده از کتابخانههای صوتی منبع باز و هزاران ساعت صوت از بیش از ۷۰ زبان مختلف آموزش داده و سپس تأیید کیفیت صدا با شنوندگان خبره و متخصص انجام شد. یکی از اهداف طراحی لایرا اطمینان از کسب تجربههای صوتی با کیفیت بالا و قابل دسترسی در سطح جهانی است. لایرا روی یک دیتاست گسترده، از جمله گویندگان به زبانهای مختلف، آموزش داده میشود تا اطمینان حاصل کند که کدک نسبت به هر موقعیتی آماده است.
تاثیرات اجتماعی لایرا و چشمانداز آینده
نتایجی که فناوریهایی مانند لایرا در کوتاه مدت و بلند مدت به ارمغان میآورند بسیار گسترده است با استفاده از لایرا، میلیاردها کاربر در بازارهای نوظهور میتوانند به کدک کارآمد با نرخ بیت پایین دسترسی داشته باشند که به آنها امکان میدهد صدای با کیفیت بالاتری که پیش از این تجربه نکردهاند داشته باشند. علاوه بر این، لایرا میتواند در محیطهای ابری استفاده شود و کاربران با شبکه و دستگاههای متفاوت را قادر به گفتگوی یکپارچه با یکدیگر کند. سازگاری لایرا با فناوریهای جدید فشردهسازی فیلم، مانند AV1، این امکان را میدهد تا چتهای ویدئویی حتی برای کسانی که اینترنت دایل آپ دارند امکانپذیر شود.
گوگل دوو در حال حاضر از یادگیری ماشین برای کاهش اختلالات صوتی استفاده میکند. لایرا برای بهبود کیفیت تماس صوتی و قابلیت اطمینان در اتصالات پهنای باند بسیار پایین توسعه داده شده است. توسعه دهندگان از طریق GPUها و TPU عملکرد و کیفیت لایرا را بهینه خواهند کرد تا اطمینان حاصل شود به طور حداکثری در دسترس قرار خواهد گرفت. آنها همچنین در حال تحقیق در مورد این موضوع هستند که چگونه این فناوریها میتوانند به یک کدک صوتی عمومیتر با نرخ بیت پایین (به عنوان مثال، موسیقی و سایر موارد استفاده غیر گفتاری) منجر شوند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید