الگوریتم Wav2vec 2.0
آموزش‌های پیشرفته هوش مصنوعیپردازش گفتار

الگوریتم Wav2vec 2.0 : تشخیص خودکار گفتار با استفاده از نمونه‌ ۱۰ دقیقه‌ای

    0
    (مدت زمان مطالعه: ۳ دقیقه)

    در این مقاله قصد داریم به الگوریتم Wav2vec 2.0 بپردازیم. تلاش‌های بی‌وقفه پژوهشگران برای ارتقای عملکرد سیستم‌های خودکار تشخیص گفتار Automatic speech recognition (ASR) system و پیشرفت‌های عظیمی که در حوزه فن‌آوری‌های یادگیری ماشین حاصل شده و هم‌چنین افزایش میزان دسترس‌پذیری به دیتاست‌های بزرگ گفتار موجب شده میزان محبوبیت، تأثیرگذاری و تعداد نرم‌افزارهای کاربردی گفتار نسبت به گذشته افزایش یابد.

    سیستم‌های تشخیص گفتار کنونی به منظور داشتن عملکرد قابل قبول می‌­بایست هزاران ساعت گفتار رونویسی‌شده Transcribed speech داشته باشند. هر چند ۷۰۰۰ زبان و گویش در سراسر جهان وجود دارد که شمار افرادی که به آن‌ها تکلم دارند کم است و به همان نسبت حجم داده‌های گفتاری موجود برای آن‌ها نیز کم است و همین امر آموزش سیستم‌های تشخیص گفتار مقاوم را با مشکل مواجه می‌کند.

    پژوهشگران هوش مصنوعی فیسبوک برای کمک به توسعه و ارتقای عملکرد سیستم‌های ASR در این دسته از زبان‌ها و گویش‌ها، الگوریتم wav2vec 2.0 را برای یادگیری خودنظارتی زبان در دسترس عموم قرار داده‌اند.

    Wav2vec 2.0: چارچوبی برای یادگیری خودنظارتی نمودهای گفتاری

    نویسندگان مقاله «Wav2vec 2.0 : چارچوبی برای یادگیری خودنظارتی نمودهای گفتاری Wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations» مدعی شده‌اند که «برای اولین بار اثبات کرده‌اند یادگیری بازنمایی­‌های برجسته گفتار و تنظیم دقیق آن بر روی گفتار رونویسی‌شده می‌تواند به مراتب عمکرد بهتری از روش‌های نیمه‌نظارتی داشته باشد و در همان حال به لحاظ مفهومی نیز آسان‌تر است.» هوش مصنوعی فیسبوک در توییتی اعلام کرد الگوریتم Wav2vec 2.0 می‌تواند مدل‌های تشخیص خودکار گفتار تنها با اتکا به ۱۰ دقیقه گفتار رونویسی‌شده توانا سازد.

    در مراحل آزمایشی Wav2vec 2.0 نسبت به روش کنونی تشخیص گفتار SOTA موسوم به Noisy Student  در یک مجموعه ۱۰۰ ساعته از پیکره مقیاس‌بزرگ Librispeech عملکرد بهتری داشت؛ حتی زمانی‌که حجم داده‌‌های برچسب‌گذاری‌شده به یک ساعت تقلیل یافت، عملکرد Wav2vec 2.0 بهتر از Noisy Student  بود.

    عوامل تأثیرگذار بر عملکرد الگوریتم Wav2vec 2.0

    به عقیده پژوهشگران هوش مصنوعی فیسبوک یادگیری بازنمایی­‌های مناسب گفتار کلید موفقیت است. «یادگیری صرفاً با استفاده از بازنمایی­‌های برچسب‌گذاری‌شده هیچ شباهتی به فرایند یادگیری زبان در انسان‌ها ندارد: نوزادان زبان را با گوش کردن به صحبت‌های بزرگ‌سالان یاد می‌گیرند، فرایندی که لازمه آن یادگیری بازنمایی­‌های خوب زبانی است.» به همین دلیل، پژوهشگران چارچوبی برای یادگیری خودنظارتی بازنمایی­‌های موجود در داده‌های صوتی خام طراحی کرده‌اند. پژوهشگران فایل صوتی گفتار را با استفاده از یکی از شبکه های عصبی پیچشی چند لایه رمزگذاری می‌کنند و سپس مدت زمان بازنمایی­‌های گفتاری نهفته را ماسک‌گذاری می‌کنند تا بازنمایی­‌های نهفته را به شبکه Transformer وارد کنند: در نتیجه شبکه Transformer می‌تواند بازنمایی­‌های بسازد که اطلاعات را از کل توالی دریافت کند.

    در این حالت، مدل جدید آموزش می‌بیند تا واحد گفتاری صحیح را برای بخش‌های ماسک‌گذای‌شده صوت پیش‌بینی کند و همزمان واحدهای گفتاری را یاد بگیرد. شیوه طراحی این مدل، امکان ایجاد بازنمایی­‌های مفهومی Context representations را بر روی بازنمایی­‌های گفتاری پیوسته و وابستگی‌ها را بر روی کل توالی نمود‌های نهفته فراهم می‌کند.

    این چارچوب باعث می‌شود مدل آموزش مقاومی داشته باشد و بهتر امواج خام مرتبط با گفتار را درک کند.

    الگوریتم Wav2vec 2.0

    الگوریتم Wav2vec 2.0

    مدل‌های تشخیص گفتار که الگوریتم wav2vec 2.0 در آن‌ها اجرا شد توانستند به عملکردی مشابه SOTA دست پیدا کنند و نرخ خطای واژه Word error rate آن‌ها در مجموعه داده LibriSpeech در گفتارهای نویزی ۸.۶ درصد و در گفتار بدون نویز ۵.۲  درصد باشد. این الگوریتم برای تنظیم دقیق فقط از ده دقیقه گفتار رونویسی‌شده یا همان داده‌های برچسب‌گذاری‌شده استفاده کرد و  برای پیش‌آموزش ۵۳۰۰۰ ساعت داده‌های بدون برچسب استفاده شد.

    الگوریتم Wav2vec 2.0

    نرخ دقت بالا

    به عقیده پژوهشگران هوش مصنوعی فیسبوک الگوریتم خودنظارتی wav2vec 2.0 امکان ایجاد حجم کمی از داده‌های حاشیه‌نویسی Annotated data را برای مدل‌های تشخیص گفتار فراهم می‌کند و در همان حال نرخ دقت آن بالا خواهد بود. در این حالت مسائل مربوط به گویش‌ها و زبان‌هایی که افراد کمی به آن‌ها تلکم دارند و منابع آن‌ها محدود است را بهتر می‌توان اجرا کرد. علاوه بر این، الگوریتم wav2vec 2.0 می‌تواند تعداد زیادی از نرم‌افزارهای کاربردی این گونه از زبان‌ها و گویش‌ها را توانا می‌سازد. پژوهشگران هوش مصنوعی فیسبوک در تلاش هستند  wav2vec 2.0 را برای اجرا بر روی Cloud TPUs آماده کند.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    درجه سفتی متغیر دم ربات ماهی قابلیت شنای آن را ارتقاء داده است

    مقاله قبلی

    چرا روسیه به دنبال ساخت جنگنده رادارگریز با دو سرنشین است؟

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *