Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 الگوریتم Wav2vec 2.0: تشخیص خودکار گفتار با استفاده از نمونه‌ 10 دقیقه‌ای

الگوریتم Wav2vec 2.0: تشخیص خودکار گفتار با استفاده از نمونه‌ 10 دقیقه‌ای

زمان مطالعه: 2 دقیقه

در این مقاله قصد داریم به الگوریتم Wav2vec 2.0 بپردازیم. تلاش‌های بی‌وقفه پژوهشگران برای ارتقای عملکرد سیستم‌های خودکار تشخیص گفتار Automatic speech recognition (ASR) system و پیشرفت‌های عظیمی که در حوزه فن‌آوری‌های یادگیری ماشین حاصل شده و هم‌چنین افزایش میزان دسترس‌پذیری به دیتاست‌های بزرگ گفتار موجب شده میزان محبوبیت، تأثیرگذاری و تعداد نرم‌افزارهای کاربردی گفتار نسبت به گذشته افزایش یابد.

سیستم‌های تشخیص گفتار کنونی به منظور داشتن عملکرد قابل قبول می‌­بایست هزاران ساعت گفتار رونویسی‌شده Transcribed speech داشته باشند. هر چند 7000 زبان و گویش در سراسر جهان وجود دارد که شمار افرادی که به آن‌ها تکلم دارند کم است و به همان نسبت حجم داده‌های گفتاری موجود برای آن‌ها نیز کم است و همین امر آموزش سیستم‌های تشخیص گفتار مقاوم را با مشکل مواجه می‌کند.

پژوهشگران هوش مصنوعی فیسبوک برای کمک به توسعه و ارتقای عملکرد سیستم‌های ASR در این دسته از زبان‌ها و گویش‌ها، الگوریتم wav2vec 2.0 را برای یادگیری خودنظارتی زبان در دسترس عموم قرار داده‌اند.

Wav2vec 2.0: چارچوبی برای یادگیری خودنظارتی نمودهای گفتاری

نویسندگان مقاله «Wav2vec 2.0 : چارچوبی برای یادگیری خودنظارتی نمودهای گفتاری Wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations» مدعی شده‌اند که «برای اولین بار اثبات کرده‌اند یادگیری بازنمایی­‌های برجسته گفتار و تنظیم دقیق آن بر روی گفتار رونویسی‌شده می‌تواند به مراتب عمکرد بهتری از روش‌های نیمه‌نظارتی داشته باشد و در همان حال به لحاظ مفهومی نیز آسان‌تر است.» هوش مصنوعی فیسبوک در توییتی اعلام کرد الگوریتم Wav2vec 2.0 می‌تواند مدل‌های تشخیص خودکار گفتار تنها با اتکا به 10 دقیقه گفتار رونویسی‌شده توانا سازد.

در مراحل آزمایشی Wav2vec 2.0 نسبت به روش کنونی تشخیص گفتار SOTA موسوم به Noisy Student  در یک مجموعه 100 ساعته از پیکره مقیاس‌بزرگ Librispeech عملکرد بهتری داشت؛ حتی زمانی‌که حجم داده‌‌های برچسب‌گذاری‌شده به یک ساعت تقلیل یافت، عملکرد Wav2vec 2.0 بهتر از Noisy Student  بود.

[irp posts=”20456″]

عوامل تأثیرگذار بر عملکرد الگوریتم Wav2vec 2.0

به عقیده پژوهشگران هوش مصنوعی فیسبوک یادگیری بازنمایی­‌های مناسب گفتار کلید موفقیت است. «یادگیری صرفاً با استفاده از بازنمایی­‌های برچسب‌گذاری‌شده هیچ شباهتی به فرایند یادگیری زبان در انسان‌ها ندارد: نوزادان زبان را با گوش کردن به صحبت‌های بزرگ‌سالان یاد می‌گیرند، فرایندی که لازمه آن یادگیری بازنمایی­‌های خوب زبانی است.» به همین دلیل، پژوهشگران چارچوبی برای یادگیری خودنظارتی بازنمایی­‌های موجود در داده‌های صوتی خام طراحی کرده‌اند. پژوهشگران فایل صوتی گفتار را با استفاده از یکی از شبکه های عصبی پیچشی چند لایه رمزگذاری می‌کنند و سپس مدت زمان بازنمایی­‌های گفتاری نهفته را ماسک‌گذاری می‌کنند تا بازنمایی­‌های نهفته را به شبکه Transformer وارد کنند: در نتیجه شبکه Transformer می‌تواند بازنمایی­‌های بسازد که اطلاعات را از کل توالی دریافت کند.

در این حالت، مدل جدید آموزش می‌بیند تا واحد گفتاری صحیح را برای بخش‌های ماسک‌گذای‌شده صوت پیش‌بینی کند و همزمان واحدهای گفتاری را یاد بگیرد. شیوه طراحی این مدل، امکان ایجاد بازنمایی­‌های مفهومی Context representations را بر روی بازنمایی­‌های گفتاری پیوسته و وابستگی‌ها را بر روی کل توالی نمود‌های نهفته فراهم می‌کند.

این چارچوب باعث می‌شود مدل آموزش مقاومی داشته باشد و بهتر امواج خام مرتبط با گفتار را درک کند.

الگوریتم Wav2vec 2.0

Wav2vec 2.0 الگوریتم

مدل‌های تشخیص گفتار که الگوریتم wav2vec 2.0 در آن‌ها اجرا شد توانستند به عملکردی مشابه SOTA دست پیدا کنند و نرخ خطای واژه Word error rate آن‌ها در مجموعه داده LibriSpeech در گفتارهای نویزی 8.6 درصد و در گفتار بدون نویز 5.2  درصد باشد. این الگوریتم برای تنظیم دقیق فقط از ده دقیقه گفتار رونویسی‌شده یا همان داده‌های برچسب‌گذاری‌شده استفاده کرد و  برای پیش‌آموزش 53000 ساعت داده‌های بدون برچسب استفاده شد.

عکس الگوریتم Wav2vec 2.0

نرخ دقت بالا

به عقیده پژوهشگران هوش مصنوعی فیسبوک الگوریتم خودنظارتی wav2vec 2.0 امکان ایجاد حجم کمی از داده‌های حاشیه‌نویسی Annotated data را برای مدل‌های تشخیص گفتار فراهم می‌کند و در همان حال نرخ دقت آن بالا خواهد بود. در این حالت مسائل مربوط به گویش‌ها و زبان‌هایی که افراد کمی به آن‌ها تلکم دارند و منابع آن‌ها محدود است را بهتر می‌توان اجرا کرد. علاوه بر این، الگوریتم wav2vec 2.0 می‌تواند تعداد زیادی از نرم‌افزارهای کاربردی این گونه از زبان‌ها و گویش‌ها را توانا می‌سازد. پژوهشگران هوش مصنوعی فیسبوک در تلاش هستند  wav2vec 2.0 را برای اجرا بر روی Cloud TPUs آماده کند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]