پردازش گفتار چیست؟ هر آنچه باید در مورد این فناوری بدانید
پردازش گفتار یکی از فناوریهای بنیادین هوش مصنوعی است که به ماشینها قدرت درک و پردازش گفتار انسانها را میدهد. اهمیت گفتار در برقراری ارتباط از یک سو و افزایش قدرت محاسبات سیستمهای هوشمند از سوی دیگر، رغبتی روزافزون جهت توسعه سیستمهای پردازش گفتار را ایجاد کرده است.
با این حال مبهم بودن گفتار انسان، رشد این حوزه از فناوری را به چالش کشیده و تبدیل به یکی از پیچیدهترین زمینههای علوم کامپیوتر کرده است که علاوه بر علم کامپیوتر، مسائلی از قبیل زبانشناسی، ریاضیات و آمار را نیز در خود میگنجاند.
سیستمهای پردازش گفتار بواسطه تسهیل تعامل و برقراری ارتباط با ماشینها فواید زیادی را به همراه داشته و تاکنون در زمینههای مختلفی نظیر حمل و نقل، پزشکی، بازاریابی و فینتک مورد استفاده قرار گرفته است.
جهت آشنایی با این فناوری، ابتدا به معرفی پردازش گفتار؛ تاریخچه، اهداف، انواع و معیارهای ارزیابی این فناوری پرداخته میشود. سپس به کاربردهای این فناوری در زمینههای مختلف همراه با محصولات مبتنی بر پردازش گفتار اشاره میگردد. در نهایت با معرفی چندین کتاب مرجع، بستری برای فراگیری این فناوری ایجاد میگردد.
پردازش گفتار چیست؟
گفتار، یکی از روشهای آسان و کارآمد برقراری ارتباط و مبادلهی اطلاعات توسط انسانها به حساب میآید که قابلیتهای درک و تولید آن در ماشین تحت عنوان فناوری “پردازش گفتار” شناخته میشود.
سیستمهای پردازش گفتار که با عنوان پردازش گفتار رایانهای Computer Speech Recognition نیز نامیده میشوند، توانایی تبدیل گفتار به متن و پردازش آن را دارند. بواسطه این فناوری، انسانها قادر به تعامل و گفتار با ماشینهای هوشمند خواهند بود.
پردازش گفتار با پردازش صدا چه تفاوتی دارد؟
در بسیاری از منابع، سیستم پردازش گفتار با پردازش صدا Voice Recognition یکسان در نظر گرفته میشود. در حالی که این دو حوزه فناوری، اندکی با یکدیگر متفاوت هستند. تمرکز سیستمهای پردازش گفتار، بیشتر بر کلمات و عبارات گفتهشده میباشد که تبدیل گفتار از قالب کلامی به متن و انجام تجزیه و تحلیل بر روی آن یکی از برجستهترین کاربردهای این حوزه است.
از طرف دیگر، هدف اصلی سیستمهای پردازش صدا، شناسایی و پردازش بخش صوتی گفتار است که میتوان به احراز هویت از طریق صوت در این زمینه اشاره کرد. با این وجود در این مطالعه، هر دوی این اهداف پوشش داده میشود.
[irp posts=”5421″]زنجیره گفتار؛ فرایند تولید و درک گفتار در انسان
گفتار با یک مفهوم و یا یک ایده در ذهن گوینده آغاز میشود. این ایده، لازم است به کدهای زبانی تبدیل شود. سپس سیگنالهای الکتروشیمیایی ایجاد شده از طریق اعصاب حرکتی، عضلات صوتی دهان را فعال کرده و گفتار تولید میشود.
گفتار تولید شده به عنوان امواج صوتی به سمت گوش شنونده حرکت کرده و در آنجا به سیگنالهای الکتروشیمیایی تبدیل شده و از طریق اعصاب حسی به مغز شنونده ارسال میگردد و طی فرایند دکدینگ کدهای زبانی، مفهوم یا ایده اصلی را بازسازی مینماید. به طور همزمان، به عنوان بازخورد، این امواج صوتی به گوش گوینده نیز برمیگردد. این بازخورد به گوینده کمک میکند که با تنظیم دقیق و پیوسته حرکات ظریف اندامهای صوتی به تولید گفتار قابلفهمتر بپردازد.
در هنگام گفتوگو، بسیاری از اتفاقات به وقوع پیوسته جهت پردازش گفتار در مغز گوینده و شنونده همچنان ناشناخته باقی مانده است. اما ساختار زبان توانسته راهنمایی تقریبی برای دستیابی به این اطلاعات را فراهم نماید. زبانشناسان، گفتار را به سطوح مختلف زبان متشکل از معناشناسی semantic، نحوSyntax، واژهخوانیlexicon، ریختشناسیmorphology، آواشناسی phonetics و صوتشناسی acoustics تقسیمبندی کردهاند که هر لایه، دانش مورد نظر لایههای بالاتر را پس از انجام عملیات مربوطه به لایههای زیرین نگاشت میکند.
کدگذاری زبانی در ذهن، از مدل دانشی world knowledge افراد آغاز میشود. این مدل دانشی مجموعهای از تمامی حقایقی است که فرد در مورد محیط اطراف خود دارد. به عنوان نمونه، اطلاعاتی مبنی بر اینکه انسانها در خانه زندگی میکنند و یا زرافه حیوانی چهارپا با گردنی بلند است، جز مدل دانشی انسان محسوب میشود.
نحوه کار سیستمهای پردازش گفتار
سیستمهای پردازش گفتار به طور معمول دارای یک فرایند چند مرحلهای هستند. ابتدا، ویژگیهای مربوطه از سیگنال گفتار استخراج میشوند. سپس، مدلهای مرجع با استفاده از این ویژگیها طراحی مییابند. در مرحله سوم، بردارهای ویژگی استخراج شده از گفتار به مدلهای مرجع ارسال میشوند.
لازم است مدلهای مرجع برای هر واحد صدا (واج) ایجاد شوند. مدلی که بالاترین میزان اطمینان را ایجاد میکند، هویت واحد صدا را نشان میدهد. همچنین، توالی واحدهای صوتی شناسایی شده با استفاده از مدلهای زبانی اعتبارسنجی میشود. به عبارت دیگر، از مدلهای زبانی برای تبدیل دنباله واحدهای صوتی به متن استفاده میشود.
توالی احتمالی کلمات که فاصله بین الگوهای ناشناخته و الگوی شناخته شده را به حداقل میرساند، به عنوان توالی بهینه انتخاب میشود. الگوریتم پیچش زمانی پویا Dynamic Time Warping (DTW) و کوانتیزاسیون برداریvector quantization (VQ) از جمله روشهای رایج در این زمینه هستند. در سیستمهای مبتنی بر مدل، ویژگیهای مناسب برای هر واحد صدا (واج) از دادههای آموزش استخراج میشوند. لازم است مدلهای مرجع برای هر واحد صدا ایجاد شوند.
از روشهای متداول این نوع از مدلسازی میتوان به مدل پنهان مارکوف Hidden Markov Model (HMM)، مدل مخلوط گوسیGaussian Mixture Model (GMM)، شبکه عصبی Neural Network (NN) و ماشین بردار پشتیبانSupport Vector Machine (SVM) اشاره کرد. مدلهای پنهان مارکوف و شبکههای عصبی از مدلهای رایج پردازش گفتار هستند که در بخش آتی به طور ساده و اجمالی شرح داده میشوند.
[irp posts=”19860″]مدلهای پنهان مارکوف و شبکههای عصبی در پردازش گفتار
پس از دریافت سیگنالهای گفتاری و تبدیل آنها به سیگنالهای دیجیتال، به طور معمول از مدلهای پنهان مارکوف و یا شبکههای عصبی جهت پردازش گفتار استفاده میشود که در ادامه هر یک از این روشها به زبان بسیار ساده، شرح داده میشود.
مدلهای پنهان مارکوف (HMM): بسیاری از سیستمهای بازشناسی گفتار براساس مدلهای پنهان مارکوف بنا شدهاند. روش HMM که بر اساس اصول احتمالات عمل میکند، پردازش گفتار را در سه سطح کلی انجام میدهد. در سطح نخست، شناسایی واجها و یا واحدهای صدا انجام میگیرد.
در مرحله دوم، توالی واجها و ساخت کلمات مورد بررسی قرار میگیرد. بدین منظور، واجهایی که در کنار هم بیشترین احتمال را دارند، انتخاب شده و کلمات را تشکیل میدهند. هدف مرحله سوم، ایجاد توالی بهینه کلمات و ایجاد جمله است. در این مرحله احتمال وجود فعلها، اسمها، قید و یا صفت در کنار هم ارزیابی میشود و ترکیبی که دارای بیشترین احتمال است به عنوان گزینه نهایی انتخاب میگردد. از مزایای این روش دقت بالای آن در شناسایی توالی کلمات است. با این حال در شناسایی واجها با تلفظها و یا لهجههای مختلف دارای انعطاف کمی میباشد.
شبکههای عصبی (NN): شبکههای عصبی همانطور که از نامش نیز مشخص است، شبکههایی از گرههای بهم پیوسته میباشد که نحوه عملکرد آن مشابه با مغز انسان است. ارتباطات بین این گرهها توسط شاخص وزنها مشخص میشود که با آموزش شبکه، مقدار آنها به طور بهینه تعیین میگردد. انعطافپذیری بالا از مزیتهای ارزشمند این روش است.
تاریخچه پردازش گفتار
در چندین سال اخیر، گامهای تأثیرگذاری در راستای بهبود سیستمهای پردازش گفتار برداشته شده، اما شروع این فناوری به طور رسمی به اوایل دهه 1950 باز میگردد. به طور کلی برخی از نقاط عطف توسعه سیستمهای پردازش گفتار در ذیل بررسی شده است:
از سالهای 1950 – 1970
اولین سیستمهای تشخیص گفتار به جای پردازش کلمات، بر روی اعداد متمرکز بودند. در سال 1952، آزمایشگاههای بل سیستمی با نام “Audrey” طراحی کردند که صدای بازگوکننده اعداد (تنها صدای طراح) را تشخیص میداد. ده سال بعد، شرکت IBM سیستمی تحت عنوان “Shoebox” معرفی کرد که 16 کلمه را به انگلیسی میفهمید و به آنها پاسخ میداد.
در پایان دهه 60 و در ادامه تلاش سایر کشورها جهت توسعه سیستمهایی که بتوانند صدا و گفتار را تشخیص دهند، سیستمی طراحی شد که میتوانست از کلمات دارای چهار مصوت و نه صامت پشتیبانی کند.
از سالهای 1970 – 1980
با تلاشهای وزارت دفاع آمریکا و آژانس پروژههای پژوهشی پیشرفته دفاعی (دارپا)، تشخیص گفتار در این دهه چندین پیشرفت معنادار داشت. برنامه “فهم گفتار Speech Understanding” یکی از بزرگترین برنامههایی بود که در نوع خود توانسته بود تأثیر بسزایی در تاریخ فناوری پردازش گفتار گذارد.
سیستم گفتاری “Harpy” دانشگاه Carnegie Mellon از این برنامه نشأت گرفت و قادر به درک بیش از 1000 کلمه بود که تقریباً با واژگان یک کودک سه ساله یکسان است. همچنین در دهه 70 معرفی سیستمی که توسط آزمایشگاههای بل ارائه شده و میتوانست چندین صدا را تفسیر کند، از اتفاقات تأثیرگذار در این زمینه بود.
از سالهای 1980 – 1990
در دهه 80، واژگان تشخیص گفتار از چند صد کلمه به چند هزار کلمه رسید. یکی از پیشرفتهای به وقوع پیوسته در این دهه، استفاده از روش آماری معروف به “مدل پنهان مارکوف (HMM)” در این زمینه بود. به جای استفاده از کلمات و جستجوی الگوهای صوتی، این روش به صداهای ناشناخته به عنوان کلمه، مقدار احتمالی تخصیص میداد.
از سالهای 1990 – 2000
تشخیص گفتار در دهه 90 عمدتاً به دلیل توسعه سختافزاری جهت پردازش اطلاعات، پیشرفت کرد. بدین منظور، پردازندههای سریعتر امکان استفاده بیشتر از نرمافزارهایی مانند Dragon Dictate را فراهم کردند. نرمافزار Dragon Dictate امکان تبدیل گفتار کاربر به نوشتار را فراهم مینماید.
همچنین در این دهه، شرکت BellSouth پورتال صوتی (VAL) را معرفی کرد که یک سیستم تشخیص صدای تعاملی بود. این سیستم باعث ایجاد تلفن گویا شده که همچنان مورد استفاده قرار میگیرد.
[irp posts=”9142″]از سالهای 2000 – 2010
تا سال 2001، فناوری تشخیص گفتار به 80 درصد دقت دست پیدا کرد. راهاندازی جستجوی صوتی توسط شرکت گوگل از جمله اتفاقات تأثیرگذار در این دهه بود. این قابلیت به عنوان یک برنامه عمومی منتشر شد و همین امر باعث گردید این سیستم تشخیص گفتار در اختیار میلیونها نفر قرار گیرد.
در این راستا، شرکت گوگل توانسته بود به جمعآوری داده از میلیاردها جستجو بپردازد که بستری جهت پیشبینی خواسته کاربران را فراهم میکرد. در آن زمان سیستم جستجوی صوتی انگلیسی گوگل شامل 230 میلیارد کلمه از جستجوهای کاربران بود.
از سال 2010 تا به الان
در سال 2011 اپل Siri را راهاندازی کرد که مشابه جستجوی صوتی گوگل بود. در اوایل این دهه، شاهد انفجار سایر برنامههای پردازش گفتار نظیر Alexa آمازون و Google Home گوگل بودهایم که باعث گردید کاربران بتوانند راحتتر با ماشینها تعامل کنند.
امروزه بسیاری از شرکتها با استفاده از مدلهای یادگیری عمیق در تلاشاند تا عملکرد سیستمهای پردازش گفتار خود را بهبود دهند. نرخ خطای کلمه Word Error Rate (WER) پایین به عنوان یکی از شاخصهای ارزیابی عملکرد این نوع از سیستمها، از مزایایی رقابتی آنها نیز محسوب میشود.
بطوریکه در سال 2016، IBM به میزان خطای کلمه 6.9 درصد دست یافت. در سال 2017 مایکروسافت، IBM را با ادعای 5.9 درصد مغلوب کرد. مدت کوتاهی پس از آن IBM نرخ خود را به 5.5 درصد کاهش داد. با این حال، در حال حاضر گوگل مدعی کمترین نرخ خطای کلمه با حداکثر 4.9 درصد است.
ارزیابی سیستمهای تشخیص گفتار
به طور کلی، عملکرد سیستمهای تشخیص گفتار از نظر میزان دقت و سرعت ارزیابی میشوند. عواملی نظیر تلفظ، لهجه، اندازه واژگان، نوع صدا، بلندی صدا و صدای پسزمینه میتوانند بر این معیارها تأثیر بگذارند.
یکی از معیارهای برجسته جهت ارزیابی سیستمهای تشخیص گفتار، تعداد کلمات در گفتار است که به درستی تشخیص داده شود. به طور معمول سیستمهای تشخیص گفتار سه نوع خطای تشخیص کلمه با عناوین جایگزینی substitution، درجinsertion و حذفdeletion را تجربه میکنند.
- خطای جایگزینی: این نوع از خطا زمانی رخ میدهد که یک کلمه در عبارت به عنوان یک کلمه متفاوت دیگر رونویسی میشود.
- خطای درج: به مواقعی اشاره دارد که کلمهای که در رونویسی ظاهر میشود در گفتار مورد نظر نباشد.
- خطای حذف: این خطا زمانی رخ میدهد که یک کلمه در گفتار به طور کامل در رونویسی از دست رفته باشد.
میزان خطای کلمه (WER) به عنوان نسبت مجموع هر سه نوع خطا به تعداد کل کلمات موجود در رونوشت مرجع تعریف میشود. سیستمهایی با WER کوچکتر بر سیستمهایی با WER بزرگتر ارجحیت دارند.
از سوی دیگر، عامل زمان واقعی Real Time Factor (RTF) یکی از معیارهای سنجش سرعت سیستمهای پردازش گفتار است که سرعت رمزگشایی یک سیستم بازشناسی خودکار گفتار را نشان میدهد.
این شاخص نسبت زمان تشخیص گفتار به کل مدت زمان بیان را اندازهگیری مینماید. به طور معمول، میانگین این شاخص (برای تمامی گفتهها) و صدک 90ام آن جهت ارزیابی عملکرد این نوع از سیستمها مورد استفاده قرار میگیرد.
اهداف پردازش گفتار
یکی از اولین اهداف پردازش گفتار، کدگذاری گفتار برای انتقال کارآمد بود. این مورد مترادف با کاهش پهنای باند مورد نیاز برای انتقال گفتار میباشد که لازم است جهت دستیابی به آن، پیشنیازهایی اجرا گردد. البته، نظریه اطلاعات که در اواخر دهه 1940 و 1950 مطرح شد، هدف را کاهش نرخ اطلاعات به جای پهنای باند مطرح نمود.
همچنین، سختافزاری که بتواند سیگنالهای پیوسته با پهنای باند محدود را به توالیای از نمونههای گسسته تبدیل کند، مورد نیاز است. کمیسازی نمونهها امکان دیجیتالی شدن سیگنال گفتاری را فراهم میکند و پردازش دیجیتال را میسر میسازد. در نهایت، توصیف سیگنال گفتار در قالب ضرایب پیشبینی خطیlinear prediction coefficients (LPC) یک نمایش بسیار مناسب ارائه میدهد.
چرا به پردازش گفتار نیاز داریم؟
سیستمهای پردازش گفتار با قابلیتهای دریافت، پردازش و فهم گفتار انسانها، فواید زیادی را به همراه دارند که باعث ایجاد تحول در تعامل سیستمهای هوشمند با انسانها و افزایش کارایی این نوع از سیستمها شده است. از جمله فواید سیستمهای پردازش گفتار که به نوعی منجر به وابستگی و تمایل انسانها به استفاده از این سیستمها میشود را میتوان در موارد زیر خلاصه کرد:
- فراهم نمودن امکان تعامل راحتتر ماشین با انسان: این فناوری دستگاههای الکترونیکی مجهز به هوش مصنوعی را قادر میسازد تا با انسان به زبان طبیعی و یا محاورهای ارتباط برقرار کنند.
در واقع، سیستمهای پردازش گفتار با قابلیتهای تبدیل متن به صوت (و برعکس) در کنار قابلیتهای فهم زبان طبیعی منجر به ایجاد یک رابط کاربری صوتی هوشمند برای کاربران میشود که با پردازش گفتار آنها و درک و پردازش آن، پاسخ و عکسالعمل مناسبی را ارائه میدهند.
- قابلیت دسترسی سریع و راحت: نرمافزارهای مجهز به پردازش گفتار اغلب در رایانهها و دستگاههای تلفن همراه نصب میشوند که دسترسی به آن را آسان میکند. همچنین نرمافزارهایی که خوب طراحی شدهاند، ساده بوده و به راحتی قابل اجرا میباشند که این امر فرایند استفاده از این نرمافزارها را نیز تسهیل مینماید.
- حذف تایپ اطلاعات: سیستمهای پردازش گفتار با قابلیت ارزشمند تبدیل گفتار به متن، نیاز به تایپ اطلاعات را حذف نموده که منجر به تسهیل بسیاری از فرایندهای روزمره انسانها شده است.
- بهبود مستمر و خودکار: سیستمهای پردازش گفتار که از الگوریتمهای یادگیری ماشین استفاده میکنند، با گذشت زمان مؤثرتر و سریعتر عمل مینماید. این سیستمها در تعامل با انسانها، دریافت دادههای بیشتر در مورد گفتار انسان و پردازش بازخوردهای دریافتی، به طور مداوم بهبود مییابند.
- بهبود فرایند احراز هویت: سیستمهای پردازش گفتار با شناسایی صدای افراد میتواند در مسائل امنیتی مورد استفاده قرار گیرند. از این سیستمها میتوان در کنترل ورود افراد و اعطای مجوز جهت دسترسی به اطلاعات و برنامههای کاربردی استفاده نمود.
انواع سیستمهای پردازش گفتار
پردازش گفتار غالباً با هدف استخراج اطلاعات، فهم، پردازش و دستهبندی فایلهای صوتی انجام میشود و در موارد مختلفی نظیر تبدیل دادههای صوتی به متن قابل ویرایش و برعکس، شناسایی کلیدواژهها، تشخیص حالات و احساسات و دستیارهای صوتی کاربرد دارد.
با توجه به نوع کارکرد سیستمهای پردازش گفتار، این سیستمها قابل دستهبندی به گروههای پایه، بازشناسی خودکار گفتار، تحلیل صوت، سنتز گفتار و موسیقی میباشند که در ذیل به تشریح هر یک از این موارد پرداخته میشود.
سیستمهای پردازش گفتار پایه
هدف از ارائه این سیستمها، آمادهسازی و بهسازی فایلهای صوتی برای پردازش توسط سایر سیستمهای پردازش گفتار است. فعالیتهای زیر به طور معمول توسط این سیستمها انجام میشود.
- حذف نویز موجود در صوت Denoising
- آشکارسازی فعالیت صوتیVoice Activity Detection
- جداسازی صوت Speech Seperation
- دستهبندی صدا Audio Classification
سیستمهای بازشناسی خودکار گفتار
ماشین به واسطه فناوری بازشناسی گفتار این توانایی را دارد که پس از دریافت فایلهای صوتی، گفتار آن را متوجه شود. این امر منجر به وجود قابلیتهای مختلفی از جمله آرشیوسازی و جستجوی فایلهای صوتی در سیستمهای هوشمند میشود.
در انسانها به دلیل وجود پیوستگی در گفتار، اگر فردی تنها بخشی از گفتههای فرد گوینده را بشنود، میتواند بواسطه پیوستگی در حروف، هجاها، کلمات و جملات، مابقی گفتار را نیز پیشبینی کند. ایجاد این قابلیت در ماشینها بواسطه این سیستمها میتواند تأثیر ارزشمندی در این حوزه ایجاد نماید. برخی از فعالیتهای عمدهای که در این دسته انجام میشوند، به شرح زیر میباشد:
- تبدیل صوت یا گفتار به متن قابل ویرایش Speech to Text
- تشخیص کلیدواژه Keyword Spotting
سیستمهای تحلیل صوت
با توجه به عبارات و لحن استفاده شده در گفتار افراد در کنار سایر ویژگیهای صوتی میتوان ویژگیهای گوینده و نوع گفتار او را تحلیل نمود. به طور کلی، برخی از کارکردهای مهم این نوع از سیستمها به شرح زیر میباشند:
- تشخیص احساس، سن و جنسیت Emotion, Gender and Age Recognition
- تشخیص زبان گفتار Language Identification
- تشخیص و تأیید گوینده Speaker Identification and Verfifcation
- تعیین نوع بیان جمله
- تشخیص میزان هوشیاری یا خوابآلودگی Fatigue Detection
سیستمهای سنتز گفتار
پردازش گفتار، قابلیت ایجاد یک فایل صوتی سفارشی همراه با احساس مورد نظر را دارد. تبدیل متن به گفتار، یکی از برجستهترین کاربردها در این زمینه است که میتواند در موارد مختلف از جمله خواندن اخبار و یا چتباتها مورد استفاده قرار گیرد.
همچنین تبدیل صوت افراد دارای اختلالات گفتاری، به شیوهای قابل فهم، از دیگر قابلیتهای پردازش گفتار در این زمینه است. به طور کلی، کارکرد سیستمهای سنتز گفتار شامل موارد زیر میتواند باشد:
- تبدیل متن به گفتار Text to Speech
- تبدیل صوت Voice Conversion
- تغییر و یا افزودن احساس دلخواه به صوت Emotional Speech Generation
- تولید گفتار سفارشی با صدای فرد مورد نظر Voice Cloning
سیستمهای مربوط به موسیقی
علاوه بر قابلیت بازشناسی، تحلیل و تولید گفتار میتوان از سیستمهای پردازش گفتار در تولید موسیقی و یا تجزیه و تحلیل اثرهای موسیقایی نیز بهره برد. قابلیتهای ارائه شده در این زمینه عبارتند از:
- تولید موسیقی Music Generation
- تشخیص آلات موسیقی Instrument Recognition
- تشخیص ژانر موسیقی Genre Recognition
- تشخیص مود و احساس موسیقی Mood Recognititon
- شناسایی آهنگساز Composer recognition
- یافتن شباهت دو اثر موسیقی
سیستمهای تعاملی
امروزه سرویسهای تعاملی نظیر دستیاران صوتی یکی از رایجترین محصولات در هوش مصنوعی هستند که در جوانب مختلف زندگی بشر مورد استفاده قرار میگیرند. پردازش گفتار یکی از پیشنیازهای اساسی اینگونه از سیستمها جهت تعامل با انسانهاست.
کاربردهای پردازش گفتار
فناوری پردازش گفتار یکی از فناوریهای رو به رشد است که توانسته اعتماد بسیاری از افراد و کسبوکارها را جذب نماید. این فناوری به کاربران این امکان را میدهد که بتوانند درخواستها و دغدغههایشان را با ماشینهای هوشمند به اشتراک گذارند.
همچنین سیستمهای مجهز به پردازش گفتار غالباً با تبدیل درخواستهای افراد به متن و پردازش آنها، میتوانند پاسخ مناسبی را به آنها ارائه دهند. در ذیل به برخی از مهمترین کاربردهای پردازش گفتار در زمینههای مختلف اشاره میشود.
[irp posts=”13418″]کاربردهای عمومی پردازش گفتار
ارائه خدمات شبانهروزی: فناوری پردازش گفتار توانسته در کنار فناوری پردازش زبان طبیعی تغییرات شگفتانگیزی در زمینههای مختلف ایجاد نمایند. یکی از تأثیرگذارترین این تغییرات ارائه خدمات شبانهروزی به افراد در زمینههای مختلف است که از شکل ساده تلفنهای تعاملی در مراکز خدماتی گرفته تا دستیارهای صوتی هوشمند را در برمیگیرد. این فناوریها باعث تسهیل فرآیندها، تسریع در پاسخگویی و افزایش رضایت مشتریان شده است.
ترجمه آنلاین و یا ایجاد زیرنویس خودکار: امروزه محتواهای زیادی به زبانهای مختلف تولید میشود که افراد علاقهمند به استفاده از آنها هستند؛ اما زبان آن را متوجه نمیشوند. متخصصان هوش مصنوعی توانستند با بهرهگیری از الگوریتمها، نرمافزارها و پلتفرمهای مجهز به پردازش گفتار، در لحظه این محتواها را به زبان دلخواه ترجمه کنند.
همچنین به کمک سیستمهای هوشمند میتوان زیرنویس خودکار را با هر زبان دلخواهی ایجاد نمود که این امر علاوه بر درک بهتر محتوا توسط عموم مردم به افراد کمشنوا و یا ناشنوا نیز کمک مینماید. از سوی دیگر، از این فناوری میتوان در تشخیص گفتار افراد دارای اختلالات گفتاری نیز بهره برد. با شناسایی، درک و تبدیل صحبت این افراد به زیرنویسهای خوانا و قابل فهم، تأثیرات قابل توجهی در بهبود تعاملات آنها با سایر افراد به وجود خواهد آمد.
کاربرد پردازش گفتار در بازاریابی و فروش
ارائه خدمات به مشتریان قبل و بعد از خرید، فرایندی دشوار و زمانبر است که فناوریهای پردازش گفتار و پردازش زبان طبیعی توانستند اجرای این فرایند را به میزان قابل توجهی بهبود بخشند. این فناوریها به سؤالات مشتریان به صورت خودکار پاسخ داده، فرمانهای صوتی آنها را اجرا مینمایند و به شکایات مشتریان در اسرع وقت رسیدگی میکنند.
همچنین به کمک این فناوریها میتوان برخی از فعالیتهای اصلی فروش را به طور خودکار انجام داد و صرفهجویی ارزشمندی را در وقت و انرژی کارکنان فروش ایجاد کرد. ورود دادههای فروش بدون نیاز به تایپ و ارتباط با نمایندگان از جمله فعالیتهایی است که توسط این فناوریها به طور خودکار انجام میشود. از طرف دیگر، با قابلیتهای شناسایی گفتار و تشخیص سن، جنس و احساسات گوینده میتوان به جمعآوری دادههای مختلف جهت بررسی توسط بازاریابان پرداخت.
کاربرد پردازش گفتار در رسانه و سرگرمی
- مدیریت دادههای رسانهای: یکی از مشکلاتی که مؤسسات رسانهای در مدیریت فایلهای صوتی و تصویری با آن مواجه میشوند، ماهیت ذاتی بدون ساختار آنهاست. بدون شک جستجوی کلمات کلیدی یا عبارات در آنها دشوارتر از جستجوی این کلمات در یک سند است. یکی از راهکارهای سنتی جهت رفع این مشکل، استفاده از دادههایی نظیر عنوان، تاریخ ایجاد، اندازه و نوع فایل است.
- رادیو و تلویزیون هوشمند: با بهرهگیری از دستیارهای صوتی مجهز به فناوریهای پردازش گفتار، میتوان وسایل الکترونیکی از جمله رادیو و تلویزیون را کنترل نمود و فعالیتهایی نظیر تغییر کانالها و میزان صدا، جلو و عقب زدن برنامهها و یا حتی خاموش و روشن کردن رادیو و تلویزیون را به کمک صدای کاربر و با بیان درخواست او به این دستیارهای صوتی انجام داد.
- افزایش جذابیت صنعت بازیهای کامپیوتری: به کمک این فناوری، ایجاد محصولات رسانهای و سرگرمکننده تعاملی امکانپذیر گردیده است. به بیانی دیگر، جذابیت صنایع رسانهای و سرگرمکننده، با ایجاد فضای تعاملی بین کاربر و شخصیتهای دیجیتالی به طور چشمگیری افزایش یافته که این امر بیشتر در صنعت بازیهای کامپیوتری نمود پیدا کرده است.
از طریق گفتگو با کاراکترهای بازی که دارای عملکردهای منعطف و بداهه هستند، میتوان جذابیت بازی را چندین برابر نمود. با پیشرفت قابلیت پردازش گفتار و درک بستر مکالمه توسط شخصیتهای بازی، این امکان فراهم میشود که سیستمهای هوشمند بتوانند بهترین پاسخ و یا مناسبترین واکنش را ارائه نمایند.
[irp posts=”5924″]کاربرد پردازش گفتار در پزشکی و سلامت
در طول معاینات بیمار، دیگر نیاز نیست پزشکان و یا سایر کادر درمان وقت خود را صرف یادداشتبرداری از علائم بیماران کنند. بلکه میتوان از نرمافزارهای مبتنی بر پردازش گفتار برای ضبط یادداشتهای مربوط به بیمار استفاده کرد. به لطف این فناوری، پزشکان میتوانند میانگین قرار ملاقات را کوتاه کرده تا در ساعات کاری خود به بیماران بیشتری مراجعه کنند.
علاوه بر این، ماشینهای هوشمند میتوانند با تجزیه و تحلیل صدای فرد، وضعیت روانی او را تخمین بزنند. به عنوان نمونه، تاکنون از این مدلها در تخمین اینکه آیا بیمار افسرده است یا قصد خودکشی دارد، استفاده شده است.
کاربرد پردازش گفتار در فینتک
- خدمات مربوط به حساب: یکی از کاربردهای قابل توجه سیستمهای پردازش گفتار در فرایند بانکداری، ارائه خدمات بهینه مربوط به حساب کاربران است. این سیستمها به کاربران اجازه میدهند که از صدای خود برای انجام تعدادی از اقدامات نظیر بررسی موجودی حساب، سابقه معاملات و سایر جزئیات استفاده کنند.
به عنوان نمونه، شرکت بانکداری Westpac در استرالیا از مهارت الکسا برای ارائه خدمات به مشتریانی که از دستیار آمازون استفاده میکنند، بهره گرفت. کاربران این بانک میتوانند اطلاعات حساب خود را مستقیماً از دستگاههای پشتیبانی شده توسط الکسا بررسی کنند. علاوه بر این، الکسا به کاربران این امکان را میدهد که در جریان اخبار مالی که بانک در وبسایت خود منتشر میکند، قرار گیرند.
- معاملات فعال شده با صدا: علاوه بر انجام خدمات مربوط به حساب، مشتریان میتوانند اقدامات اساسیتری را نیز انجام دهند. انجام معاملات تنها با یک دستگاه مجهز به صدا از جمله نمونه اقدامات در این زمینه است. به عنوان مثال، گروه جهانی بانکداری دیجیتال Banco Bilbao Vizcaya Argentaria BBVA از یک دستیار صوتی با نام “دستیار تعاملی تلفن همراه Mobile Interactive Assistance ” استفاده میکنند.
این سیستم به مشتریان این امکان را میدهد تا با گفتن “من باید پول را به …. منتقل کنم” معاملات مالی خود را انجام دهند و سپس با اضافه کردن نام موسسه، پول را به آن منتقل کنند. این دستیار همچنین به مشتریان امکان خرید یا فروش ارز، اطلاع از آخرین نرخ ارز و انجام نقل و انتقالات را میدهد. علاوه بر این، این ابزار دائماً در حال جمعآوری دادههای مشتریان است تا بتواند نیازهای آینده آنها را بهتر پیشبینی کند.
- تأمین امنیت با استفاده از صدا: در حال حاضر، فناوریهای مبتنی بر صدا یکی از ارکان اصلی جهت تأمین امنیت سایبری است. در گذشته، محصولات احراز هویت صدا برای دستیابی به دقتی قابل قبول، نیاز به آموزش مکرر داشتند و اگر برای مدتی طولانی مورد استفاده قرار نمیگرفتند، شناسایی آنها دچار مشکل میشد.
با این حال، متخصصان این فناوری توانستهاند تا حدود زیادی این مسئله را حل نمایند. به طور کلی، مشخصات بیومتریک از جمله صدا یک روند رو به رشد در تأمین امنیت است.
[irp posts=”12230″]کاربرد پردازش گفتار در حملونقل
سیستمهای پردازش گفتار داخل خودرو به یک ویژگی استاندارد برای اکثر خودروهای مدرن تبدیل شده است. هدف این سیستمها، حذف حواسپرتی حاصل از نگاه کردن به تلفن همراه در حین رانندگی است. به کمک این سیستمها، رانندگان میتوانند از دستورات صوتی ساده برای شروع تماسهای تلفنی، اخذ راهنمایی جهت یافتن مسیر مناسب، انتخاب کانال رادیویی مورد نظر و یا پخش موسیقی استفاده کنند.
همچنین میتوان با استفاده از قابلیتهای بیومتریک صدا، تمایزی بین افرادی که در داخل وسیله نقلیه صحبت میکنند، قائل شد.
محصولات مبتنی بر پردازش گفتار
دستیارهای صوتی جلوهای کاملی از تلفیق دو فناوری پردازش گفتار و پردازش زبان طبیعی هستند که باعث ایجاد تغییرات ارزشمندی در نحوه ارائه خدمات در زمینههای مختلف شدهاند.
به عنوان نمونه، سرویس صوتی الکسای آمازون یک سیستم تشخیص صوت هوشمند است و با توانایی درک زبان طبیعی، به کاربران این امکان را میدهد که علاوه بر تعامل با آن و دریافت اطلاعاتی نظیر اخبار روز، اطلاعات آب و هوایی، وضعیت ترافیک، مسیریابی و یا به طور کلی اطلاعات عمومی، بتوانند سایر تجهیزات الکترونیکی متصل به آن را نیز مدیریت کنند.
همچنین از طریق این فناوری میتوان درخواستهایی نظیر گرفتن تاکسی، بلیط و یا سفارش مواد غذایی را، تنها با صدور فرمانهای صوتی مربوطه، عملی کرد. این سیستم تاکنون در بسیاری از محصولات فناوری نظیر رباتها و گجتهای هوشمند بکار گرفته شده است. مشابه این سیستم میتوان به سیری اپل، دستیار گوگل و کورتانا مایکروسافت اشاره کرد.
سیستمهای منبع باز پردازش گفتار
منظور از سیستمهای منبع باز پردازش گفتار، موتورهای نرمافزاری هستند که وظیفه پردازش صدا را بر عهده دارند. توسعهدهندگان از این سیستمها و کتابخانههای آنها استفاده کرده تا بتوانند برنامهای را ایجاد کنند که کاربر نهایی بتواند از آن استفاده نماید.
برخی از این سیستمها دارای مجموعه داده از پیش بارگذاری شده و آموزش دیده برای تشخیص صداهای ورودی در یک زبان و تولید متون مربوطه هستند و برخی دیگر موتور را بدون مجموعه داده به توسعهدهندگان ارائه میدهند که آنها بتوانند مدلهای آموزشی خود را که بیشتر مبتنی بر یادگیری ماشین است، بسازند. در ذیل، به برخی از سیستمهای منبع باز فناوری پردازش گفتار اشاره میشود .
[irp posts=”3742″]SpeechRecognition
کتابخانه SpeechRecognition یکی از بستههای کاربردی پردازش گفتار در پایتون است. سهولت استفاده و انعطافپذیری از ویژگیهای بارز این ابزار است.
به عنوان نمونه، ورودیهای صوتی فرایند پردازش گفتار بواسطه این بسته به راحتی و در عرض چند دقیقه بازیابی میشوند و دیگر نیاز به کدنویسی جهت دسترسی به میکروفون و پردازش فایل ورودی نخواهد بود. علاوه بر این، پشتیبانی از چندین موتور و API به صورت آنلاین و آفلاین از دیگر مزایای این سیستم است .
Project DeepSpeech
این سیستم که توسط سازمان FireFox پشتیبان مرورگر Mozilla ارائه شده، یک کتابخانه رایگان و منبع باز گفتار به متن است که از فناوری یادگیری ماشین و چارچوب TensorFlow برای انجام این وظیفه استفاده میکند.
به بیان دیگر، میتوان از این کتابخانه برای ساخت مدلهای آموزشی جهت تقویت فناوری گفتار به متن بهره برد. همچنین میتوان آن را به راحتی با سایر پروژههای یادگیری ماشین در TensorFlow ادغام نمود. متأسفانه به نظر میرسد این پروژه در حال حاضر فقط به طور پیشفرض از زبان انگلیسی پشتیبانی می کند.
Kaldi
Kaldi که در سال 2009 توسعه آن آغاز شد، یک نرمافزار منبع باز تشخیص گفتار میباشد که به زبان C ++ نوشته شده و تحت مجوز عمومی Apache منتشر گردیده است. این نرمافزار بر روی سیستمعاملهای ویندوز، مکینتاش و لینوکس قابل اجرا است. یکی از ویژگیهای اصلی این سیستم در مقایسه با سایر نرمافزارهای تشخیص گفتار، مدولار و قابل ارتقا بودن آن است.
تاکنون ماژولهای زیادی توسط این شرکت ارائه شده که کاربران میتوانند برای انجام کارهای خود از آنها بهره بگیرند. علاوه بر این، Kaldi از شبکههای عصبی عمیق پشتیبانی میکند و برای این منظور مستندات جامعی را در وبسایت خود منتشر کرده است. در حالیکه کدها عمدتاً توسط C++ نوشته شدهاند، اما توسط اسکریپتهای Bash و Python نیز قابل اجرا میباشند.
لازم به ذکر است که Kaldi Active Grammar یک موتور پیشساخته پایتون با مدلهای آموزش دیده انگلیسی میباشد که برای استفاده آماده است.
Julius
Julius یکی از قدیمیترین نرمافزارهای تشخیص گفتار است که توسعه آن در سال 1991 در دانشگاه کیوتو آغاز شد. سپس مالکیت آن به عنوان یک پروژه مستقل در سال 2005 واگذار گردید. بسیاری از برنامههای منبع باز، از آن به عنوان موتور خود استفاده میکنند.
ویژگیهای اصلی این سیستم شامل توانایی آن در انجام در لحظه فرآیندهای گفتار به متن، استفاده از حافظه کم (کمتر از 64 مگابایت برای 20000 کلمه)، توانایی کار به عنوان واحد سرور و موارد دیگر است.
این نرمافزار به زبان C نوشته شده و بر روی سیستمعاملهای لینوکس، ویندوز، مکینتاش و اندروید قابل اجرا است. این سیستم عمدتاً برای اهداف دانشگاهی و تحقیقاتی مورد استفاده قرار میگیرد و در حال حاضر تنها از زبانهای انگلیسی و ژاپنی پشتیبانی میکند.
Wav2Letter++
Wav2Letter ++ یک نرمافزار منبع باز برای تشخیص گفتار است که توسط تیم تحقیقاتی هوش مصنوعی فیسبوک منتشر گردیده است. فیسبوک از کتابخانه خود به عنوان “سریعترین سیستم تشخیص گفتار موجود” یاد میکند. این ابزار به زبان C ++ نوشته شده، از این رو آن را مشابه با این زبان برنامهنویسی نامگذاری کردهاند.
کتابخانه یادگیری ماشین فیسبوک تحت عنوان FlashLight به عنوان هسته اصلی این ابزار استفاده میشود. جهت استفاده از Wav2Letter ++ لازم است در ابتدا یک مدل آموزشی برای زبان مورد نظر ساخته شود تا بتوان الگوریتمها را بر روی آن آموزش داد.
لازم به ذکر است هیچ مدل از پیشساختهای برای زبانهای مختلف در این ابزار تعریف نشده و تنها برای تبدیل گفتار به متن بر اساس یادگیری ماشین میتوان از این ابزار استفاده کرد.
[irp posts=”14805″]DeepSpeech2
محققان غول چینی بایدو موتور گفتار به متن خود به نام DeepSpeech2 را ارائه دادند. این ابزار یک موتور منبع باز عمومی است که از چارچوب یادگیری عمیق “PaddlePaddle” برای تبدیل گفتارهای انگلیسی و چینی به متن استفاده میکند. با این حال، این موتور را میتوان بر روی هر مدل و یا هر زبانی آموزش داد.
OpenSeq2Seq
این سیستم توسط NVIDIA برای آموزش مدلهای دنباله به دنباله Sequence-to-sequence models توسعه داده شده است. هرچند کاربرد این سیستم گستردهتر از پردازش گفتار است، اما با این وجود یکی از موتورهای خوب برای این فناوری بشمار میرود.
کاربران میتوانند مدلهای آموزشی خود را با استفاده از آن بسازند و یا به راحتی مدلهای ایجاد شده توسط سیستمهای دیگر نظیر Wave2Letter+ و DeepSpeech2 را انتقال دهند. از مزیتهای این ابزار میتوان به پشتیبانی از GPU/CPU های متعدد و استفاده از فناوریهای NVIDIA نظیر CUDA و یا کارتهای گرافیک قوی این شرکت اشاره کرد.
برخی از کتابهای پردازش گفتار
در این بخش، چندین کتاب مرجع جهت آموزش پردازش گفتار معرفی شده است. لازم به ذکر است مقالات و کتابهای بیشمار زیادی در این زمینه وجود دارد که میتوان از آنها بهره برد. در این مقاله، تمرکز بر کتابهای مرجعی میباشد که تاکنون افراد زیادی به آنها ارجاع دادهاند.
“Fundamentals of Speech Recognition”, Lawrence Rabiner, 1993
این کتاب یکی از کتابهای مرجع در زمینه آشنایی با سیستمهای پردازش گفتار میباشد که بالغ بر 10000 بار تاکنون به آن ارجاع داده شده است.
کتاب مذکور یک کتاب توصیفی-تئوریک و جامع در مورد دانش پایه و ایدههای تشکیلدهنده فرایند پردازش گفتار توسط ماشین است که موضوعاتی نظیر مفاهیم و روشهای تولید، ادراک و توصیف صوتی- آوایی سیگنالهای گفتاری، تکنیکهای مقایسه الگو، تئوری مدلهای پنهان مارکوف، بازشناسی گفتار بر اساس مدلهای کلمات متصلConnected word Model ، سیستم بازشناسی گفتار پیوسته با واژگان بزرگLarge Vocabulary continuous speech recognition ، طراحی و پیادهسازی سیستم تشخیص گفتار و کاربردهای وظیفهمحور سیستمهای بازشناسی گفتار را پوشش میدهد. این کتاب برای مهندسین، متخصصین، زبانشناسان و برنامهنویسان علاقهمند به تشخیص گفتار توصیه میشود.
• • • • •
“Statistical Methods for Speech Recognition” by Frederick Jelinek, 1997
این کتاب منعکسکننده تلاشهای گسترده در تحقیقات دهههای متوالی در زمینه ریاضیات نهفته در سیستمهای تشخیص گفتار است. کتاب مذکور به مباحثی نظیر تکنیکهای زیربنایی آماری این فناوری نظیر مدلهای پنهان مارکوف Hidden Markov models ، درخت تصمیم Decision trees ، الگوریتم حداکثر مقدار مورد انتظار the expectation-maximization algorithm، تخمینگر توزیع احتمال بر اساس ماکزیمم آنتروپی maximum entropy probability estimation ، خوشهبندی پارامترها و دادهها و هموارسازی توزیع احتمالات smoothing of probability distributions پرداخته است.
هدف نویسنده، سازماندهی دادههای واقعی و ارائه اصول مربوطه به سادهترین حالت ممکن است بطوریکه خواننده قادر باشد به استفاده از این تکنیکها بپردازد.
• • • • •
“Speech Processing: A Dynamic and Optimization-Oriented Approach” by Li Deng and Doug O’Shaughnessey,2018
این کتاب، ابزارهای لازم را برای درک جنبههای علمی، محاسباتی و تکنولوژیکی فناوری پردازش گفتار ارائه میدهد. کتاب مذکور متمرکز بر اصول ریاضیاتی، پویایی فرایند گفتار و شیوههای بهینهسازی بوده است که حل مؤثرتر مشکلات در این زمینه را با استناد بر سالها تحقیقات شخصی نویسندگان در مورد پردازش گفتار پوشش میدهد.
هدف از تألیف این کتاب، ایجاد مهارتهای تحلیلی جهت مقابله با چالشهای آینده در پیشرفتهای علمی و فناوری این زمینه بوده است که گذار پیچیدهای از پردازش گفتار انسان به پردازش گفتار ماشینی را در نظر میگیرد.
• • • • •
“The Voice in the Machine. Building Computers That Understand Speech” by Roberto Pieraccini, 2012
نویسنده در این کتاب در ابتدا با اشاره به فیلم علمی-تخیلی “2001: A Space Odyssey” و وجود کامپیوتری تحت عنوان HAL که به مکالمه طولانی با مسافران سفینه فضایی میپردازد، بحث را آغاز میکند. سپس اشاره میکند که با وجود پیشرفت تکنولوژی همچنان به قابلیتهای این کامپیوتر از منظر پردازش گفتار دست نیافتهایم.
به طور کلی، در این کتاب، تکامل فرایندهای تشخیص و درک گفتار را از روشهای پردازش سیگنال تا روشهای هوش مصنوعی، یادگیری آماری و مدلسازی گفتار انسان بر اساس مدلهای ریاضیاتی دقیق، به ویژه مدلهای پنهان مارکوف، شرح داده شده است. همچنین، این کتاب به راههایی جهت توسعه سیستمهای گفتگو، توانایی تولید گفتار، فرایند پیادهسازی و اجرای ماشینهای سخنگو به بازار اشاره میکند.
در نهایت، نویسنده سؤالی مطرح میکند که تنها میتوان در آینده به آن پاسخ داد، آیا امکان دارد روزی بشر با رایانههایی شبیه به HAL یا چیزی کاملاً غیرمنتظره روبرو شود؟
• • • • •
Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer) by Microsoft researchers D. Yu and L. Deng
این کتاب مروری جامع از پیشرفتهای اخیر در زمینه تشخیص خودکار گفتار با تمرکز بر مدلهای یادگیری عمیق از جمله شبکههای عصبی عمیق و بسیاری از انواع آنها ارائه میدهد.
کتاب مذکور جزو اولین مراجع تشخیص خودکار گفتار میباشد که به روش یادگیری عمیق اختصاص یافته است. این کتاب علاوه بر بینشها و مبانی نظری، مجموعهای از مدلهای یادگیری عمیق بسیار موفق را نیز ارائه میدهد.
آینده پردازش گفتار
اینطور به نظر میرسد که فیلمهای علمی- تخیلی در حال تبدیل شدن به واقعیت هستند. چه کسی تصور میکرد روزی بتوان با دستگاههای الکترونیکی صحبت کرد. با این وجود، همچنان پیشرفتهای بزرگتری در پردازش گفتار در راستای پشتیبانی از سرعتهای سریعتر فناوری بیسیم و یا رشد خارقالعادهای رایانش ابری در راه است.
به لطف این موارد، دادههای گفتاری بیشتری جهت بهبود این نوع از محصولات نیز به وجود آمده و باعث گشته که توانایی این سیستمها برای شنیدن انواع بیشتری از کلمات، زبانها و لهجهها ارتقا یابد.
با توجه به اینکه گفتار یکی از سریعترین و کارآمدترین روشهای ارتباطی است، بنابراین، میتوان انتظار داشت که در آیندهای نزدیک، دستیاران مجازی و سیستمها مجهز به پردازش گفتار که تمرکزشان بیشتر بر انجام امور توسط گفتار و یا صوت است، تسلط بیشتری بر زندگی روزمره انسانها خواهند گذاشت.
اصطلاحات تخصصی حوزه پردازش گفتار
لغات و اصطلاحات تخصصی |
معادل انگلیسی | شرح |
پردازش گفتار | Speech Recognition | یکی از فناوریهای هوش مصنوعی جهت درک و تولید گفتار توسط ماشین است. |
بازشناسی خودکار گفتار | Automatic Speech Recognition | ماشین به واسطه فناوری بازشناسی گفتار این توانایی را دارد که پس از دریافت فایلهای صوتی، گفتار آن را متوجه شود. |
بازشناسی کلمات مجزا | Isolated word recognition | در این نوع بازشناسی، هر کلمه به صورت جداگانه و واضح بیان میشود و سیستم بازشناسی با هر کلمه بهطور مستقل سرکار دارد. |
بازشناسی کلمات متصل | Connected word recognition | در این نوع بازشناسی، دنبالهای از کلمات مورد توجه قرار میگیرند، ولی کلمات جمله باید بهطور مجزا و با فواصل زمانی سکوت از هم جدا شوند. |
سیستم بازشناسی گفتار پیوسته با واژگان بزرگ | Large Vocabulary continuous speech recognition | یک نوع سیستم بازشناسی گفتار مربوط به مدیریت واژگان در محدوده 20000 تا 60000 کلمه است. |
آشکارسازی فعالیت صوتی | Voice Activity Detection | یکی از فرایندهای پیشپردازش سرویسهای پردازش صوت است که طی آن حضور یا عدم حضور گفتار در بخشهای مختلف فایلهای صوتی آشکار میگردد. |
تبدیل صوت | Voice Conversion | فرایندی است که طی آن صحبت افراد با لهجهها، لحنها و آهنگهای متفاوت به یک گویش معیار با آهنگ و لحن ثابت تبدیل میشود. |
تولید گفتار سفارشی | Voice Cloning | فرایندی است که با داشتن یک بانک اطلاعاتی از صدای افراد میتواند تولید گفتار از متن را با صدای فردی خاص انجام دهد. |
الگوریتم پیچش زمانی پویا | Dynamic Time Warping | الگوریتمی برای اندازهگیری شباهت بین دو دنباله زمانی است که ممکن است در سرعت یا زمان متفاوت باشند. |
کوانتیزاسیون | Quantization | کوانتیزاسیون، فرایند نگاشت مقادیر ورودی از یک مجموعه بزرگ (اغلب مجموعه پیوسته) به مقادیر خروجی در یک مجموعه کوچکتر (قابل شمارش) است که بهطور معمول، در ریاضیات و پردازش سیگنال دیجیتال مورد استفاده قرار میگیرد. |
ماشین بردار پشتیبان | Support Vector Machines | یک الگوریتم یادگیری ماشین با نظارت برای طبقهبندی |
مدل پنهان مارکوف | Hidden Markov Models | یک ابزار مدلسازی آماری جهت پاسخگویی به این سؤال که احتمال وقوع یک دنباله از مشاهدات چقدر است. |
شبکه عصبی مصنوعی | Artificial Neural Networks | شبکههای عصبی مصنوعی که معمولاً به سادگی شبکههای عصبی نامیده میشوند، یک نوع سیستمهای محاسباتی هستند که از مجموعهای از گرههای متصل، مشابه با سیستمهای عصبی بیولوژیکی، تشکیل شدهاند. |
مدل مخلوط گوسی | Gaussian Mixture Model | این مدل به منظور نشان دادن نمایندهای از یک زیر جمعیت توزیع شده نرمال از کل جمعیت استفاده میشود. |
نرخ خطای کلمه (WER) | Word Error Rate | یکی از شاخصهای ارزیابی عملکرد سیستمهای پردازش گفتار است که نشاندهنده دقت تشخیص کلمات توسط ماشین است. |
مدلهای دنباله به دنباله | Sequence-to-sequence models | یک مدل مبتنی بر شبکه عصبی که شامل دو بخش رمزگذار و رمزگشا است. بخش رمزگذار وظیفه تولید ویژگی از ورودی را بر عهده دارد و بخش رمزگشا نیز تبدیل ویژگیها به خروجی مد نظر را انجام میدهد. |
درخت تصمیم |
Decision trees
|
یک ابزار پشتیبانی تصمیم که از یک مدل درخت مانند برای نمایش تصمیمات و پیامدهای احتمالی آنها (از جمله نتایج رویداد تصادفی، هزینه و مطلوبیت) استفاده میکند. |
الگوریتم حداکثر مقدار مورد انتظار |
the expectation-maximization algorithm
|
یک روش بر پایه تکرار که بر اساس وجود متغیر پنهان امکان برآورد پارامترهای مدل آماری را میسر میسازد. |
سؤالات متداول در پردازش گفتار