پردازش گفتار
آموزش‌های پیشرفته هوش مصنوعیپردازش گفتار

پردازش گفتار چیست؟ هر آنچه باید در مورد این فناوری بدانید

    0
    مدت زمان مطالعه: ۲۶ دقیقه

    پردازش گفتار یکی از فناوری‌های بنیادین هوش مصنوعی است که به ماشین‌ها قدرت درک و پردازش گفتار انسان‌ها را می‌دهد. اهمیت گفتار در برقراری ارتباط از یک سو و افزایش قدرت محاسبات سیستم‌های هوشمند از سوی دیگر، رغبتی روزافزون جهت توسعه سیستم‌های پردازش گفتار را ایجاد کرده است.

    با این حال مبهم بودن گفتار انسان، رشد این حوزه از فناوری را به چالش کشیده و تبدیل به یکی از پیچیده‏‌ترین زمینه‏‌های علوم کامپیوتر کرده است که علاوه بر علم کامپیوتر، مسائلی از قبیل زبان‌شناسی، ریاضیات و آمار را نیز در خود می‏‌گنجاند.

    سیستم‌های پردازش گفتار بواسطه تسهیل تعامل و برقراری ارتباط با ماشین‌ها فواید زیادی را به همراه داشته و تاکنون در زمینه‌های مختلفی نظیر حمل و نقل، پزشکی، بازاریابی و فین‌تک مورد استفاده قرار گرفته است.

    جهت آشنایی با این فناوری، ابتدا به معرفی پردازش گفتار؛ تاریخچه، اهداف، انواع و معیارهای ارزیابی این فناوری پرداخته می‌شود. سپس به کاربردهای این فناوری در زمینه‌های مختلف همراه با محصولات مبتنی بر پردازش گفتار اشاره می‌گردد. در نهایت با معرفی چندین کتاب مرجع، بستری برای فراگیری این فناوری ایجاد می‌گردد.


    پردازش گفتار چیست؟

    گفتار، یکی از روش‎‌های آسان و کارآمد برقراری ارتباط و مبادله‎‌ی اطلاعات توسط انسان‎‌ها به حساب می‎‌آید که قابلیت‌‎های درک و تولید آن در ماشین تحت عنوان فناوری “پردازش گفتار” شناخته می‌‏شود.

    سیستم‌‏های پردازش گفتار که با عنوان پردازش گفتار رایانه‌‏ایComputer Speech Recognition  نیز نامیده می‌‏شوند، توانایی تبدیل گفتار به متن و پردازش آن را دارند. بواسطه این فناوری، انسان‌ها قادر به تعامل و گفتار با ماشین‌های هوشمند خواهند بود.

    پردازش گفتار چیست؟

    پردازش گفتار با پردازش صدا چه تفاوتی دارد؟

    در بسیاری از منابع، سیستم پردازش گفتار با پردازش صداVoice Recognition  یکسان در نظر گرفته می‏‌شود. در حالی که این دو حوزه فناوری، اندکی با یکدیگر متفاوت هستند. تمرکز سیستم‏‌های پردازش گفتار، بیشتر بر کلمات و عبارات گفته‌شده می‌باشد که تبدیل گفتار از قالب کلامی به متن و انجام تجزیه و تحلیل بر روی آن یکی از برجسته‌ترین کاربردهای این حوزه است.

    از طرف دیگر، هدف اصلی سیستم‌‏های پردازش صدا، شناسایی و پردازش بخش صوتی گفتار است که می‌توان به احراز هویت از طریق صوت در این زمینه اشاره کرد. با این وجود در این مطالعه، هر دوی این اهداف پوشش داده می‌شود.


    زنجیره گفتار؛ فرایند تولید و درک گفتار در انسان

    گفتار با یک مفهوم و یا یک ایده در ذهن گوینده آغاز می‌شود. این ایده، لازم است به کدهای زبانی تبدیل شود. سپس سیگنال‌های الکتروشیمیایی ایجاد شده از طریق اعصاب حرکتی، عضلات صوتی دهان را فعال کرده و گفتار تولید می‌شود.

    گفتار تولید شده به عنوان امواج صوتی به سمت گوش شنونده حرکت کرده و در آنجا به سیگنال‌های الکتروشیمیایی تبدیل شده و از طریق اعصاب حسی به مغز شنونده ارسال می‌گردد و طی فرایند دکدینگ کدهای زبانی، مفهوم یا ایده اصلی را بازسازی می‌نماید. به طور همزمان، به عنوان بازخورد، این امواج صوتی به گوش گوینده نیز برمی‌گردد. این بازخورد به گوینده کمک می‌کند که با تنظیم دقیق و پیوسته حرکات ظریف اندام‌های صوتی به تولید گفتار قابل‌فهم‌تر بپردازد.

    در هنگام گفت‌و‌گو، بسیاری از اتفاقات به وقوع پیوسته جهت پردازش گفتار در مغز گوینده و شنونده همچنان ناشناخته باقی مانده است. اما ساختار زبان توانسته راهنمایی تقریبی برای دستیابی به این اطلاعات را فراهم نماید. زبان‌شناسان، گفتار را به سطوح مختلف زبان متشکل از معناشناسیsemantic ، نحوSyntax ، واژه‌خوانیlexicon ، ریخت‌شناسیmorphology ، آواشناسیphonetics  و صوت‌شناسیacoustics  تقسیم‌بندی کرده‌اند که هر لایه، دانش مورد نظر لایه‌های بالاتر را پس از انجام عملیات مربوطه به لایه‌های زیرین نگاشت می‌کند.

    کدگذاری زبانی در ذهن، از مدل دانشیworld knowledge  افراد آغاز می‌شود. این مدل‌ دانشی مجموعه‌ای از تمامی حقایقی است که فرد در مورد محیط اطراف خود دارد. به عنوان نمونه، اطلاعاتی مبنی بر اینکه انسان‌ها در خانه زندگی می‌کنند و یا زرافه حیوانی چهارپا با گردنی بلند است، جز مدل دانشی انسان محسوب می‌شود.

    مدل دانشی پردازش گفتار

    نحوه کار سیستم‌های پردازش گفتار

    سیستم‌های پردازش گفتار به طور معمول دارای یک فرایند چند مرحله‌ای هستند. ابتدا، ویژگی‌های مربوطه از سیگنال گفتار استخراج می‌شوند. سپس، مدل‌های مرجع با استفاده از این ویژگی‌ها طراحی می‌یابند. در مرحله سوم، بردارهای ویژگی استخراج شده از گفتار به مدل‌های مرجع ارسال می‌شوند.

    لازم است مدل‌های مرجع برای هر واحد صدا (واج) ایجاد شوند. مدلی که بالاترین میزان اطمینان را ایجاد می‌کند، هویت واحد صدا را نشان می‌‍‌‌دهد. همچنین، توالی واحدهای صوتی شناسایی شده با استفاده از مدل‌های زبانی اعتبارسنجی می‌شود. به عبارت دیگر، از مدل‌های زبانی برای تبدیل دنباله واحدهای صوتی به متن استفاده می‌شود.

    از نظر مفهومی، رویکردهای ایجاد سیستم‌های پردازش گفتار به دو نوع مبتنی بر الگو و یا مدل تقسیم‌بندی می‌شوند. در رویکرد مبتنی بر الگو، ابتدا سیستم با استفاده از الگوهای گفتاریِ شناخته شده آموزش داده می‌شود. سپس، با مقایسه سیگنال‌های گفتاری ناشناخته با الگوهای احتمالی آموخته شده در مرحله آموزش، پردازش انجام می‌شود.

    توالی احتمالی کلمات که فاصله بین الگوهای ناشناخته و الگوی شناخته شده را به حداقل می‌رساند، به عنوان توالی بهینه انتخاب می‌شود. الگوریتم پیچش زمانی پویاDynamic Time Warping (DTW) و کوانتیزاسیون برداریvector quantization (VQ) از جمله روش‌های رایج در این زمینه هستند. در سیستم‌های مبتنی بر مدل‌، ویژگی‌های مناسب برای هر واحد صدا (واج) از داده‌های آموزش استخراج می‌شوند. لازم است مدل‌های مرجع برای هر واحد صدا ایجاد شوند.

    از روش‌های متداول این نوع از مدل‌سازی می‌توان به مدل پنهان مارکوف Hidden Markov Model (HMM)، مدل مخلوط گوسیGaussian Mixture Model (GMM)، شبکه عصبیNeural Network (NN) و ماشین بردار پشتیبانSupport Vector Machine (SVM) اشاره کرد. مدل‌های پنهان مارکوف و شبکه‌های عصبی از مدل‌های رایج پردازش گفتار هستند که در بخش آتی به طور ساده و اجمالی شرح داده می‌شوند.


    مدل‌های پنهان مارکوف و شبکه‌های عصبی در پردازش گفتار

    پس از دریافت سیگنال‌های گفتاری و تبدیل آن‌ها به سیگنال‌های دیجیتال، به طور معمول از مدل‌های پنهان مارکوف و یا شبکه‌های عصبی جهت پردازش گفتار استفاده می‌شود که در ادامه هر یک از این روش‌ها به زبان بسیار ساده، شرح داده می‌شود.

    مدل‌های پنهان مارکوف (HMM): بسیاری از سیستم‌های بازشناسی گفتار براساس مدل‌های پنهان مارکوف بنا شده‌اند. روش HMM که بر اساس اصول احتمالات عمل می‌کند، پردازش گفتار را در سه سطح کلی انجام می‌دهد. در سطح نخست، شناسایی واج‌ها و یا واحدهای صدا انجام می‌گیرد.

    در مرحله دوم، توالی واج‌ها و ساخت کلمات مورد بررسی قرار می‌گیرد. بدین منظور، واج‌هایی که در کنار هم بیشترین احتمال را دارند، انتخاب شده و کلمات را تشکیل می‌دهند. هدف مرحله سوم، ایجاد توالی بهینه کلمات و ایجاد جمله است. در این مرحله احتمال وجود فعل‌ها، اسم‌ها، قید و یا صفت در کنار هم ارزیابی می‌شود و ترکیبی که دارای بیشترین احتمال است به عنوان گزینه نهایی انتخاب می‌گردد. از مزایای این روش دقت بالای آن در شناسایی توالی کلمات است. با این حال در شناسایی واج‌ها با تلفظ‌ها و یا لهجه‌های مختلف دارای انعطاف کمی می‌باشد.

    شبکه‌های عصبی (NN): شبکه‌های عصبی همانطور که از نامش نیز مشخص است، شبکه‌هایی از گره‌های بهم پیوسته می‌باشد که نحوه عملکرد آن مشابه با مغز انسان است. ارتباطات بین این گره‌ها توسط شاخص وزن‌ها مشخص می‌شود که با آموزش شبکه، مقدار آن‌ها به طور بهینه تعیین می‌گردد. انعطاف‌پذیری بالا از مزیت‌های ارزشمند این روش است.


    تاریخچه پردازش گفتار

    در چندین سال اخیر، گام‌های تأثیرگذاری در راستای بهبود سیستم‌های پردازش گفتار برداشته شده، اما شروع این فناوری به طور رسمی به اوایل دهه ۱۹۵۰ باز می‌گردد. به طور کلی برخی از نقاط عطف توسعه سیستم‌های پردازش گفتار در ذیل بررسی شده است:

    تاریخچه پردازش گفتار

    از سال‌های ۱۹۵۰ ۱۹۷۰

    اولین سیستم‌های تشخیص گفتار به جای پردازش کلمات، بر روی اعداد متمرکز بودند. در سال ۱۹۵۲، آزمایشگاه‌های بل سیستمی با نام ” Audrey” طراحی کردند که صدای بازگوکننده اعداد (تنها صدای طراح) را تشخیص می‌داد. ده سال بعد، شرکت IBM سیستمی تحت عنوان Shoebox”” معرفی کرد که ۱۶ کلمه را به انگلیسی می‌فهمید و به آن‌ها پاسخ می‌داد.

    در پایان دهه ۶۰  و در ادامه تلاش سایر کشورها جهت توسعه سیستم‌هایی که بتوانند صدا و گفتار را تشخیص دهند، سیستمی طراحی شد که می‌توانست از کلمات دارای چهار مصوت و نه صامت پشتیبانی کند.


    از سال‌های ۱۹۷۰ ۱۹۸۰

    با تلاش‌های وزارت دفاع آمریکا و آژانس‌ پروژه‌های پژوهشی پیشرفته دفاعی (دارپا)، تشخیص گفتار در این دهه چندین پیشرفت معنادار داشت. برنامه “فهم گفتارSpeech Understanding ” یکی از بزرگترین برنامه‌هایی بود که در نوع خود توانسته بود تأثیر بسزایی در تاریخ فناوری پردازش گفتار گذارد.

    سیستم گفتاری “Harpy” دانشگاه Carnegie Mellon از این برنامه نشأت گرفت و قادر به درک بیش از ۱۰۰۰ کلمه بود که تقریباً با واژگان یک کودک سه ساله یکسان است. همچنین در دهه ۷۰ معرفی سیستمی که توسط آزمایشگاه‌های بل ارائه شده و می‌توانست چندین صدا را تفسیر کند، از اتفاقات تأثیرگذار در این زمینه بود.


    از سال‌های ۱۹۸۰ ۱۹۹۰

    در دهه ۸۰ ، واژگان تشخیص گفتار از چند صد کلمه به چند هزار کلمه رسید. یکی از پیشرفت‌های به وقوع پیوسته در این دهه، استفاده از روش آماری معروف به “مدل پنهان مارکوف (HMM)” در این زمینه بود. به جای استفاده از کلمات و جستجوی الگوهای صوتی، این روش به صداهای ناشناخته به عنوان کلمه، مقدار احتمالی تخصیص می‌داد.


    از سال‌های ۱۹۹۰ ۲۰۰۰

    تشخیص گفتار در دهه ۹۰ عمدتاً به دلیل توسعه سخت‌افزاری جهت پردازش اطلاعات، پیشرفت کرد. بدین منظور، پردازنده‌های سریع‌تر امکان استفاده بیشتر از نرم‌افزارهایی مانند Dragon Dictate را فراهم کردند. نرم‌افزار  Dragon Dictate امکان تبدیل گفتار کاربر به نوشتار را فراهم می‌نماید.

    همچنین در این دهه، شرکت BellSouth پورتال صوتی (VAL) را معرفی کرد که یک سیستم تشخیص صدای تعاملی بود. این سیستم باعث ایجاد تلفن گویا شده که همچنان مورد استفاده قرار می‌گیرد.


    از سال‌های ۲۰۰۰ ۲۰۱۰

    تا سال ۲۰۰۱ ، فناوری تشخیص گفتار به ۸۰ درصد دقت دست پیدا کرد. راه‌اندازی جستجوی صوتی توسط شرکت گوگل از جمله اتفاقات تأثیرگذار در این دهه بود. این قابلیت به عنوان یک برنامه عمومی منتشر شد و همین امر باعث گردید این سیستم تشخیص گفتار در اختیار میلیون‌ها نفر قرار گیرد.

    در این راستا، شرکت گوگل توانسته بود به جمع‌آوری داده از میلیاردها جستجو بپردازد که بستری جهت پیش‌بینی خواسته کاربران را فراهم می‌کرد. در آن زمان سیستم جستجوی صوتی انگلیسی گوگل شامل ۲۳۰ میلیارد کلمه از جستجوهای کاربران بود.


    از سال ۲۰۱۰ تا به الان

    در سال ۲۰۱۱ اپل Siri را راه‌اندازی کرد که مشابه جستجوی صوتی گوگل بود. در اوایل این دهه، شاهد انفجار سایر برنامه‌های پردازش گفتار نظیر Alexa آمازون و Google Home گوگل بوده‌ایم که باعث گردید کاربران بتوانند راحت‌تر با ماشین‌ها تعامل کنند.

    امروزه بسیاری از شرکت‌ها با استفاده از مدل‌های یادگیری عمیق در تلاش‌اند تا عملکرد سیستم‌های پردازش گفتار خود را بهبود دهند. نرخ خطای کلمه Word Error Rate (WER) پایین به عنوان یکی از شاخص‌های ارزیابی عملکرد این نوع از سیستم‌ها، از مزایایی رقابتی آن‌ها نیز محسوب می‌شود.

    بطوریکه در سال ۲۰۱۶، IBM به میزان خطای کلمه ۶.۹ درصد دست یافت. در سال ۲۰۱۷ مایکروسافت، IBM را با ادعای ۵.۹ درصد مغلوب کرد. مدت کوتاهی پس از آن IBM نرخ خود را به ۵.۵ درصد کاهش داد. با این حال، در حال حاضر گوگل مدعی کمترین نرخ خطای کلمه با حداکثر ۴.۹ درصد است.


    ارزیابی سیستم‌های تشخیص گفتار

    به طور کلی، عملکرد سیستم‏‌های تشخیص گفتار از نظر میزان دقت و سرعت ارزیابی می‌شوند. عواملی نظیر تلفظ، لهجه، اندازه واژگان، نوع صدا، بلندی صدا و صدای پس‌زمینه می‌‏توانند بر این معیارها تأثیر بگذارند.

    یکی از معیارهای برجسته جهت ارزیابی سیستم‌های تشخیص گفتار، تعداد کلمات در گفتار است که به درستی تشخیص داده شود. به طور معمول سیستم‌های تشخیص گفتار سه نوع خطای تشخیص کلمه با عناوین جایگزینیsubstitution ، درجinsertion  و حذفdeletion را تجربه می‌کنند.

    • خطای جایگزینی: این نوع از خطا زمانی رخ می‌دهد که یک کلمه در عبارت به عنوان یک کلمه متفاوت دیگر رونویسی می‌شود.
    • خطای درج: به مواقعی اشاره دارد که کلمه‌ای که در رونویسی ظاهر می‌شود در گفتار مورد نظر نباشد.
    • خطای حذف: این خطا زمانی رخ می‌دهد که یک کلمه در گفتار به طور کامل در رونویسی از دست رفته باشد.

    میزان خطای کلمه (WER) به عنوان نسبت مجموع هر سه نوع خطا به تعداد کل کلمات موجود در رونوشت مرجع تعریف می‌شود. سیستم‌هایی با WER کوچکتر بر سیستم‌هایی با WER بزرگتر ارجحیت دارند.

    ارزیابی سیستم‌های تشخیص گفتار

    از سوی دیگر، عامل زمان واقعیReal Time Factor (RTF) یکی از معیارهای سنجش سرعت سیستم‌های پردازش گفتار است که سرعت رمزگشایی یک سیستم بازشناسی خودکار گفتار را نشان می‌دهد.

    این شاخص نسبت زمان تشخیص گفتار به کل مدت زمان بیان را اندازه‌گیری می‌نماید. به طور معمول، میانگین این شاخص (برای تمامی گفته‌ها) و صدک ۹۰ام آن جهت ارزیابی عملکرد این نوع از سیستم‌ها مورد استفاده قرار می‌گیرد.


    اهداف پردازش گفتار

    یکی از اولین اهداف پردازش گفتار، کدگذاری گفتار برای انتقال کارآمد بود. این مورد مترادف با کاهش پهنای باند مورد نیاز برای انتقال گفتار می‌باشد که لازم است جهت دستیابی به آن، پیش‌نیازهایی اجرا گردد. البته، نظریه اطلاعات که در اواخر دهه ۱۹۴۰ و ۱۹۵۰ مطرح شد، هدف را کاهش نرخ اطلاعات به جای پهنای باند مطرح نمود.

    همچنین، سخت‌افزاری که بتواند سیگنال‌های پیوسته با پهنای باند محدود را به توالی‌ای از نمونه‌های گسسته تبدیل کند، مورد نیاز است. کمی‌‍‌سازی نمونه‌ها امکان دیجیتالی شدن سیگنال گفتاری را فراهم می‌کند و پردازش دیجیتال را میسر می‌سازد. در نهایت، توصیف سیگنال گفتار در قالب ضرایب پیش‌بینی خطیlinear prediction coefficients (LPC) یک نمایش بسیار مناسب ارائه می‌دهد.

    یکی دیگر از کاربردهای بسیار موفق پردازش گفتار، تشخیص خودکار گفتارAutomatic Speech Recognition (ASR) است. هدف ASR تشخیص دقیق گفتار بدون در نظر گرفتن گوینده است.  علاوه بر این، شناسایی گوینده از روی صدای او، صرف‌نظر از اینکه چه کلماتی را بیان می‌کند، از دیگر اهداف تشخیص خودکار گفتار است که تأثیر بسزایی در مسائل امنیتی نظیر احراز هویت دارد.

    چرا به پردازش گفتار نیاز داریم؟

    سیستم‌های پردازش گفتار با قابلیت‌های دریافت، پردازش و فهم گفتار انسان‌ها، فواید زیادی را به همراه دارند که باعث ایجاد تحول در تعامل سیستم‌های هوشمند با انسان‌ها و افزایش کارایی این نوع از سیستم‌ها شده است. از جمله فواید سیستم‌های پردازش گفتار که به نوعی منجر به وابستگی و تمایل انسان‌ها به استفاده از این سیستم‌ها می‌شود را می‌توان در موارد زیر خلاصه کرد:

    • فراهم نمودن امکان تعامل راحت‌تر ماشین با انسان: این فناوری دستگاه‌های الکترونیکی مجهز به هوش مصنوعی را قادر می‌سازد تا با انسان به زبان طبیعی و یا محاوره‌ای ارتباط برقرار کنند.

    در واقع، سیستم‌های پردازش گفتار با قابلیت‌های تبدیل متن به صوت (و برعکس) در کنار قابلیت‌های فهم زبان طبیعی منجر به ایجاد یک رابط کاربری صوتی هوشمند برای کاربران می‌شود که با پردازش گفتار آن‌ها و درک و پردازش آن، پاسخ و عکس‌العمل مناسبی را ارائه می‌دهند.

    • قابلیت دسترسی سریع و راحت: نرم‌افزارهای مجهز به پردازش گفتار اغلب در رایانه‌ها و دستگاه‌های تلفن همراه نصب می‌شوند که دسترسی به آن را آسان می‌کند. همچنین نرم‌افزارهایی که خوب طراحی شده‌اند، ساده بوده و به راحتی قابل اجرا می‌باشند که این امر فرایند استفاده از این نرم‌افزارها را نیز تسهیل می‌نماید.
    • حذف تایپ اطلاعات: سیستم‌های پردازش گفتار با قابلیت ارزشمند تبدیل گفتار به متن، نیاز به تایپ اطلاعات را حذف نموده که منجر به تسهیل بسیاری از فرایندهای روزمره انسان‌ها شده است.
    • بهبود مستمر و خودکار: سیستم‌های پردازش گفتار که از الگوریتم‌های یادگیری ماشین استفاده می‌کنند، با گذشت زمان مؤثرتر و سریع‌تر عمل می‌نماید. این سیستم‌ها در تعامل با انسان‌ها، دریافت داده‌های بیشتر در مورد گفتار انسان و پردازش بازخوردهای دریافتی، به طور مداوم بهبود می‌یابند.
    • بهبود فرایند احراز هویت: سیستم‌های پردازش گفتار با شناسایی صدای افراد می‌تواند در مسائل امنیتی مورد استفاده قرار گیرند. از این سیستم‌ها می‌توان در کنترل ورود افراد و اعطای مجوز جهت دسترسی به اطلاعات و برنامه‌های کاربردی استفاده نمود.

    انواع سیستم‌های پردازش گفتار

    پردازش گفتار غالباً با هدف استخراج اطلاعات، فهم، پردازش و دسته‌بندی فایل‌های صوتی انجام می‌شود و در موارد مختلفی نظیر تبدیل داده‌های صوتی به متن قابل ‌ویرایش و برعکس، شناسایی کلیدواژه‏‌ها، تشخیص حالات و احساسات و دستیارهای صوتی کاربرد دارد.

    با توجه به نوع کارکرد سیستم‌های پردازش گفتار، این سیستم‌ها قابل دسته‌بندی به گروه‌های پایه، بازشناسی خودکار گفتار، تحلیل صوت، سنتز گفتار و موسیقی می‎‌باشند که در ذیل به تشریح هر یک از این موارد پرداخته می‌شود.

    انواع سیستم‌های پردازش گفتار

    سیستم‌های پردازش گفتار پایه

    هدف از ارائه این سیستم‌ها، آماده‏سازی و بهسازی فایل‏‌های صوتی برای پردازش توسط سایر سیستم‏‌های پردازش گفتار است. فعالیت‌های زیر به طور معمول توسط این سیستم‌ها انجام می‌شود.

    • حذف نویز موجود در صوتDenoising
    • آشکارسازی فعالیت صوتیVoice Activity Detection
    • جداسازی صوتSpeech Seperation
    • دسته‏‌بندی صداAudio Classification

    سیستم‌های بازشناسی خودکار گفتار

     ماشین به واسطه فناوری بازشناسی گفتار این توانایی را دارد که پس از دریافت فایل‌‏های صوتی، گفتار آن را متوجه شود. این امر منجر به وجود قابلیت‌های مختلفی از جمله آرشیوسازی و جستجوی فایل‌های صوتی در سیستم‌های هوشمند می‌شود.

    در انسان‌ها به دلیل وجود پیوستگی در گفتار، اگر فردی تنها بخشی از گفته‌های فرد گوینده را بشنود، می‌تواند بواسطه پیوستگی در حروف، هجاها، کلمات و جملات، مابقی گفتار را نیز پیش‌بینی کند. ایجاد این قابلیت در ماشین‌ها بواسطه این سیستم‌ها می‌تواند تأثیر ارزشمندی در این حوزه ایجاد نماید. برخی از فعالیت‌های عمده‌ای که در این دسته انجام می‌شوند، به شرح زیر می‌باشد:

    • تبدیل صوت یا گفتار به متن قابل‌ ویرایشSpeech to Text
    • تشخیص کلیدواژهKeyword Spotting

    سیستم‌های تحلیل صوت

    با توجه به عبارات و لحن استفاده شده در گفتار افراد در کنار سایر ویژگی‌های صوتی می‌توان ویژگی‌های گوینده و نوع گفتار او را تحلیل نمود. به طور کلی، برخی از کارکردهای مهم این نوع از سیستم‌ها به شرح زیر می‌باشند:

    • تشخیص احساس، سن و جنسیتEmotion, Gender and Age Recognition
    • تشخیص زبان گفتارLanguage Identification
    • تشخیص و تأیید گویندهSpeaker Identification and Verfifcation
    • تعیین نوع بیان جمله
    • تشخیص میزان هوشیاری یا خواب‌آلودگیFatigue Detection

    سیستم‌های سنتز گفتار

    پردازش گفتار، قابلیت ایجاد یک فایل صوتی سفارشی همراه با احساس مورد نظر را دارد. تبدیل متن به گفتار، یکی از برجسته‌‏ترین کاربردها در این زمینه است که می‌‏تواند در موارد مختلف از جمله خواندن اخبار و یا چت‏بات‏‌ها مورد استفاده قرار گیرد.

    همچنین تبدیل صوت افراد دارای اختلالات گفتاری، به شیوه‌ای قابل فهم، از دیگر قابلیت‌های پردازش گفتار در این زمینه است. به طور کلی، کارکرد سیستم‌های سنتز گفتار شامل موارد زیر می‌تواند باشد:

    • تبدیل متن به گفتارText to Speech
    • تبدیل صوتVoice Conversion
    • تغییر و یا افزودن احساس دلخواه به صوتEmotional Speech Generation
    • تولید گفتار سفارشی با صدای فرد مورد نظرVoice Cloning

    سیستم‌های مربوط به موسیقی

    علاوه بر قابلیت بازشناسی، تحلیل و تولید گفتار می‏‌توان از سیستم‌‏های پردازش گفتار در تولید موسیقی و یا تجزیه و تحلیل اثرهای موسیقایی نیز بهره برد. قابلیت‌های ارائه شده در این زمینه عبارتند از:

    • تولید موسیقیMusic Generation
    • تشخیص آلات موسیقیInstrument Recognition
    • تشخیص ژانر موسیقیGenre Recognition
    • تشخیص مود و احساس موسیقیMood Recognititon
    • شناسایی آهنگسازComposer recognition
    • یافتن شباهت دو اثر موسیقی

    سیستم‌های تعاملی

    امروزه سرویس‏‌های تعاملی نظیر دستیاران صوتی یکی از رایج‌‏ترین محصولات در هوش مصنوعی هستند که در جوانب مختلف زندگی بشر مورد استفاده قرار می‏‌گیرند. پردازش گفتار یکی از پیش‏‌نیازهای اساسی این‌گونه از سیستم‏‌ها جهت تعامل با انسان‏‌هاست.


    کاربردهای پردازش گفتار

    فناوری پردازش گفتار یکی از فناوری‌های رو به رشد است که توانسته اعتماد بسیاری از افراد و کسب‌و‌کارها را جذب نماید. این فناوری به کاربران این امکان را می‌دهد که بتوانند درخواست‌ها و دغدغه‌هایشان را با ماشین‌های هوشمند به اشتراک گذارند.

    همچنین سیستم‌های مجهز به پردازش گفتار غالباً با تبدیل درخواست‌های افراد به متن و پردازش آن‌ها، می‌توانند پاسخ مناسبی را به آن‌ها ارائه دهند. در ذیل به برخی از مهم‌ترین کاربردهای پردازش گفتار در زمینه‌های مختلف اشاره می‌شود.


    کاربردهای عمومی پردازش گفتار

    ارائه خدمات شبانه‌روزی: فناوری پردازش گفتار توانسته در کنار فناوری پردازش زبان طبیعی تغییرات شگفت‌انگیزی در زمینه‌های مختلف ایجاد نمایند. یکی از تأثیرگذارترین این تغییرات ارائه خدمات شبانه‌روزی به افراد در زمینه‌های مختلف است که از شکل ساده تلفن‌های تعاملی در مراکز خدماتی گرفته تا دستیارهای صوتی هوشمند را در برمی‌گیرد. این فناوری‏‌ها باعث تسهیل فرآیندها، تسریع در پاسخگویی و افزایش رضایت مشتریان شده است.

    کاربردهای عمومی پردازش گفتار

    ترجمه آنلاین و یا ایجاد زیرنویس خودکار: امروزه محتواهای زیادی به زبان‏‌های مختلف تولید می‌شود که افراد علاقه‌مند به استفاده از آن‌ها هستند؛ اما زبان آن را متوجه نمی‏‌شوند. متخصصان هوش مصنوعی توانستند با بهره‏‌گیری از الگوریتم‌‏ها، نرم‌‏افزارها و پلتفرم‌‏های مجهز به پردازش گفتار، در لحظه این محتواها را به زبان دلخواه ترجمه کنند.

    همچنین به کمک سیستم‏‌های هوشمند می‏‌توان زیرنویس خودکار را با هر زبان دلخواهی ایجاد نمود که این امر علاوه بر درک بهتر محتوا توسط عموم مردم به افراد کم‏‌شنوا و یا ناشنوا نیز کمک می‏‌نماید. از سوی دیگر، از این فناوری می‌توان در تشخیص گفتار افراد دارای اختلالات گفتاری نیز بهره برد. با شناسایی، درک و تبدیل صحبت این افراد به زیرنویس‌‌های خوانا و قابل فهم، تأثیرات قابل توجهی در بهبود تعاملات آن‌ها با سایر افراد به وجود خواهد آمد.


    کاربرد پردازش گفتار در بازاریابی و فروش

    ارائه خدمات به مشتریان قبل و بعد از خرید، فرایندی دشوار و زمان‌بر است که فناوری‌های پردازش گفتار و پردازش زبان طبیعی توانستند اجرای این فرایند را به میزان قابل توجهی بهبود بخشند. این فناوری‌ها به سؤالات مشتریان به صورت خودکار پاسخ داده، فرمان‌های صوتی آن‌ها را اجرا می‌نمایند و به شکایات مشتریان در اسرع وقت رسیدگی می‌کنند.

    همچنین به کمک این فناوری‌ها می‌توان برخی از فعالیت‌های اصلی فروش را به طور خودکار انجام داد و صرفه‌جویی ارزشمندی را در وقت و انرژی کارکنان فروش ایجاد کرد. ورود داده‌های فروش بدون نیاز به تایپ و ارتباط با نمایندگان از جمله فعالیت‌هایی است که توسط این فناوری‌ها به طور خودکار انجام می‌شود. از طرف دیگر، با قابلیت‌های شناسایی گفتار و تشخیص سن، جنس و احساسات گوینده می‌توان به جمع‌آوری داده‌های مختلف جهت بررسی توسط بازاریابان پرداخت.


    کاربرد پردازش گفتار در رسانه و سرگرمی

    • مدیریت داده‌های رسانه‌ای: یکی از مشکلاتی که مؤسسات رسانه‌ای در مدیریت فایل‌های صوتی و تصویری با آن مواجه می‌شوند، ماهیت ذاتی بدون ساختار آن‌هاست. بدون شک جستجوی کلمات کلیدی یا عبارات در آن‌ها دشوارتر از جستجوی این کلمات در یک سند است. یکی از راهکارهای سنتی جهت رفع این مشکل، استفاده از داده‌هایی نظیر عنوان، تاریخ ایجاد، اندازه و نوع فایل است.
    با این وجود اگر به دنبال یک نقل‌قول خاص در یک مصاحبه باشیم، انجام این عملیات به روش‌های سنتی بسیار زمان‌بر و دشوار خواهد بود. بدین منظور، فناوری پردازش گفتار با قابلیت بازشناسی خودکار توانسته این مشکل را رفع نماید و با تبدیل گفتار به متن قابل ویرایش، آن‌ها را ایندکس‌گذاری و قابل جستجو کند.
    • رادیو و تلویزیون هوشمند: با بهره‌گیری از دستیارهای صوتی مجهز به فناوری‌های پردازش گفتار، می‌توان وسایل الکترونیکی از جمله رادیو و تلویزیون را کنترل نمود و فعالیت­‌هایی نظیر تغییر کانال­‌ها و میزان صدا، جلو و عقب زدن برنامه‌ها و یا حتی خاموش و روشن کردن رادیو و تلویزیون را به کمک صدای کاربر و با بیان درخواست‌ او به این دستیارهای صوتی انجام داد.
    • افزایش جذابیت صنعت بازی‌های کامپیوتری: به کمک این فناوری، ایجاد محصولات رسانه‌ای و سرگرم‌کننده تعاملی امکان‌پذیر گردیده است. به بیانی دیگر، جذابیت صنایع رسانه‌ای و سرگرم‌کننده، با ایجاد فضای تعاملی بین کاربر و شخصیت‌های دیجیتالی به طور چشمگیری افزایش یافته که این امر بیشتر در صنعت بازی‌های کامپیوتری نمود پیدا کرده است.

    از طریق گفتگو با کاراکترهای بازی که دارای عملکردهای منعطف و بداهه هستند، می‌‏توان جذابیت بازی را چندین برابر نمود. با پیشرفت قابلیت پردازش گفتار و درک بستر مکالمه توسط شخصیت‏‌های بازی، این امکان فراهم می‏‌شود که سیستم‏‌های هوشمند بتوانند بهترین پاسخ و یا مناسب‏ترین واکنش را ارائه نمایند.


    کاربرد پردازش گفتار در پزشکی و سلامت

    در طول معاینات بیمار، دیگر نیاز نیست پزشکان و یا سایر کادر درمان وقت خود را صرف یادداشت‌برداری از علائم بیماران کنند. بلکه می‌توان از نرم‌افزارهای مبتنی بر پردازش گفتار برای ضبط یادداشت‌های مربوط به بیمار استفاده کرد. به لطف این فناوری، پزشکان می‌توانند میانگین قرار ملاقات را کوتاه کرده تا در ساعات کاری خود به بیماران بیشتری مراجعه کنند.

    کاربرد پردازش گفتار در پزشکی و سلامت

    علاوه بر این، ماشین‌های هوشمند می‌توانند با تجزیه و تحلیل صدای فرد، وضعیت روانی او را تخمین بزنند. به عنوان نمونه، تاکنون از این مدل‌ها در تخمین اینکه آیا بیمار افسرده است یا قصد خودکشی دارد، استفاده شده است.


    کاربرد پردازش گفتار در فین‌تک

    • خدمات مربوط به حساب: یکی از کاربردهای قابل توجه سیستم‌های پردازش گفتار در فرایند بانکداری، ارائه خدمات بهینه مربوط به حساب کاربران است. این سیستم‌ها به کاربران اجازه می‌دهند که از صدای خود برای انجام تعدادی از اقدامات نظیر بررسی موجودی حساب، سابقه معاملات و سایر جزئیات استفاده کنند.

    به عنوان نمونه، شرکت بانکداری Westpac در استرالیا از مهارت الکسا برای ارائه خدمات به مشتریانی که از دستیار آمازون استفاده می‌کنند، بهره گرفت. کاربران این بانک می‌توانند اطلاعات حساب خود را مستقیماً از دستگاه‌های پشتیبانی شده توسط الکسا بررسی کنند. علاوه بر این، الکسا به کاربران این امکان را می‌دهد که در جریان اخبار مالی که بانک در وب‌سایت خود منتشر می‌کند، قرار گیرند.

    • معاملات فعال شده با صدا: علاوه بر انجام خدمات مربوط به حساب، مشتریان می‌توانند اقدامات اساسی‌تری را نیز انجام دهند. انجام معاملات تنها با یک دستگاه مجهز به صدا از جمله نمونه‌ اقدامات در این زمینه است. به عنوان مثال، گروه جهانی بانکداری دیجیتالBanco Bilbao Vizcaya Argentaria BBVA از یک دستیار صوتی با نام “دستیار تعاملی تلفن همراهMobile Interactive Assistance ” استفاده می‌کنند.

    این سیستم به مشتریان این امکان را می‌دهد تا با گفتن “من باید پول را به …. منتقل کنم” معاملات مالی خود را انجام دهند و سپس با اضافه کردن نام موسسه‌، پول را به آن منتقل کنند. این دستیار همچنین به مشتریان امکان خرید یا فروش ارز، اطلاع از آخرین نرخ ارز و انجام نقل و انتقالات را می‌دهد. علاوه بر این، این ابزار دائماً در حال جمع‌آوری داده‌های مشتریان است تا بتواند نیازهای آینده آن‌ها را بهتر پیش‌بینی کند.

    • تأمین امنیت با استفاده از صدا: در حال حاضر، فناوری‌های مبتنی بر صدا یکی از ارکان اصلی جهت تأمین امنیت سایبری است. در گذشته، محصولات احراز هویت صدا برای دستیابی به دقتی قابل قبول، نیاز به آموزش مکرر داشتند و اگر برای مدتی طولانی مورد استفاده قرار نمی‌گرفتند، شناسایی آن‌ها دچار مشکل می‌شد.

    با این حال، متخصصان این فناوری توانسته‌اند تا حدود زیادی این مسئله را حل نمایند. به طور کلی، مشخصات بیومتریک از جمله صدا یک روند رو به رشد در تأمین امنیت است.


    کاربرد پردازش گفتار در حمل‌و‌نقل

    سیستم‌های پردازش گفتار داخل خودرو به یک ویژگی استاندارد برای اکثر خودروهای مدرن تبدیل شده است. هدف این سیستم‌ها، حذف حواس‌پرتی حاصل از نگاه کردن به تلفن همراه در حین رانندگی است. به کمک این سیستم‌ها، رانندگان می‌توانند از دستورات صوتی ساده برای شروع تماس‌های تلفنی‌، اخذ راهنمایی جهت یافتن مسیر مناسب، انتخاب کانال رادیویی مورد نظر و یا پخش موسیقی استفاده کنند.

    همچنین می‌توان با استفاده از قابلیت‌های بیومتریک صدا، تمایزی بین افرادی که در داخل وسیله نقلیه صحبت می‌کنند، قائل شد.

    کاربرد پردازش گفتار در حمل‌و‌نقل

    محصولات مبتنی بر پردازش گفتار

    دستیارهای صوتی جلوه‌ای کاملی از تلفیق دو فناوری پردازش گفتار و پردازش زبان طبیعی هستند که باعث ایجاد تغییرات ارزشمندی در نحوه ارائه خدمات در زمینه‌های مختلف شده‌اند.

    به عنوان نمونه، سرویس صوتی الکسای آمازون یک سیستم تشخیص صوت هوشمند است و با توانایی درک زبان طبیعی، به کاربران این امکان را می‌دهد که علاوه بر تعامل با آن و دریافت اطلاعاتی نظیر اخبار روز، اطلاعات آب و هوایی، وضعیت ترافیک، مسیریابی و یا به طور کلی اطلاعات عمومی، بتوانند سایر تجهیزات الکترونیکی متصل به آن را نیز مدیریت کنند.

    همچنین از طریق این فناوری می‌توان درخواست‌هایی نظیر گرفتن تاکسی، بلیط و یا سفارش مواد غذایی را، تنها با صدور فرمان‌های صوتی مربوطه، عملی کرد. این سیستم تاکنون در بسیاری از محصولات فناوری نظیر ربات‌ها و گجت‌های هوشمند بکار گرفته شده است. مشابه این سیستم می‌توان به سیری اپل، دستیار گوگل و کورتانا مایکروسافت اشاره کرد.

    محصولات مبتنی بر پردازش گفتار

    سیستم‌های منبع باز پردازش گفتار

    منظور از سیستم‌های منبع باز پردازش گفتار، موتورهای نرم‌افزاری هستند که وظیفه پردازش صدا را بر عهده دارند. توسعه‌دهندگان از این سیستم‌ها و کتابخانه‌های آن‌ها استفاده کرده تا بتوانند برنامه‌ای را ایجاد کنند که کاربر نهایی بتواند از آن استفاده نماید.

    برخی از این سیستم‌ها دارای مجموعه داده از پیش بارگذاری شده و آموزش دیده برای تشخیص صداهای ورودی در یک زبان و تولید متون مربوطه هستند و برخی دیگر موتور را بدون مجموعه داده به توسعه‌دهندگان ارائه می‌دهند که آن‌ها بتوانند مدل‌های آموزشی خود را که بیشتر مبتنی بر یادگیری ماشین است، بسازند. در ذیل، به برخی از سیستم‌های منبع باز فناوری پردازش گفتار اشاره می‌شود .


    SpeechRecognition

    کتابخانه SpeechRecognition یکی از بسته‌های کاربردی پردازش گفتار در پایتون است. سهولت استفاده و انعطاف‌پذیری از ویژگی‌های بارز این ابزار است.

    به عنوان نمونه، ورودی‌های صوتی فرایند پردازش گفتار بواسطه این بسته به راحتی و در عرض چند دقیقه بازیابی می‌شوند و دیگر نیاز به کدنویسی جهت دسترسی به میکروفون و پردازش فایل ورودی نخواهد بود. علاوه بر این، پشتیبانی از چندین موتور و API به صورت آنلاین و آفلاین از دیگر مزایای این سیستم است .


    Project DeepSpeech

    این سیستم که توسط سازمان FireFox پشتیبان مرورگر Mozilla ارائه شده، یک کتابخانه رایگان و منبع باز گفتار به متن است که از فناوری یادگیری ماشین و چارچوب TensorFlow برای انجام این وظیفه استفاده می‌کند.

    به بیان دیگر، می‌توان از این کتابخانه برای ساخت مدل‌های آموزشی جهت تقویت فناوری گفتار به متن بهره برد. همچنین می‌توان آن را به راحتی با سایر پروژه‌های یادگیری ماشین در TensorFlow ادغام نمود. متأسفانه به نظر می‌رسد این پروژه در حال حاضر فقط به طور پیش‌فرض از زبان انگلیسی پشتیبانی می کند.


    Kaldi

    Kaldi که در سال ۲۰۰۹ توسعه آن آغاز شد، یک نرم‌افزار منبع باز تشخیص گفتار می‌باشد که به زبان C ++ نوشته شده و تحت مجوز عمومی Apache منتشر گردیده است. این نرم‌افزار بر روی سیستم‌عامل‌های ویندوز، مکینتاش و لینوکس قابل اجرا است. یکی از ویژگی‌های اصلی این سیستم در مقایسه با سایر نرم‌افزارهای تشخیص گفتار، مدولار و قابل ارتقا بودن آن است.

    تاکنون ماژول‌های زیادی توسط این شرکت ارائه شده که کاربران می‌توانند برای انجام کارهای خود از آن‌ها بهره بگیرند. علاوه بر این، Kaldi از شبکه‌های عصبی عمیق پشتیبانی می‌کند و برای این منظور مستندات جامعی را در وب‌سایت خود منتشر کرده است. در حالیکه کدها عمدتاً توسط C++ نوشته شده‌اند، اما توسط اسکریپت‌های Bash و Python نیز قابل اجرا می‌باشند.

    لازم به ذکر است که Kaldi Active Grammar یک موتور پیش‌ساخته پایتون با مدل‌های آموزش دیده انگلیسی می‌باشد که برای استفاده آماده است.


    Julius

    Julius یکی از قدیمی‌ترین نرم‌افزارهای تشخیص گفتار است که توسعه آن در سال ۱۹۹۱ در دانشگاه کیوتو آغاز شد. سپس مالکیت آن به عنوان یک پروژه مستقل در سال ۲۰۰۵ واگذار گردید. بسیاری از برنامه‌های منبع باز، از آن به عنوان موتور خود استفاده می‌کنند.

    ویژگی‌های اصلی این سیستم شامل توانایی آن در انجام در لحظه فرآیندهای گفتار به متن، استفاده از حافظه کم (کمتر از ۶۴ مگابایت برای ۲۰۰۰۰ کلمه)، توانایی کار به عنوان واحد سرور و موارد دیگر است.

    این نرم‌افزار به زبان C نوشته شده و بر روی سیستم‌عامل‌های لینوکس، ویندوز، مکینتاش و اندروید قابل اجرا است. این سیستم عمدتاً برای اهداف دانشگاهی و تحقیقاتی مورد استفاده قرار می‌گیرد و در حال حاضر تنها از زبان‌های انگلیسی و ژاپنی پشتیبانی می‌کند.


    Wav2Letter++

    Wav2Letter ++ یک نرم‌افزار منبع باز برای تشخیص گفتار است که توسط تیم تحقیقاتی هوش مصنوعی فیس‌بوک منتشر گردیده است. فیس‌بوک از کتابخانه خود به عنوان “سریع‌ترین سیستم تشخیص گفتار موجود” یاد می‌کند. این ابزار به زبان C ++  نوشته شده، از این رو آن را مشابه با این زبان برنامه‌نویسی نام‌گذاری کرده‌اند.

    کتابخانه یادگیری ماشین فیس‌بوک تحت عنوان FlashLight به عنوان هسته اصلی این ابزار استفاده می‌شود. جهت استفاده از  Wav2Letter ++  لازم است در ابتدا یک مدل آموزشی برای زبان مورد نظر ساخته شود تا بتوان الگوریتم‌ها را بر روی آن آموزش داد.

    لازم به ذکر است هیچ مدل از پیش‌ساخته‌ای برای زبان‌های مختلف در این ابزار تعریف نشده و تنها برای تبدیل گفتار به متن بر اساس یادگیری ماشین می‌توان از این ابزار استفاده کرد.


    DeepSpeech2

    محققان غول چینی بایدو موتور گفتار به متن خود به نام DeepSpeech2 را ارائه دادند. این ابزار یک موتور منبع باز عمومی است که از چارچوب یادگیری عمیق “PaddlePaddle” برای تبدیل گفتارهای انگلیسی و چینی به متن استفاده می‌کند. با این حال، این موتور را می‌توان بر روی هر مدل و یا هر زبانی آموزش داد.


    OpenSeq2Seq

    این سیستم توسط NVIDIA برای آموزش مدل‌های دنباله به دنبالهSequence-to-sequence models  توسعه داده شده است. هرچند کاربرد این سیستم گسترده‌تر از پردازش گفتار است، اما با این وجود یکی از موتورهای خوب برای این فناوری بشمار می‌رود.

    کاربران می‌توانند مدل‌های آموزشی خود را با استفاده از آن بسازند و یا به راحتی مدل‌های ایجاد شده توسط سیستم‌های دیگر نظیر Wave2Letter+ و DeepSpeech2 را انتقال دهند. از مزیت‌های این ابزار می‌توان به پشتیبانی از GPU/CPU های متعدد و استفاده از فناوری‌های NVIDIA نظیر CUDA و یا کارت‌های گرافیک قوی این شرکت اشاره کرد.


    برخی از کتاب‌های پردازش گفتار

    در این بخش، چندین کتاب مرجع جهت آموزش پردازش گفتار معرفی شده است. لازم به ذکر است مقالات و کتاب‌های بیشمار زیادی در این زمینه وجود دارد که می‌توان از آنها بهره برد. در این مقاله، تمرکز بر کتاب‌های مرجعی می‌باشد که تاکنون افراد زیادی به آنها ارجاع داده‌اند.

     “Fundamentals of Speech Recognition”, Lawrence Rabiner, 1993

    Fundamentals of speech recogniiton

    این کتاب یکی از کتاب‌های مرجع در زمینه آشنایی با سیستم‌های پردازش گفتار می‌باشد که بالغ بر ۱۰۰۰۰ بار تاکنون به آن ارجاع داده شده است.

    کتاب مذکور یک کتاب توصیفی-تئوریک و جامع در مورد دانش پایه و ایده‌های تشکیل‌دهنده فرایند پردازش گفتار توسط ماشین است که موضوعاتی نظیر مفاهیم و روش‌های تولید، ادراک و توصیف صوتی- آوایی سیگنال‌های گفتاری، تکنیک‌های مقایسه الگو، تئوری مدل‌های پنهان مارکوف، بازشناسی گفتار بر اساس مدل‌های کلمات متصلConnected word Model ، سیستم بازشناسی گفتار پیوسته با واژگان بزرگLarge Vocabulary continuous speech recognition ، طراحی و پیاده‌سازی سیستم تشخیص گفتار و کاربردهای وظیفه‌محور سیستم‌های بازشناسی گفتار را پوشش می‌دهد. این کتاب برای مهندسین، متخصصین، زبان‌شناسان و برنامه‌نویسان علاقه‌مند به تشخیص گفتار توصیه می‌شود.

    •  •  •  •  •

     “Statistical Methods for Speech Recognition” by Frederick Jelinek, 1997

    Statistical Methods for Speech Recognition

    این کتاب منعکس‌کننده تلاش‌های گسترده در تحقیقات دهه‌های متوالی در زمینه ریاضیات نهفته در سیستم‌های تشخیص گفتار است. کتاب مذکور به مباحثی نظیر تکنیک‌های زیربنایی آماری این فناوری نظیر مدل‌های پنهان مارکوفHidden Markov models ، درخت تصمیمDecision trees ، الگوریتم حداکثر مقدار مورد انتظارthe expectation-maximization algorithm ، تخمین‌گر توزیع احتمال بر اساس ماکزیمم آنتروپیmaximum entropy probability estimation ، خوشه‌بندی پارامترها و داده‌ها و هموارسازی توزیع احتمالاتsmoothing of probability distributions  پرداخته است.

    هدف نویسنده، سازمان‌دهی داده‌های واقعی و ارائه اصول مربوطه به ساده‌ترین حالت ممکن است بطوریکه خواننده قادر باشد به استفاده از این تکنیک‌ها بپردازد.

    •  •  •  •  •

     

    “Speech Processing: A Dynamic and Optimization-Oriented Approach” by Li Deng and Doug O’Shaughnessey,2018

    Speech Processing A Dynamic and Optimization-Oriented Approach

    این کتاب، ابزارهای لازم را برای درک جنبه‌های علمی، محاسباتی و تکنولوژیکی فناوری پردازش گفتار ارائه می‌دهد. کتاب مذکور متمرکز بر اصول ریاضیاتی، پویایی فرایند گفتار و شیوه‌های بهینه‌سازی بوده است که حل مؤثرتر مشکلات در این زمینه را با استناد بر سال‌ها تحقیقات شخصی نویسندگان در مورد پردازش گفتار پوشش می‌دهد.

    هدف از تألیف این کتاب، ایجاد مهارت‌های تحلیلی جهت مقابله با چالش‌های آینده در پیشرفت‌های علمی و فناوری این زمینه بوده است که گذار پیچیده‌ای از پردازش گفتار انسان به پردازش گفتار ماشینی را در نظر می‌گیرد.

    •  •  •  •  •

     

     “The Voice in the Machine. Building Computers That Understand Speech” by Roberto Pieraccini, 2012 

    The Voice in the Machine. Building Computers That Understand Speech

    نویسنده در این کتاب در ابتدا با اشاره به فیلم علمی-تخیلی “۲۰۰۱: A Space Odyssey” و وجود کامپیوتری تحت عنوان HAL که به مکالمه طولانی با مسافران سفینه فضایی می‌پردازد، بحث را آغاز می‌کند. سپس اشاره می‌کند که با وجود پیشرفت تکنولوژی همچنان به قابلیت‌های این کامپیوتر از منظر پردازش گفتار دست نیافته‌ایم.

    به طور کلی، در این کتاب، تکامل فرایندهای تشخیص و درک گفتار را از روش‌های پردازش سیگنال تا روش‌های هوش مصنوعی، یادگیری آماری و مدل‌سازی گفتار انسان بر اساس مدل‌های ریاضیاتی دقیق، به ویژه مدل‌های پنهان مارکوف، شرح داده شده است. همچنین، این کتاب به راه‌هایی جهت توسعه سیستم‌های گفتگو، توانایی تولید گفتار، فرایند پیاده‌سازی و اجرای ماشین‌های سخنگو به بازار اشاره می‌کند.

    در نهایت، نویسنده سؤالی مطرح می‌کند که تنها می‌توان در آینده به آن پاسخ داد، آیا امکان دارد روزی بشر با رایانه‌هایی شبیه به HAL یا چیزی کاملاً غیرمنتظره روبرو شود؟

    •  •  •  •  •

     

    Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer) by Microsoft researchers D. Yu and L. Deng

    Automatic Speech Recognition A Deep Learning Approach

    این کتاب مروری جامع از پیشرفت‌های اخیر در زمینه تشخیص خودکار گفتار با تمرکز بر مدل‌های یادگیری عمیق از جمله شبکه‌های عصبی عمیق و بسیاری از انواع آن‌ها ارائه می‌دهد.

    کتاب مذکور جزو اولین مراجع تشخیص خودکار گفتار می‌باشد که به روش یادگیری عمیق اختصاص یافته است. این کتاب علاوه بر بینش‌ها و مبانی نظری، مجموعه‌ای از مدل‌های یادگیری عمیق بسیار موفق را نیز ارائه می‌دهد.


    آینده پردازش گفتار

    این‌طور به نظر می‌رسد که فیلم‌های علمی- تخیلی در حال تبدیل شدن به واقعیت هستند. چه کسی تصور می‌کرد روزی بتوان با دستگاه‌های الکترونیکی صحبت کرد. با این وجود، همچنان پیشرفت‌های بزرگتری در پردازش گفتار در راستای پشتیبانی از سرعت‌های سریع‌تر فناوری بی‌سیم و یا رشد خارق‌العاده‌ای رایانش ابری در راه است.

    به لطف این موارد، داده‌های گفتاری بیشتری جهت بهبود این نوع از محصولات نیز به وجود آمده و باعث گشته که توانایی این سیستم‌ها برای شنیدن انواع بیشتری از کلمات، زبان‌ها و لهجه‌ها ارتقا یابد.

    با توجه به اینکه گفتار یکی از سریع‌ترین و کارآمدترین روش‌های ارتباطی است، بنابراین، می‌توان انتظار داشت که در آینده‌ای نزدیک، دستیاران مجازی و سیستم‌ها مجهز به پردازش گفتار که تمرکزشان بیشتر بر انجام امور توسط گفتار و یا صوت است، تسلط بیشتری بر زندگی روزمره انسان‌ها خواهند گذاشت.


    اصطلاحات تخصصی حوزه پردازش گفتار

    لغات و اصطلاحات تخصصی

    معادل انگلیسیشرح
    پردازش گفتارSpeech Recognitionیکی از فناوری‌های هوش مصنوعی جهت درک و تولید گفتار توسط ماشین است.
    بازشناسی خودکار گفتارAutomatic Speech Recognitionماشین به واسطه فناوری بازشناسی گفتار این توانایی را دارد که پس از دریافت فایل‌‏های صوتی، گفتار آن را متوجه شود.
    بازشناسی کلمات مجزاIsolated word recognitionدر این نوع بازشناسی، هر کلمه به صورت جداگانه و واضح بیان می‌شود و سیستم بازشناسی با هر کلمه به‌طور مستقل سرکار دارد.
    بازشناسی کلمات متصلConnected word recognitionدر این نوع بازشناسی، دنباله‌ای از کلمات مورد توجه قرار می‌گیرند، ولی کلمات جمله باید به‌طور مجزا و با فواصل زمانی سکوت از هم جدا شوند.
    سیستم بازشناسی گفتار پیوسته با واژگان بزرگLarge Vocabulary continuous speech recognitionیک نوع سیستم بازشناسی گفتار مربوط به مدیریت واژگان در محدوده ۲۰۰۰۰ تا ۶۰۰۰۰ کلمه است.
    آشکارسازی فعالیت صوتیVoice Activity Detectionیکی از فرایندهای پیش‌پردازش سرویس‌های پردازش صوت است که طی آن حضور یا عدم حضور گفتار در بخش‌های مختلف فایل‌های صوتی آشکار می‌گردد.
    تبدیل صوتVoice Conversionفرایندی است که طی آن صحبت افراد با لهجه‌ها، لحن‌ها و آهنگ‌های متفاوت به یک گویش معیار با آهنگ و لحن ثابت تبدیل می‌شود.
    تولید گفتار سفارشیVoice Cloningفرایندی است که با داشتن یک بانک اطلاعاتی از صدای افراد می‌تواند تولید گفتار از متن را با صدای فردی خاص انجام دهد.
    الگوریتم پیچش زمانی پویاDynamic Time Warpingالگوریتمی برای اندازه‌گیری شباهت بین دو دنباله زمانی است که ممکن است در سرعت یا زمان متفاوت باشند.
    کوانتیزاسیونQuantizationکوانتیزاسیون، فرایند نگاشت مقادیر ورودی از یک مجموعه بزرگ (اغلب مجموعه پیوسته) به مقادیر خروجی در یک مجموعه کوچک‌تر (قابل شمارش) است که به‌طور معمول، در ریاضیات و پردازش سیگنال دیجیتال مورد استفاده قرار می‌گیرد.
    ماشین بردار پشتیبانSupport Vector Machinesیک الگوریتم یادگیری ماشین با نظارت برای طبقه‌بندی
    مدل پنهان مارکوفHidden Markov Modelsیک ابزار مدل‌سازی آماری جهت پاسخگویی به این سؤال که احتمال وقوع یک دنباله از مشاهدات چقدر است.
    شبکه عصبی مصنوعیArtificial Neural Networksشبکه‌های عصبی مصنوعی که معمولاً به سادگی شبکه‌های عصبی نامیده می‌شوند، یک نوع سیستم‌های محاسباتی هستند که از مجموعه‌ای از گره‌های متصل، مشابه با سیستم‌های عصبی بیولوژیکی، تشکیل شده‌اند.
    مدل مخلوط گوسیGaussian Mixture Modelاین مدل به منظور نشان دادن نماینده‌ای از یک زیر جمعیت توزیع شده نرمال از کل جمعیت استفاده می‌شود.
    نرخ خطای کلمه (WER)Word Error Rateیکی از شاخص‌های ارزیابی عملکرد سیستم‌های پردازش گفتار است که نشان‌دهنده دقت تشخیص کلمات توسط ماشین است.
    مدل‌های دنباله به دنبالهSequence-to-sequence modelsیک مدل مبتنی بر شبکه عصبی که شامل دو  بخش رمزگذار و رمزگشا است. بخش رمزگذار وظیفه تولید ویژگی از ورودی را بر عهده دارد و بخش رمزگشا نیز تبدیل ویژگی‌ها به خروجی مد نظر را انجام می‌دهد.
    درخت تصمیم

    Decision trees

     

    یک ابزار پشتیبانی تصمیم که از یک مدل درخت مانند برای نمایش تصمیمات و پیامدهای احتمالی آن‌ها (از جمله نتایج رویداد تصادفی، هزینه و مطلوبیت) استفاده می‌کند.
    الگوریتم حداکثر مقدار مورد انتظار

    the expectation-maximization algorithm

     

    یک روش بر پایه تکرار که بر اساس وجود متغیر پنهان امکان برآورد پارامترهای مدل آماری را میسر می‌سازد.

    سؤالات متداول در پردازش گفتار

    پردازش گفتار چیست؟
    قابلیت‎‌های درک و تولید گفتار در ماشین تحت عنوان فناوری “پردازش گفتار” شناخته می‏‌شود.
    فرایند تولید گفتار در مغز چگونه انجام می‌شود؟
    فرایند تولید گفتار از ایجاد یک ایده در مغز شروع می‌شود که براساس مدل دانشی افراد شکل می‌گیرد. سپس، عبور از لایه‌های مختلفی زبانی جهت کدینگ این ایده و تبدیل آن به گفتار صورت می‌گیرد . سپس سیگنال‌های الکترومغناطیسی تولید شده و از طریق اعصاب حرکتی، عضلات صوتی دهان را فعال کرده و گفتار تولید می‌شود.
    ارزیابی سیستم‌های پردازش گفتار بر چه اساس تعیین می‌شود؟
    ارزیابی سیستم‌های پردازش گفتار براساس سرعت پردازش و دقت انجام می‌شوند. شاخص میزان خطای کلمه یکی از شاخص‌های اساسی در ارزیابی سیستم‌های پردازش گفتار است.
    چرا به پردازش گفتار نیار داریم؟
    فراهم نمودن امکان تعامل راحت‌تر ماشین با انسان، قابلیت دسترسی سریع و راحت، حذف تایپ اطلاعات و بهبود فرایند احراز هویت از جمله مزایای سیستم پردازش گفتار است که به مرور بشر را بیشتر به خود نیازمند خواهد کرد.
    انواع سیستم‌های پردازش گفتار چیست؟
    سیستم‌های پردازش گفتار به پنج دسته کلی سیستم‌های پایه، بازشناسی خودکار گفتار، تحلیل صوت، سنتز گفتار و سیستم‌های مربوط به موسیقی تقسیم‌بندی می‌شوند.
    کاربرد فناوری پردازش گفتار در پزشکی و سلامت چیست؟
    ثبت راحت شرح حال بیمار و پردازش وضعیت بیماران از طریق صدای آنها از جمله کاربردهای فناوری پردازش گفتار در پزشکی و سلامت است.
    کاربرد فناوری پردازش گفتار در بازاریابی و فروش چیست؟
    ارائه خدمات و پاسخگویی به مشتریان قبل و بعد از خرید، ورود داده‌های فروش بدون نیاز به تایپ، ارتباط با نمایندگان و جمع‌آوری داده‌های تحلیلی مختلف در مورد سن، جنسیت و احساسات مشتریان از روی صدایشان جز کاربردهای پردازش گفتار در بازاریابی و فروش است.
    کاربرد فناوری پردازش گفتار در رسانه و سرگرمی چیست؟
    از جمله کاربردهای پردازش گفتار در رسانه و سرگرمی می‌توان به مدیریت داده‌های رسانه‌ای، رادیو و تلویزیون هوشمند و افزایش جذابیت صنعت بازی‌های کامپیوتری اشاره کرد.
    کاربرد فناوری پردازش گفتار در فین‌تک چیست؟
    خدمات مربوط به حساب، معاملات فعال شده با صدا و تأمین امنیت از این طریق از جمله کاربردهای پردازش گفتار در فین‌تک است.
    کاربرد فناوری پردازش گفتار در حمل و نقل چیست؟
    بارزترین کاربرد فناوری پردازش گفتار در حوزه حمل و نقل را می‌توان در سیستم‌های خودران مشاهده کرد.
    محصولات مبتنی بر فناوری پردازش گفتار کدام‌اند؟
    دستیاران صوتی مااند الکسای آمازون، سیری اپل، دستیار گوگل و کورتانا مایکروسافت جلوه‌ای کاملی از تلفیق دو فناوری پردازش گفتار و پردازش زبان طبیعی هستند.
    اهداف سیستم‌های پردازش گفتار چیست؟
    کدگذاری گفتار برای انتقال کارآمد و تشخیص خودکار گفتار از جمله اهداف اصلی سیستم‌های پردازش گفتار است.

     

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۱ میانگین: ۵]

    آیا هوش مصنوعی توانایی هک مغز انسان را دارد؟

    مقاله قبلی

    سیستم تشخیص چهره کاربران فیس بوک متوقف می‌شود

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *