مبانی پردازش گفتار در پایتون؛ کارکرد تشخیص گفتار در پایتون چگونه است؟
فیلمهای سینمایی و برنامههای تلویزیونی دوست دارند روباتهایی را به تصویر بکشند که توانایی تشخیص گفتار و درک زبان انسان را داشته باشند و آنها را بفهمند. از جهان علمیتخیلی فیلمها تا موضوع حقیقی پردازش گفتار در پایتون این همواره آرزوی انسان بوده است. از سریالهایی مانند وستورد تا فیلمهایی مانند جنگ ستارگان مملو از چنین روباتهای شگفتانگیزی هستند. اما اگر به شما بگوییم که اکنون جهان حقیقی ما بسیار به این جهانهای فانتزی و علمیتخیلی نزدیک شده است چطور؟ چیزی که واقعاً حقیقت دارد؛ اکنون شما میتوانید برنامهای بنویسید که با استفاده از تکنیک گفتار به متن، حرف شما را بفهمد و به آن پاسخ دهد.
همه اینها با کمک فناوری تشخیص گفتار امکان پذیر است. با استفاده از برنامه پردازش گفتار در پایتون، میتوانید برنامهای بنویسید که گفتار و صوت را دریافت میکنند و آنچه گفته میشود را درک میکنند. این برنامه از تکنیک گفتار به متن استفاده میکند.
در این مقاله سعی میکنیم تا با زبانی ساده، مبانی پردازش گفتار در پایتون را به شما شرح دهیم. برای اینکار نخست باید بدانیم فناوری تشخیص گفتار چیست؟
تشخیص گفتار چیست؟
تشخیص گفتار فناوری میانرشتهای است که شامل دانشهای رایانهای و زبانشناسی میشود، از این فناوری برای شناسایی کلمات گفتاری و تبدیل آنها به متن (تکنیک گفتار به متن) استفاده میکنند. این به رایانهها اجازه میدهد تا زبان انسان را بفهمند و آن را درک کنند.
حال برای شناخت پردازش گفتار در پایتون باید بدانیم که تشخیص گفتار یک توانایی ماشینی است که به کمک آن به کلمات شفاهی گوش میدهند، آن گفتار به متن تبدیل میشود و سپس متن را شناسایی میکنند. این توانایی پردازش گفتار در پایتون را نیز توضیح میدهد؛ در حقیقت پایتون صوت شنیده شده را به متن تبدیل میکند و با پرسوجو و پیدا کردن پرسشها به آنها پاسخ میدهد. پاسخ دادن هم میتواند به صورت متن باشد و هم اینکه میتوانید برخی از ماشینها را طوری برنامهریزی کنید که پاسخ متنی را شفاهی بخواند.
ورودی دادهها برای پردازش گفتار در پایتون میتواند میکروفون باشد، سپس داده را پردازش میکنند و به فرم مناسبی تبدیل میشود. با این که تشخیص گفتار یک فناوری بسیار آیندهنگر به نظر میرسد، ولی همیشه در اطراف ما حضور دارد. به طور مثال سیستمهای تلفنی هوشمند و خودکار به کاربر این امکان را میدهد که درخواست خود را بیان کند، یا درخواستی که مایل است در مورد آن به او کمک شود را انتخاب کند. حتی دستیاران مجازی مانند گوگل، سیری یا الکسا نیز از تشخیص گفتار برای صحبت با کاربر استفاده میکنند.
[irp posts=”9142″]پردازش گفتار در پایتون چگونه کار میکند؟
پردازش گفتار در پایتون با الگوریتمهایی کار میکند که مدلسازیهای زبانشناسانه و آواشناسانه (آکوستیک) انجام میدهند. در الگوریتم نویسی، از مدلسازی آکوستیک برای تشخیص شاخصهای کلامی و آوایی استفاده میشود. به این معنی که الگوریتم آکوستیک برای تشخیص گفتار و تبدیل گفتار به متن، به جای درک نشانههای معنایی در واژگان، تنها فرمهای آوایی آنها را میشناسد و برای اینکار از دانش آواشناسی آکوستیک استفاده میکند. آواشناسی آکوستیک شاخهای از رشته آواشناسی است که به ویژگیهای فیزیکی آواهای گفتار، به عنوان واسط میان دهان و گوش، بر اساس اصول علم آکوستیک (که شاخهای از علم فیزیک است) میپردازد. به طور کلی این شاخه وابسته به استفاده از ابزارهای فنی، خصوصاً ابزارهای الکترونیکی و دیجیتالی، و همینطور برخی اصول و قواعد فیزیک و ریاضی برای مطالعه شکل موجِ آواهای مورد نظر است. این دانش به پردازش گفتار در پایتون کمک فراوانی میکند.
تشخیص گفتار با گرفتن انرژی صوتی تولید شده، توسط گوینده و تبدیل آن به انرژی الکتریکی با کمک میکروفون انجام میشود. سپس ماشین این انرژی الکتریکی را از آنالوگ به دیجیتال و در نهایت به متن تبدیل میکند.
این فناوری پردازش گفتار در پایتون دادههای صوتی را به چندین صدای گوناگون تقسیم میکند و این صداها با استفاده از الگوریتمها تجزیه و تحلیل میشوند تا محتملترین کلمه و نوشتاری را پیدا کند که متناسب با آن صدا باشد. تمام این مرحلهها با استفاده از پردازش زبان طبیعی و شبکههای عصبی انجام میشوند.
برای پردازش گفتار در پایتون میتوان از مدلهای مخفی مارکوف در الگوریتمنویسی استفاده کرد؛ برای یافتن الگوهای زمانی در گفتار و آوای کلمات و همچنین بهبود دقت در شناخت واژگان شفاهی.
بسته تشخیص گفتار
برای انجام تشخیص گفتار در پایتون، باید یک بسته تشخیص گفتار را برای پردازش گفتار در پایتون نصب کنید. بسته های متعددی به صورت آنلاین در دسترس هستند. جدول زیر برخی از این بستهها را نشان میدهد و تخصص آنها را برجسته میکند.
بسته | کارکرد | راه اندازی |
Apiai | شامل پردازش زبان طبیعی برای شناسایی مقصود گوینده است. | $ pip install apiai |
Google Cloud Speech |
تبدیل گفتار به متن اولیه. |
$pip install virtualenv virtualenv <your-env> <your-env>\Scripts\activate <your-env>\Scripts\pip.exe install google-cloud-speech |
Speech Recognition | پردازش صدا و دسترسی آسان به میکروفون | pip install SpeechRecognition |
Watson developer cloud
|
ابر توسعهدهنده واتسن یک API هوش مصنوعی است که ایجاد، اشکالزدایی، اجرا و استقرار APIها را آسان میکند. میتوان از آن برای انجام وظایف اصلی تشخیص گفتار استفاده کرد. |
pip install-upgrade watson-developer-cloud |
نصب یک بسته تشخیص گفتار موارد زیر را به کاربرد اجازه میدهد:
- تشخیص آسان گفتار از طریق میکروفون.
- رونویسی یک فایل صوتی را آسان میکند.
- همچنین به کاربر امکان میدهد دادههای صوتی را در یک فایل صوتی ذخیره کند.
- همچنین نتایج تشخیص را در قالبی قابل درک به کاربر نشان میدهد.