سیستم تشخیص گفتار بیصدا؛ بهنام کمشنوایان، بهکام ارتش
ابزار تشخیص گفتار بیصدا که بهتازگی برای کمک به افراد کمشنوا طراحی شده است، قرار است برای اهداف و ابزار نظامی استفاده شود. این نوآوریِ «تشخیص گفتار بیصدا» کلماتی را که مردم به زبان میآورند، با استفاده از حسگرهای فشار شناسایی میکند؛ حسگرهای فشار بهجای شناسایی آواهای زبانی، حرکات دهان را ردیابی میکنند.
بر اساس گزارشی که یورونیوز منتشر کرده، یک سیستم جدید تشخیص گفتار بیصدا توسط پژوهشگران کره جنوبی ساخته شده که میتواند واژگان گفتهشده را با بررسی حرکات صورت، بهدقت تشخیص دهد.
در ابتدا این ابزار جدید تشخیص گفتار بیصدا برای افراد کمشنوایی طراحی شد که همیشه نمیتوانند از زبان اشاره استفاده کنند، ولی بعد ارتش کاربردهای دیگری، شامل کاربردهای نظامی برای آن در نظر گرفت. این کاربردهای نظامی برای زمانی است که تماس رادیویی بهدلیل وجود نویز در محیط پیچیده میشود.
حسگرهای فشار، قلب تپنده فناوری تشخیص گفتار بیصدا
این فناوری از حسگرهای فشار برای تشخیص انبساط و انقباض پوست در حینِ بهزبانآوردنِ کلمات، استفاده میکند و همچنین از یک الگوریتم یادگیری عمیق، برای تبدیل حرکات صورت به واژگان زبان طبیعی کمک میگیرد. حسگرهای فشاری که بهصورت متصل کار میکنند، بر اساس کشش پوست هنگام صحبت کردن، کشیده، کوچک و یا بزرگ میشنود؛ خواص الکتریکی حسگرهای کرنش برایناساس تغییر میکند.
تأمین کیم از دانشکده مهندسی برق و الکترونیک دانشگاه یونسی، به یورونیوز گفت: «تاکنون، این سیستم میتواند مجموعهای از 1000 کلمه را با دقت نزدیک به 88 درصد تشخیص دهد. سنسورها همچنین بهطور قابل توجهی کوچکتر از دستگاههای مشابه قبلی هستند.»
اندازه حسگرهای فشار در تشخیص گفتار بیصدا بسیار مهم است، بهاینخاطر که حسگرهای بزرگ میتوانند روی تمام صورت افراد عمل کنند و در نتیجه درک بهتری از کلمات تلفظ شده به وجود میآید.
تأمین کیم ادامه داد: «برای طبقهبندی و تشخیص کلمات بیشتر، وضوح بالاتری از اطلاعات مورد نیاز است و بههمیندلیل است که امروزه محققان در تلاشند تا یک سیستم تشخیص گفتار بیصدا با وضوحِ بالا ایجاد کنند که حسگرهای فشار، کاربر را با یک مدار کاملاً یکپارچه ترکیب کنند؛ معمولاً این سیستم در تولید یک نمایشگر یا نیمهرسانا استفاده میشود. اگر بتوانیم حجم اطلاعات را افزایش دهیم و بنابراین سیستم بتواند کلمات و جملات بیشتری بشناسد، انتظار داریم روزی افراد مبتلا به اختلالات زبانی بتوانند در زندگی روزمره خود، گفتگو داشته باشند.»
آیا زبان اشاره منسوخ میشود؟
نوآوریهای مداوم مانند این، میتواند بهزودی مترجمان و حتی زبان اشاره را منسوخ کند. در مارس 2021، گوگل از ویژگی Live Captions خود در مرورگرهای کروم رونمایی کرد. Live Caption از یادگیری ماشینی استفاده میکند تا فوراً زیرنویسهای بسته را بر روی هر کلیپ ویدئویی یا صوتی ایجاد کند و بهافراد کمشنوا یا ناشنوا دسترسی بیشتری به محتوای اینترنتی ارائه دهد.
در گذشته (و حتی تا امروز) زیرنویسهای از پیشنویس برای فرمتهای ویدئویی به کار گرفته میشدند. بااینحال، در مکانهایی که کپشننویسی «هنجار» نیست، مانند برنامههایی مانند اینستاگرام یا TikTok، یافتن شرحها تقریباً غیرممکن است. اکنون Live Caption این رویه را تغییر میدهد: با چند ضربه روی صفحه، هر کاربری میتواند زیرنویسهای آنی و دقیقی داشته باشد که دامنه صوتی و تصویری را افزایش میدهد. زیرنویس زنده Google نوعی پردازشگر زبان طبیعی است و پردازشگر زبان طبیعی، نوعی هوش مصنوعی است که از الگوریتمهایی برای تسهیل «تعامل» بین افراد و ماشینها استفاده میکند.
پردازش زبان طبیعی به ما کمک میکند، تا زبانهای انسانی را به زبان ماشینی و یا برعکس، تبدیل کنیم. این پژوهش جدید در نشریه Nature Communications منتشر شده است.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید