فناوری تشخیص گفتار در خودروها: گذشته، حال و آینده
درب کاپوت اتومبیلهای مدرن را که باز میکنید، به جای مجموعهای از قطعات مکانیکی و متحرک روغنی، چیزی شبیه به کامپیوتری بزرگ و سیاه میبینید. تکامل خودرو وارد عصر جدیدی شده است. اتومبیل ساده شما دارد، به دستگاهی هوشمند تبدیل میشود که مانند دیگر وسایل هوشمند، فناوری تشخیص گفتار جزء جداییناپذیر آن است. در ادامه گذشته، حال و آینده فناوری تشخیص گفتار در خودروها را بررسی خواهیم کرد.
چرا فناوری تشخیص گفتار، در خودروها بهکار گرفته شد؟
بسیاری از پیشرفتهای حوزه تشخیص گفتار، با انگیزه حفظ امنیت عمومی و ارتقای فرهنگ استفاده از ماشینها و بهویژه وسایل نقلیه، ایجاد شدهاند.
امروزه ما عادت کردهایم که برای خواندن پیامک یا استفاده از نقشه گوگل، چشم خود را از جاده برداریم. سیستمهای تشخیص گفتار در خودروها با این هدف طراحی شدهاند که حواسپرتی ناشی از نگاه انداختن به تلفن همراه در حین رانندگی را از بین ببرند و درعوض بهوسیله یک نمایشگر مجازی، به راننده امکان بدهند که چشمشان به جاده و حواسشان به رعایت نکات ایمنی باشد.
بر اساس نتایج پژوهش جدید آزمایشگاه تحقیقات حملونقل بریتانیا (TRL)، میزان حواسپرتی راننده هنگام استفاده از سیستمهای مبتنی بر صوت در مقایسه با صفحات لمسی، بسیار کمتر است. با این حال، در این تحقیق پیشنهاد شده است که در آینده پژوهشهای بیشتری بر روی استفاده از فرمانهای گفتاری بهعنوان امنترین روش کنترل درونِ خودرو، انجام شوند.
کارکرد سیستم تشخیص گفتار در خودروها چیست؟
بسته به نوع اتومبیل، ویژگیهای متفاوتی را میتوان بهوسیله گفتار کنترل کرد.
مواردی که با صوت کنترل میشوند در سه گروه طبقهبندی میشوند: پایه، متوسط و پیشرفته.
1- موارد پایهای که با صدا فعال میشوند، حول محور سیستم صوت و تصویر ماشین هستند. رانندگان میتوانند با صدای خود کانال رادیو را تغییر دهند، میزان صدا را تنظیم کنند، آهنگی را رد کنند و کارهایی از این قبیل را انجام دهند.
2- سیستمهای متوسط به راننده امکان میدهند علاوه بر کارهای پایه، تماس تلفنی برقرار کنند، GPS و تهویه هوا را تنظیم کنند.
3- فناوریهای پیشرفتهتر شامل اتصال به اینترنت است که وبگردی صوتی و استفاده از نرمافزارها را آسان میکنند.
4- شکل نهایی این سیستمها در اتومبیلهای خودران تجلی خواهند کرد.
بهعنوان مثال در سطح پیشرفته، راننده میتواند بدون اینکه چشم از جاده یا دست را از روی فرمان بردارد، آدرس بپرسد، رستوران رزرو کند و جای پارک پیدا کند. در صورت لزوم میتوانند یک نرمافزار یادداشتبرداری را فرابخوانند و افکارشان را به آن دیکته کنند. بهعلاوه، میتوانند از وضعیت آبوهوا بپرسند و بخواهند که پیامکهایشان با صدای بلند برایشان خوانده شود.
نرمافزارهای تشخیص گفتار در خودروها
پس از اینکه از انگیزه به وجود آمدن این نرمافزارها آگاه شدیم، در ادامه برخی از محبوبترین سیستمها را معرفی میکنیم.
CarPlay از شرکت اپل
CarPlay نسخه سادهای از iOS را برای صفحه نمایشگر لمسی خودرو فراهم کرده است. سیری کاملاً در CarPlay ادغام شده است. این سیستم به گوشی آیفون متصل میشود و سیستم صوت و تصویر اتومبیل که در کارخانه بر روی آن نصب شده است، با آیکونهای اپل جایگزین میشوند.
با فشردن دکمه روی فرمان، سیری در خدمت راننده است، تا آهنگها را تغییر دهد، نزدیکترین پمپ بنزین را پیدا کند، پیامک و ایمیل بفرستد و اگر پیامک یا ایمیلی دریافت شد، هشداری روی صفحه نمایشگر CarPlay ظاهر میشود که با لمس آن، سیری پیام را با صدای بلند میخواند. میتوان فوراً پاسخ را به سیری دیکته کرد و بنابراین نیازی نیست که راننده برای تایپ کردن، چشم از جاده بردارد.
Android Auto از شرکت گوگل
Android Auto، نسخه همتای سیستم عامل اندروید بر روی اتومبیل است. این سیستم هم مانند CarPlay، اطلاعاتی از قبیل موسیقی و پادکست، تماسها، پیامک، نقشههای GPS و موارد دیگر را نمایش میدهد.
وقتی گوشی به ماشین متصل میشود، Android Auto یک ویژگی امنیتی مهم و منحصربهفرد را فعال میکند. با فعال شدن آن، اساساً گوشی بلااستفاده میشود و دیگر نیازی نیست که راننده هنگام رانندگی از آن استفاده کند، آن را بردارد، به آن نگاه کند یا حتی صدای آن را تنظیم کند.
دستیار صوتی گوگل و سیری تفاوت چندانی ندارد و هر دو سیستم، زمان و عملکرد پاسخگویی مشابهی دارند.
قرار است که در نهایت، حالت دستیار رانندگی گوگل (Google Assistant Driving Mode) جایگزین Android Auto شود و به رابط کاربری غالب در خودروها تبدیل شود. پس از اینکه این حالت برای نخستین بار در ایالات متحده راهاندازی شود، در نهایت راه خود را به سایر نقاط جهان باز میکند.
تنظیمات خاص تولیدکنندگان خودروها
در کنار سیستمهای جهانی و گستردهای که ذکر شد، کارخانههای خودروسازی نیز، سیستمهای خاص خود را در معرض آزمایش گذاشتهاند. بهعنوان مثال، سیستم Sync شرکت فورد و OnStar جنرال موتورز، سیستمهای دیجیتالی مخصوص این شرکتها هستند.
Nuance و BMW
شاید نام Nuance به آشنایی اپل یا اندروید نباشد، اما این باعث نمیشود که به اندازه آنها تأثیرگذار نباشد.
Nuance و BMW نمونه اعلای یک توسعهدهنده هوش مصنوعی و یک خودروساز هستند که برای تولید قابلیتهای مؤثر و نوآورانه تشخیص گفتار داخل ماشین، با یکدیگر همکاری میکنند.
دستیار شخصی هوشمند BMW که نخستین بار در سری سوم BMW عرضه شد، یک «دستیار دیجیتالی مجهز به هوش مصنوعی مکالمهای Nuance است که به راننده امکان میدهد بهسادگی و از طریق گفتار، اتومبیل خود را به کار بیندازند و به عملکردها و اطلاعات آن دسترسی داشته باشد.»
امکاناتی که این دستیار فراهم میکند عبارتاند از:
- شخصیسازی کلمه بیداری: رانندگان میتوانند از کلمه بیدارباش استاندارد « Hey BMW» استفاده کنند یا کلمهای دلخواه، انتخاب کنند.
- تعامل مبتنی بر صوت: سیستم درک و تولید صدای طبیعی Nuance، به رانندگان اجازه میدهد که با گفتار خود، عملکردهای کلیدی در خودروها از قبیل جستوجوی محلهای موردنظر، مسیریابی، کنترل دما و کنترل رادیو را انجام دهند.
- کتابچه صوتی هوشمند راهنمای ماشین: این ویژگی که فعلاً به زبان انگلیسی، آلمانی و چینی در دسترس است، به راننده امکان میدهد که با استفاده از صدای خود به تمام کتابچه راهنمای خودرو دسترسی داشته باشند. بهزودی زبانهای دیگر هم اضافه خواهند شد.
- حالتهای تجربه صوتی و مراقبت: رانندگان میتوانند احساسات و وضعیت ذهنی خود مانند اضطراب یا خستگی را با استفاده از زبان طبیعی بیان کنند. دستیار شخصی هوشمند BMW در واکنش به آن، اتومبیل را در وضعیت مناسبی قرار میدهد.
به پشتوانه خریدی که مایکروسافت در سال 2021 انجام داد، مطمئناً Nuance، دستاوردهای بیشتری هم در راه دارد.
مسیر پیش روی خودروهایی که با صوت کنترل میشوند
تحقیقات جدید نشان میدهند که 73 درصد از رانندگان انتظار دارند، تا سال 2022 از دستیارهای صوتی تعبیهشده در خودروهای خود برای یک یا چندین هدف، استفاده کنند. بنابه گزارش Automotive World، تا سال 2028، کنترل صوتی در بیش از 90 درصد وسایل نقلیه جهان، تعبیه خواهد شد.
پردازش زبان طبیعی، عامل متحولکننده کنترل صوتی است و اثر آن وابسته به یادگیری ماشین است. اساس هر نوع فناوری هوش مصنوعی نیز، داده است: هرچه داده بیشتر باشد، تجربه شخصیتر و هوشمندتری خواهیم داشت. بنابراین سازندگان سیستم تشخیص گفتار از دیتاستهای برچسبگذاریشده شامل صداهایی به زبانهای مختلف، با لهجههای متفاوت در گسترهای از سبکهای گفتاری که در آنها صداهای پسزمینه هم مشخص هستند (مانند رادیوی ماشین یا صدای صحبت فردی در ماشین)، استفاده میکنند، تا مطمئن شوند که سیستم میتواند گفتار طبیعی را درک کند و به آن پاسخ دهد.
بهعنوان مثال، سازندگان Nuance به مجموعهای از دادههای گفتاری، شامل صدها ساعت گفتوگو به زبانهای مختلف و با ویژگیهای جمعیتشناختی متفاوت که از سراسر جهان گردآوری شدهاند، نیاز داشتند. آنها باید به مجموعهای دقیق و جامع از تمام اصطلاحات، عبارات و کلماتی که ممکن است در ارتباطهای داخل خودرو بهکار بروند، دسترسی میداشتند و از این داده برای آموزش سیستمهای داخل خودرو بهمنظور برقراری رابطه با انسان استفاده کردند. Nuance توانست با استفاده از داده جمعآوریشده، پایگاه تحقیقاتی خود را بسازد و به ارائه نوآوری در ارتباط انسان و وسیله نقلیه ادامه دهد.
کارکرد درست سیستمهای تشخیص گفتار در خودروها به کیفیت و کمیت عبارتهای ذخیرهشده در پایگاه داده سیستم و جامعیت آن، بستگی دارد.
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید