هفت پیش‌بینی مهم درباره دستیارهای صوتی و هوش مصنوعی

تیم تحریریه
۲۷ مهر ۱۳۹۹
زمان مطالعه 7 دقیقه

در ابتدای پیدایش دستیارهای صوتی در سال ۲۰۱۱ با پیشگامی Siri، هیچکس تصور نمی‌کرد این پدیده‌ی نوظهور روزی به عاملی برای خلق نوآوری‌های جدید در حوزه فناوری تبدیل شود. اکنون پس از گذشت هشت سال، از هر شش شهروند آمریکایی یک نفر بلندگوی هوشمند smart speaker ( مثل Google Home, Amazon Echo) دارد و طبق پیش‌بینی شرکت تحقیقات الکترونیک eMarketer تا سال ۲۰۲۰ تعداد کاربران دستیار صوتی به حدود ۱۰۰ میلیون نفر خواهد رسید.

صاحبان برندهایی همچون آمازون و گوگل در نتیجه‌ی رقابت در بدست آوردن سهم بازار به این روند دامن می‌زنند. شرکت‌های فعالِ این حوزه، در تلاشند همگام با برآورده نمودنِ نیاز و تقاضای مشتریان خود، برای انتشار رابط‌های صوتی گوی سبقت را از یکدیگر ربوده و با توجه به این‌که سرعت رشد و استفاده از این فناوری در تمامی صنایع، از جمله بهداشت و درمان، خدمات بانکی و غیره سیر صعودی دارد، هر یک نسخه شخصی خود را به بازار عرضه کنند.

فهرست مقاله پنهان

1 عوامل گرایش به دستیارهای صوتی کدامند؟

2 هفت پیش‌بینی عمده درباره‌ی دستیارهای صوتی در سال ۲۰۲۰

2.1 مکالمات ساده

2.2 سازگاری و تلفیق

2.3 تغییر رفتارهای جست‌وجو

2.4 تجربه‌های شخصی‌سازی شده

2.5 اعلان‌های صوتی Voice Push Notifications

2.6 تعامل لمسی

2.7 امنیت و حریم خصوصی

3 لزوم بکارگیری راهبرد صوتی در گوشی‌های همراه

4 توسعه بی‌وقفه رابط کاربری صوتی (VUI)

5 آینده تعاملات برندها و تجربیات مشتریان با فناوری صوتی تعریف می شود

عوامل گرایش به دستیارهای صوتی کدامند؟

مهم‌ترین عامل گرایش کاربران به رابط‌های صوتی تغییر نیاز و تقاضای آن‌ها است. به طور کلی سطح آگاهی مردم افزایش یافته است و کاربران، به ویژه کاربران هزاره سوم خواهان راحتی بیشتر هستند در این دنیای دیجیتالی رو به رشد و تکامل، همواره به دنبال بهینه‌سازی و حداکثر نمودن سرعت، کارایی و راحتی ابزارهای مورد نیاز خود هستیم.

به علاوه، استفاده گسترده از هوش مصنوعی در زندگی روزمره بر شدت این تحول، یعنی گرایش به برنامه‌های صوتی، افزوده است. تعداد دستگاه‌های مجهز به اینترنت اشیاء، همانند ترموستات، لوازم خانگی و بلندگوهای هوشمند روبه افزایش است و همین امر حضور دستیارهای صوتی را در زندگی یک کاربرِ به روز پر رنگ‌تر می‌کند. بلندگوهای هوشمند اولین شیوه‌ی بکارگیری صوت در فناوری اطلاعات هستند و موارد کاربرد این فناوری به همین‌جا ختم نمی‌شود. بسیاری از متخصصین صنعت پیش‌بینی کرده‌اند که تقریبا تمام اپلیکیشن‌ها در پنج سال آینده، فناوری صوتی را به برنامه خود اضافه خواهند نمود.

اپلیکیشن‌های مجهز به دستیارهای صوتی در همه جا به چشم می‌خورند. لذا در این مقاله با این می‌پردازیم که آینده‌ی این فناوری در سال ۲۰۲۰ و پس از آن چگونه خواهد بود.

هفت پیش‌بینی عمده درباره‌ی دستیارهای صوتی در سال ۲۰۲۰

مکالمات ساده

هر دو شرکت آمازون و گوگل اعلام نموده‌اند که برای فعال‌سازی دستیارهای صوتی این دو شرکت دیگر نیازی به استفاده از کلمات «فعال سازی» نیست. پیش از این برای راه‌اندازی دستیارهای صوتی این دو شرکت می‌بایست از عبارات فعال‌سازی (Alexa یا Ok Google) استفاده می‌کردیم تا دستیار صوتی یک مکالمه جدید را آغاز کند. مثلاً کاربر در فرمان اول باید بپرسید “الکسا، دمای فعلی ترموستات ِ راهرو چقدر است؟” و سپس در فرمان دوم باید کلمه “الکسا” را قبل گفتن درخواستِ بعدی خود، مثلاً “دمای ترموستات راهرو را روی ۲۳ درجه تنظیم کن” به زبان بیاورد. اگر کاربر می‌توانست بگوید ” الکسا، دمای فعلی ترموستات ِ راهرو چقدر است؟” و سپس تنها بگویید “دمای ترموستات راهرو را روی ۲۳ درجه تنظیم کن” بدون اینکه نیاز باشد کلمه فعال‌سازی را دوباره تکرار کند، مکالمه خیلی راحت‌تر و طبیعی‌تر می‌شد. این امر اکنون امکان‌پذیر شده است.

کاربران در محیط‌های خاصی، معمولاً حین انجام چند کار به طور هم‌زمان، از دستیارهای صوتی استفاده می‌کنند و ممکن است در هنگام استفاده از این فناوری تنها یا در کنار دیگران باشند. در اختیار داشتن دستگاهی که بتواند عوامل زمینه‌ای و محیطی را تشخیص دهد، مکالمات را بسیار راحت‌تر کرده و بر کارایی ابزار مورد استفاده می‌افزاید و از طرفی حاکی از این است که برنامه‌نویسان چنین دستگاه‌هایی بیشتر به دنبال ایجاد تجربه موفق در کاربران هستند.

سازگاری و تلفیق

در مسابقه پیاده‌سازی فناوری صوتی در دیگر محصولات، آمازون حرف اول را می‌زند. افرادی که با Alexa کار کرده‌اند به خوبی می‌دانند که قبلاً محصولات بیشماری همانند یخچال هوشمندِ Family Hub سامسونگ به این دستیار هوشمند صوتی تجهیز شده‌اند. اکنون شرکت گوگل نیز به این فناوری دست یافته و Google Assistant Connect را به بازار عرضه کرده است. ایده اصلی توسعه چنین فناوری‌هایی عرضه دستگاه‌های سفارشی است که کاربردهای خاصی دارند و مجهز به دستیار صوتی هستند.

در سال ۲۰۲۰ شاهد علاقه بیشتر شرکت‌های الکترونیکی در توسعه دستگاه‌های مجهز به صوت خواهیم بود. این امر شامل دستگاه‌های سطح متوسط نیز می‎شود، یعنی دستگاه‌هایی که فعلاً مجهز به برخی قابلیت‌های صوتی هستند ولی هنوز تا بلندگوی صوتی تمام و کمال فاصله دارند. درعوض این دستگاه‌ها از طریق بلوتوث با بلند گوی هوشمند، صفحه نمایش یا حتی شاید با تلفن همراه شما در ارتباط خواهند بود به نحوی که پردازش در دستگاه میزبان انجام شود. آمازون در حال ساخت ساعت دیواری مجهز به سیستم Alexa است.

تغییر رفتارهای جست‌وجو

جست‌وجوی صوتی موضوعی جدید و به‌روز است. به طور قطع قابلیت رویت صوت Visibility of voice چالش‌های بسیاری به همراه خواهد داشت زیرا دستیارهای صوتی فاقد رابط بصری هستند. کاربران نمی‌توانند یک رابط صوتی را مشاهده یا لمس کنند مگر اینکه به Alexa یا دستیار صوتی گوگل متصل شوند. بدین ترتیب شاهد تحول عظیمی در رفتارهای جست‌وجو خواهیم بود. در واقع اگر گزارش شرکت تحقیقات فناوری ژوپیتر Juniper Research درست باشد، در سال ۲۰۲۰ درآمد آگهی مبتنی بر صوت، تا حد زیادی به دلیل رشد برنامه‌های جست‌وجوگر صوتی در گوشی های موبایل، به رقم ۱۹ میلیون دلار می رسد.

برند های تجاری در حال تغییر نقاط لمسی touchpoints به نقاط شنیداری هستند و اصلی‌ترین روش معرفی و شناساندن این برندها جست‌وجوی ارگانیک خواهد بود. طبق گزارش comScore تا سال ۲۰۲۰، پنجاه درصد تمام جستجوها از طریق فناوری های صوتی انجام خواهد شد.

با افزایش محبوبیت جستجوگرهای صوتی، آژانس های تبلیغاتی و بازاریابی اتنظار دارند گوگل و آمازون سامانه‌های خود را به اشکال مختلف پیام های صوتی پولی مجهز کنند.

تجربه‌های شخصی‌سازی شده

هم‌زمان با بهبود قابلیت تمایز اصوات، دستیارهای صوتی تجربه‌های شخصی‌سازی شده‌ی بیشتری ارائه خواهند نمود. صفحه اصلی گوگل قادر به پشتیبانی شش حساب کاربری و شناسایی صداهای منحصر به فرد است. این امر به کاربر این امکان را می‌دهد تا ویژگی‌های بسیاری را در گوگل شخصی‌سازی کند. مثلاً، کاربر می‌تواند بپرسد “امروز چه وقایعی در تقویم من ثبت شده است؟” یا “درباره امروز برایم بگو” و دستیارصوتی شخصی‌سازی شده برنامه رفت و آمدها، آب‌وهوا، و اخبار مورد علاقه‌ی کاربر را با صدای بلند می‌خواند. این اطلاعات شخصی شامل مواردی چون نام مستعار، موقعیت محل کار، اطلاعات پرداختی و اتصال به حساب‌های کاربری مثل Google Play، Spotify و Netflix نیز می‌شود.. به همین نحو کاربران Alexa تنها با گفتنِ “learn my voice” این امکان را دارند تا پروفایل‌های صوتی جداگانه ایجاد کنند که به موجب آن دستیار صوتی، کاربر را از طریق صدا شناسایی و تجربه شخصی سازی شده بیشتری برای وی ایجاد کند.

اعلان‌های صوتی Voice Push Notifications

باید بگوییم که اعلان‌های کاربر-محور ابزاری هستند که کاربران به نصب و استفاده‌ی مجدداً از یک اپلیکیشن ترغیب می‌کنند. فناوری‌های صوتی روش منحصر به فردی برای توزیع اعلان‌ها فراهم می‌آورند. اعلان‌ها، استفاده از اپلیکیشن را به کاربران یادآوری می‌کنند و بدین وسیله میزان درگیری و تعهد کاربر به برنامه را افزایش می‌دهند و پیام های مرتبط را به آن‌ها نمایش می‌دهند. درحال حاضر هم دستیار صوتی گوگل و هم Alexa امکان فعال‌سازی اعلان‌های صوتی در برنامه‌های کاربردی شرکت‌های دسته سوم Third party apps را برای کاربران فراهم کرده‌اند و کاربران می توانند بجای خواندن اعلان ها، آنها را بشنوند. این اعلان‌ها اغلب مربوط به قرارهای ثبت شده در تقویم یا محتوای جدیدِ قابلیت‌های اصلی دستگاه است.

تعامل لمسی

در نمایشگاه فناوری و محصولات الکترونیکی مصرفی CES (Consumer Electronics Show) ۲۰۱۹ شاهد بویدم که نمایشگرهای صوتی و تصویری به خوبی باهم تلفیق شده‌اند. امسال گوگل نمایشگری به نام E Ink screen را عرضه کرد. این نمایشگر می تواند آب و هوا، اطلاعات ترافیکی محلی، یا وقایع تقویم را نمایش دهد. استفاده همزمان از قابلیت‌های صوتی و تصویری این امکان را به کاربران می‌دهد تا با دستیار هوشمند تعامل بیشتری داشته باشند.

امنیت و حریم خصوصی

طبق گزارش مایکروسافت، چهل و یک درصد کاربرانِ دستیارهای صوتی نگران مسائل امنیتی و حفظ حریم خصوصی خود هستند. با توجه به اخبار رسیده از کنفرانس‌های Google I/O و re:MARS آمازون، مبنی بر اینکه دستیارهای صوتی می‌توانند برنامه روزانه کاربر را تنظیم کنند_ مثلاً زمان سکانس فیلم ها را پیدا کنند، در یک رستوران میز رزرو کنند و برای کاربر تاکسی بگیرند_ نگرانی‌های کاربران راجع به دسترسی دستیارهای صوتی به اطلاعات پرداختی و اطلاعاتِ حساس کاملاً بجا است. لذا، شرکت‌ها درصدد افزایش راحتی و امنیت پرداخت‌های صوتیِ کاربران به هنگام خرید خواهند بود. احرازهویت و تاییدِ صوتِ کاربر نیز در صدرِ اولویت های یک دستیار صوتی قرار خواهد گرفت زیرا بخشی از تجربه موفق کاربر در کارکردن با دستیار صوتی است که ایمن است و امنیت و حریم خصوصی او را در نظر می‌گیرد.

لزوم بکارگیری راهبرد صوتی در گوشی‌های همراه

در حال حاضر تلفن‌های همراه شخصی‌سازی شده‌اند و شاید بتوان گفت سطح شخصی‌سازی آن‌ها نسبت به وب‌سایت‌ها بسیار بیشتر است. به‌علاوه، به دلیل کوچک بودن صفحه نمایش تلفن‌های همراه جست‌وجو یا مسیریابی در آن‌ها برای کاربران دشوار است. با توجه به در دسترس بودن کتابچه‌های معرفی محصولات و اطلاعات بیشتر، نرم‌افزارهای صوتی به کاربر این امکان را می‌دهد تا به طور طبیعی با اپلیکیشن صحبت کند و این امر نیاز به کنترل دستی تلفن‌ همراه را کم کند یا به صفر می‌رساند و در نهایت منجر می‌شود اپلیکیشن وظیفه محوله را سریع تر انجام دهد.

شرکت رسانه‌ای راجرز قابلیت اجرای فرمان‌های صوتی را در کنترل از راه دور خود تعبیه نموده است. این قابلیت به کاربر این امکان را می‌دهد تا به سرعت برنامه مورد علاقه یا جدیدترین فیلم را تنها با بیان کلمات کلیدی مشخصی، مثل نام هنرپیشه، جست‌وجو و پیدا کند. برندهای تلفن‌های همراه باید به فکر ایجاد تجربه‌های بهتری برای کاربران خود باشند امری که به واسطه فناوری صوتی امکان‌پذیر است. کاربران به دنبال روش‌های موثر و سریع هستند و صوت مناسب‌ترین بستر این خواسته است.

فارغ از نوع فعالیتی که کاربر قصد انجام آن را دارد خواه پیدا کردن اطلاعات باشد خواه خرید یا انجام وظایف محوله، استفاده از صوت برای کاربران گوشی همراه تجربه جدیدی به همراه دارد. کاملاً واضح است که برندها برای معرفی راهبرد صوتی خود با هم در حال رقابت هستند. دستگاه‌های مجهز به Alexa به تنهایی بیش از ۱۰۰ میلیون فروش داشته‌اند، پس می‌توان درک کرد چرا شرکت‌ها به دنبال رسیدن به فناوری صوتی هستند.

توسعه بی‌وقفه رابط کاربری صوتی (VUI)

همین سناریوی کوتاه و ساده نشان می دهد چرا دستیارهای صوتی در حال بهبود و پیشرفت هستند تا روزی رابط و هابِ خانه‌های آنلاین و حتی فراتر از آن رابط و هابِ زندگی آنلاین ما شوند.

برنامه‌نویس‌ها بیش از پیش به فناوری صوتی دسترسی دارند. به عنوان مثال، شرکت آمازون نرم افزار Transcribe را به بازار معرفی نموده است. Transcribe یک نرم افزار بازشناسی گفتار خودکار Automatic speech recognition (ASR) service است که به برنامه نویس این امکان را می دهد تا قابلیت تبدیل گفتار-به-متن را به اپلیکیشن اضافه کنند. به محض اضافه نمودن قابلیت صوتی به یک اپلیکیشن، کاربران می توانند فایل‌های صوتی را تحلیل و در قبال آن یک فایل متنی از گفتارِ رو نوشت شده دریافت کنند.

گوگل با معرفی کیت نرم افزاری Actions در راستای دسترسی همگانی به دستیارهای صوتی اقدام نموده‌‌است. Actions به برنامه‌نویس‌ها این امکان را می دهد تا صوت را در محصولاتی که از هوش مصنوعی پشتیبانی می کند تعبیه نمایند. یکی دیگر از محصولات بازشناسی گفتارِ گوگل ابزارمجهز به هوش مصنوعیِ Cloud Speech-to-Text است. این محصول به برنامه‌نویس این امکان را می‌دهد تا از طریق الگوریتم‌های یادگیری عمیق شبکه عصبی، فایل های صوتی را به متن تبدیل کند.

فناوری صوتی هنوز در ابتدای راه است و در آینده شاهد پیشرفت عمده‌ی این فناوری خواهیم بود. با توجه به پیشرفت رابط‌های کاربری صوتی، لازم است شرکت‌ها به بهترین نحو این فناوری صوتی را به منظور برقرای تعامل بهتر با کاربران خود بکار گیرند. از آنجایی که همیشه بکارگیری یک قابلیت از جانب همه برندها بهترین راه حل نیست، بهتر است شرکت‌ها ابتدا میزان ارزش‌آفرینی فناوری صوتی را برای خود ارزیابی کنند. استفاده از این فناوری چه کمکی می‌تواند به مشتریان شما بکند؟ چگونه می‌توان با استفاده از این فناوری نقاط ضعف اپلیکشین‌ها را برطرف نمود؟ آیا استفاده از این فناوری موجب بهبود تجربه کاربران می‌شود و یا در کارهای آن‌ها خلل ایجاد می‌کند؟

در سال ۲۰۲۰ اپلیکیشن های مجهز به دستیار صوتی نه تنها به درستی گفته های ما را می فهمند بلکه طرز بیان آنها و بافت درخواست را نیز درک می کنند.

با این وجود، هنوز موانعی برسر راه فناوری صوتی است که باید قبل از استفاده عموم بر طرف شوند. پیشرفتهای فناوری منجر به ایجادِ قابلیت‌های بهتر دستیارهای صوتی به ویژه درهوش مصنوعی، پردازش زبان طبیعی natural language processing (NLP)، و یادگیری ماشین شده است. به منظور ایجاد تجربه‌ای بهتر و پایدار در بازشناسی گفتار، باید هوش مصنوعی زیربنایی آن در کنترل چالش‌هایی همچون لهجه یا صدای پس زمینه بهتر عمل کند. علاوه بر این، به دلیل اینکه کاربران به دنبال راحتی بیشتر هستند و به طور فزاینده‌ای به برای صحبت نمودن با تلفن همراه، اتومبیل، لوازم خانگی هوشمند خود و غیره به فناوری صوتی وابسته می‌شوند، این فناوری رابط اصلی ما با دنیای دیجیتال خواهد شد و در نتیجه نیاز به دانش تخصصی جهت طراحی رابط‌های صوتی و توسعه اپلیکیشن‌های صوتی بیشتر و بیشتر می شود.

آینده تعاملات برندها و تجربیات مشتریان با فناوری صوتی تعریف می شود

پیشرفت‌هایی که در حال حاضر در تعدادی از صنایع حاصل شده است به دستیارهای صوتی دیجیتالی کمک می کند تا پیچیده و پیشرفته تر شوند و در انجام کارهای روزمره بهتر عمل کنند. فناوری صوتی هم‌اکنون اصلی‌ترین نقش را در کسب تجربه موفق در استفاده از تلفن‌ همراه ایفا می‌کند. فقدان دانش و مهارت، بکارگیری راهبردی صوتی را برای شرکت ها دشوار می سازد. فرصت های زیادی برای ایجاد تجربه های بسیار عمیق تر و محاوره ای تر در تعامل با کاربران وجود دارد. سوال مهم این است که آیا برند مورد علاقه شما حاضر است از این فرصتها استفاده نماید؟