فناوری هوش مصنوعی محاوره و صوتی پیشرفته‌تر از حد تصور است

تیم تحریریه
۷ مهر ۱۴۰۰

زمان مطالعه: 5 دقیقه

سیستم‌هایی که در امور تکراری به‌ کار گرفته می‌شوند، برای چندین نسل متمادی حامی اقتصاد جهانی بوده‌اند. اما سیستم‌های سخنگو و تعاملی مبتنی بر هوش مصنوعی محاوره و صوتی، کاملاً جدید هستند. همیشه تصور می‌شد دستیابی به سیستم‌های سخنگو غیرممکن باشد زیرا توانایی صحبت کردن انسان بسیار پیچیده است. افرادی که به طور مرتب از الکسا یا سیری استفاده می‌کنند، به خوبی به نقص این ابزارها در درک پیام‌های صوتی وافقف هستند. اگرچه، هنوز نسل جدید ابزارهای هوش مصنوعی صوتی مورد استفاده عامه مردم قرار نگرفته است، ولی با توجه با قابلیت‌های آن، این احتمال وجود که به زودی جهان را دگرگون کنند.

در ادامه سه فناوری خلاقانه‌ای را معرفی می‌کنیم که سرعت پیشرفت فناوری‌های صوتی را افزایش داده‌اند.

فهرست مقاله پنهان

1 به‌کارگیری هوش مصنوعی سخنگو برای ثبت سفارش

2 فضای ابری محاوره‌ای‌ برای ماشین‌های هوشمند

3 اتوماسیون پردازش‌داده‌

به‌کارگیری هوش مصنوعی سخنگو برای ثبت سفارش

متخصصان هوش مصنوعی صوتی دستیابی به فناوری‌هایی را اولویت کارِ خود قرار داده‌اند که می‌توانند با انجام وظایف پیش‌پا افتاده، فرصت کافی در اختیار انسان قرار دهند تا به کارهای خلاقانه و تأثیرگذار بپردازد. این متخصصان خیلی زود متوجه شدند که نرم‌افزار خدمات سواره (Drive through Ordering)، یکی از حوزه‌هایی است که هوش مصنوعی محاوره‌ای می‌تواند تاثیر مثبتی روی آن بگذارد؛ و ظاهراً یک شرکت توانسته است قفل آن را باز کند.

اگرچه ساخت سیستم هوش مصنوعی محاوره‌ای با قابلیت ارائه خدمات سواره، ساده به نظر می‌رسد (بارگذاری منو، استفاده از چت‌بات، و تمام)، اما راهکار اصلی به این سادگی نیست. در واقع، ساخت سیستمی ‌که از یک طرف بتواند در فضای پُرسروصدای بیرون کار کند و از طرف دیگر لهجه‌های مختلف، جنسیت و سن را به خوبی بفهمد، بسیار چالش‌برانگیز است.

هم‌بنیانگذاران های اُتو، روی باهارو و ایال شَپیرا، هر دو در زمینه هوش مصنوعی سر‌رشته دارند؛ باهارو متخصص سیستم‌های پیچیده‌ی گوگل است و شپیرا در پردازش زبان طبیعی و چت‌بات‌ها تخصص دارد.

باهارو از دشواری‌های ساخت چنین سیستم‌هایی سخن می‌گوید: «به طور کلی مدیریت گفتار حتی برای انسان نیز دشوار است. شاید دستیار صوتی گوشی همراه به خوبی حرف شما را بفهمد، اما، این مسئله با فهمیدن گفتار در محیط بیرون کاملاً متفاوت است. هنگام ثبت سفارش از طریق خدمات سواره، مردم الگوهای گفتاری منحصربه‌فردی از خود نشان می‌دهند. آن‌ها قدرت تصمیم‌گیری ندارند، و مکرراً تصمیم خود را عوض می‌کنند».

خدمات سواره به مفهومی اشاره دارد که باهارو و شَپیرا آن را «مکالمه چند نوبتی» می‌نامند، منظور آن‌ها همان رد و بدل سخن است که انسان به راحتی انجام می‌دهد. پس از سال‌ها تمرین، آموزشِ مدل و اصلاح و بهسازی، شرکت های اُتو (Hi Auto) به تازگی نرم‌افزار محاوره‌ای خود را برای ارائه خدمات سواره در سرتاسر کشور نصب کرده است. دقت این نرم افزار برای ثبت سفارشات 90% است.

شپیرا پیش‌بینی می‌کند تا سه سال آینده احتمالاً 40 هزار رستوران از هوش مصنوعی محاوره‌ای استفاده کنند و این راهکار فراگیر ‌شود.

از نظر جو جِنسِن، معاون شرکت اینتل، هوش مصنوعی می‌تواند دو مشکل اصلی ثبت سفارش در فست‌فودها را برطرف کند. او معتقد است: «ثبت سفارش درست، از یک طرف به طور مستقیم با رضایت مشتری در ارتباط است و از طرف دیگر، فشار کاری کارکنان را کم می‌کند».

[irp posts=”20456″]

فضای ابری محاوره‌ای‌ برای ماشین‌های هوشمند

دومین نوآوری بزرگ در دنیای هوش مصنوعی محاوره‌ای، استفاده از تکنیکی است که زبان انسان را به ورودی تبدیل می‌کند.

دویانک تامر، مدیرعامل Whitehead AI، در سخنان خود به چالش‌های تاریخی هوش مصنوعی محاوره‌ای اشاره کرده است: «مشخص شد زمانی که حرف می‌زنیم یا چیزی می‌نویسیم یا در کل پیامی ‌را به زبانی انسانی منتقل می‌کنیم، به شدت به اطلاعات قبلی متکی هستیم. این اطلاعات تنها به حقایق کلی در مورد جهان ختم نمی‌شوند و مواردی مانند احساس گوینده در آن لحظه یا موارد ابهام‌آمیز نیز دخیل هستند».

«انسان به راحتی می‌تواند از این اطلاعات استفاده کند، اما استفاده از آن‌ها برای هوش مصنوعی بسیار مشکل است. به همین دلیل هوش مصنوعی لطیفه‌ها را نمی‌فهمد. این مسائل مضحک یا صرفاً نامحتمل هستند، اما به گونه‌ای بیان می‌شوند که غیر از این به نظر برسند. لطیفه‌ها برای انسان کاملاً واضح هستند، اما برای هوش مصنوعی، چندان مشخص نیستند، زیرا هوش مصنوعی مسائل را به معنای واقعی کلمه تفسیر می‌کند».

بنابراین، چگونه سیستمی که در تفسیرِ نکات ظریف، احساسات، یا در استنباط کردن ناتوان است، به خوبی با انسان ارتباط برقرار می‌کند؟ رمز موفقیت سیستم در شناخت بافت است، درست همانند یک گوینده غیر بومی که در ابتدای راهِ یادگیری زبان است.

هوش مصنوعی مبتنی بر بافت به ساخت مدل‌هایی اطلاق می‌شود که می‌توانند از اطلاعات اضافی استفاده کنند، اطلاعاتی فراتر از هویتِ گوینده یا سایر حقایق. چت‌بات‌ها فاقد هوش مصنوعی مبتنی بر بافت هستند و اگر این قابلیت به آن‌ها اضافه شود، نتایج سودمندی به همراه خواهد داشت. برای مثال، اگر یک چت‌بات بتواند اطلاعات مربوط به مشخصات کاربر، تعاملات قبلی و سایر نقطه‌داده‌‌ها را جمع‌آوری کند، می‌تواند پاسخ‌هایی هوشمندانه به کاربر بدهد.

تامر این‌چنین توضیح می‌دهد: «به دنبال ایجاد زیرساختی مناسب برای استفاده ماهرانه از زبان طبیعی هستیم. یکی از فناوری‌های جدید ما رابط کاربری گپ دوستانه (chit chat API) نام دارد. اغلب، زمانی که دستیار صوتی، مثلاا الکسا، حرف کاربر را نمی‌فهمد، در پاسخ می‌گویید ’متاسفم، نفهمیدم‘. اما با این فناوری جدید، چت‌بات می‌تواند حرف کاربر را شوخی در نظر بگیرد یا پاسخی شوخ‌طبعانه به او بدهد».

تامر نسبت به آینده این فناوری بسیار خوش‌بین است. او می‌گوید: «فهمیدن مکالمه [نشانه] قدرت است. تصور کنید که با رایانه‌ مکالمه می‌کنید: برای مثال، اگر در آسانسور گیر افتاده باشید، می‌توانید فریاد بزنید تا سیستم با خدمات اضطراری تماس ‌گیرد. حواس ما از این طریق به فناوری منتقل می‌شوند».

[irp posts=”21205″]

اتوماسیون پردازش‌داده‌

یکی از انواع داده‌های ساختارنیافته، صوت است. پس از جمع‌‌آوری، ارزیابی و تفسیر صوت، می‌توان از الگوها و روندهای نهایی برای تصمیم‌گیری‌های راهبردی یا ارائه بازخوردهای ارزشمند استفاده کرد.

شرکت super.AI از هوش مصنوعی برای خودکاری‌سازی پردازش داده‌های ساختارنیافته استفاده می‌کند. می‌توان از اتوماسیون پردازش داده یا DPA برای خودکارسازی کارهای تکراری استفاده کرد، کارهایی که با داده‌های ساختارنیافته، از جمله فایل‌های صوتی و تصویری سروکار دارند.

برای مثال، در یک شرکت آموزشی بزرگ، کودکان از طریق یک وب‌سایت، مهارت خواندن را آموزش می‌بینند (آن‌ها جملات را با صدای بلند برای وب‌سایت می‌خوانند). super.AI با استفاده از نرم‌افزار اتوماسیون پردازش، تعداد اشتباهات کودک را شناسایی می‌کند. این نرم‌افزار در مقایسه با انسان دقت و سرعت بیشتری در شناسایی خطاها دارد و در نتیجه بازخوردهای سازنده‌تری ارائه می‌کند.

همچنین می‌توان به یک مثال دیگر در مورد اطلاعات شخصی (PI) اشاره کرد. حفظ اطلاعات شخصی از بزرگترین دغدغه‌های امروز در خصوص نقض حریم خصوصی است، به ویژه زمانی که صحبت از هوش مصنوعی به میان می‌آید. super.AI یک سیستم حذف اطلاعات از صوت نیز دارد که به موجب آن کاربر می‌تواند اطلاعات شخصی، از جمله نام، آدرس و شماره تامین اجتماعی، را از صدا حذف کند. در پیروی از مقررات عمومی حفاظت از داده اتحادیه اروپا (GDPR) یا قانون حفظ حریم خصوصی مصرف‌کننده در کالیفرنیا (CCPA)، حذف مطالب مشمول قانون کپی‌رایت از بخش‌های صوتی یا تصویری در این نرم‌افزار امکان‌پذیر شده است.

در ارزش ویژگی‌های حمایتی super.AI تردیدی نیست، اما در شرایطی که افراد همه کارهای خود را، از جمله تضمین کیفیت محصولات فهرست شده در یک وب‌سایت و یادداشت‌برداری در جلسات، با فناوری انجام می‌دهند، این سوال مطرح می‌شود که: آیا روند جایگزینی انسان با فناوری به سرعت پیش نمی‌رود؟

احتمالاً برَد کوردوا، موسس super.AI، مخالف این نظریه است زیرا او معتقد است: «انسان و ماشین متعامد هستند. بهترین شطرنج‌باز‌ها نه ماشین‌ها هستند و نه انسان، بلکه مجموعه‌ای از هر دو هستند که در کنار هم کار می‌کنند. ما بصورت ضمنی می‌دانیم که به چه دلیلی روی این کره خاکی قرار گرفته‌ایم. زمانی که با مردم حرف می‌زنیم، با آن‌ها مهربان هستیم و کارهای خلاقانه انجام می‌دهیم، احساس خوبی داریم».

کوردوا در ادامه در خصوص هوش مصنوعی صوتی می‌گوید: «هنوز هم وظایفی زیادی وجود دارند که برای انجام آن‌ها مهارت نداریم؛ وظایفی که برای انسان ساخته نشده‌اند. می‌خواهیم انسان‌ها انسانی‌تر رفتار کنند. مسئله این نیست که ماشین‌ها انسان را از کار بیکار خواهند کرد. داستان از این قرار است که باید بستر مناسبی برای انسان فراهم شود تا مهارت‌های خود را به نمایش بگذارد؛ به ویژه در کارهایی که ماشین‌ها از انجام‌شان عاجز هستند».

هوش مصنوعی صوتی قلمرو بی‌نظیری دارد و اگر با همین سرعت به رشد خود ادامه دهد، ناگزیر بازارها را متحول خواهد کرد. نرخ پذیرش این نوع فناوری ممکن است بیشتر صنایع را تغییر دهد. هرچه هوش مصنوعی بیشتری در صنایع گنجانده شود، انسان‌های بیشتری می‌توانند از آن بهره‌مند شوند. کوردوا به طور خلاصه بیان می‌کند: «شاید هوش مصنوعی آخرین فناوری‌ ساخته انسان باشد». هوش مصنوعی صوتی قادر است نقش‌های جدیدی در جامعه بر عهده گیرد و به انسان‌ها فرصت دهد انسانی‌تر رفتار کنند. و این بهترین پیامد ممکن خواهد بود.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید