فناوری هوش مصنوعی محاوره و صوتی پیشرفتهتر از حد تصور است
سیستمهایی که در امور تکراری به کار گرفته میشوند، برای چندین نسل متمادی حامی اقتصاد جهانی بودهاند. اما سیستمهای سخنگو و تعاملی مبتنی بر هوش مصنوعی محاوره و صوتی، کاملاً جدید هستند. همیشه تصور میشد دستیابی به سیستمهای سخنگو غیرممکن باشد زیرا توانایی صحبت کردن انسان بسیار پیچیده است. افرادی که به طور مرتب از الکسا یا سیری استفاده میکنند، به خوبی به نقص این ابزارها در درک پیامهای صوتی وافقف هستند. اگرچه، هنوز نسل جدید ابزارهای هوش مصنوعی صوتی مورد استفاده عامه مردم قرار نگرفته است، ولی با توجه با قابلیتهای آن، این احتمال وجود که به زودی جهان را دگرگون کنند.
در ادامه سه فناوری خلاقانهای را معرفی میکنیم که سرعت پیشرفت فناوریهای صوتی را افزایش دادهاند.
بهکارگیری هوش مصنوعی سخنگو برای ثبت سفارش
متخصصان هوش مصنوعی صوتی دستیابی به فناوریهایی را اولویت کارِ خود قرار دادهاند که میتوانند با انجام وظایف پیشپا افتاده، فرصت کافی در اختیار انسان قرار دهند تا به کارهای خلاقانه و تأثیرگذار بپردازد. این متخصصان خیلی زود متوجه شدند که نرمافزار خدمات سواره (Drive through Ordering)، یکی از حوزههایی است که هوش مصنوعی محاورهای میتواند تاثیر مثبتی روی آن بگذارد؛ و ظاهراً یک شرکت توانسته است قفل آن را باز کند.
اگرچه ساخت سیستم هوش مصنوعی محاورهای با قابلیت ارائه خدمات سواره، ساده به نظر میرسد (بارگذاری منو، استفاده از چتبات، و تمام)، اما راهکار اصلی به این سادگی نیست. در واقع، ساخت سیستمی که از یک طرف بتواند در فضای پُرسروصدای بیرون کار کند و از طرف دیگر لهجههای مختلف، جنسیت و سن را به خوبی بفهمد، بسیار چالشبرانگیز است.
همبنیانگذاران های اُتو، روی باهارو و ایال شَپیرا، هر دو در زمینه هوش مصنوعی سررشته دارند؛ باهارو متخصص سیستمهای پیچیدهی گوگل است و شپیرا در پردازش زبان طبیعی و چتباتها تخصص دارد.
باهارو از دشواریهای ساخت چنین سیستمهایی سخن میگوید: «به طور کلی مدیریت گفتار حتی برای انسان نیز دشوار است. شاید دستیار صوتی گوشی همراه به خوبی حرف شما را بفهمد، اما، این مسئله با فهمیدن گفتار در محیط بیرون کاملاً متفاوت است. هنگام ثبت سفارش از طریق خدمات سواره، مردم الگوهای گفتاری منحصربهفردی از خود نشان میدهند. آنها قدرت تصمیمگیری ندارند، و مکرراً تصمیم خود را عوض میکنند».
خدمات سواره به مفهومی اشاره دارد که باهارو و شَپیرا آن را «مکالمه چند نوبتی» مینامند، منظور آنها همان رد و بدل سخن است که انسان به راحتی انجام میدهد. پس از سالها تمرین، آموزشِ مدل و اصلاح و بهسازی، شرکت های اُتو (Hi Auto) به تازگی نرمافزار محاورهای خود را برای ارائه خدمات سواره در سرتاسر کشور نصب کرده است. دقت این نرم افزار برای ثبت سفارشات 90% است.
شپیرا پیشبینی میکند تا سه سال آینده احتمالاً 40 هزار رستوران از هوش مصنوعی محاورهای استفاده کنند و این راهکار فراگیر شود.
از نظر جو جِنسِن، معاون شرکت اینتل، هوش مصنوعی میتواند دو مشکل اصلی ثبت سفارش در فستفودها را برطرف کند. او معتقد است: «ثبت سفارش درست، از یک طرف به طور مستقیم با رضایت مشتری در ارتباط است و از طرف دیگر، فشار کاری کارکنان را کم میکند».
[irp posts=”20456″]فضای ابری محاورهای برای ماشینهای هوشمند
دومین نوآوری بزرگ در دنیای هوش مصنوعی محاورهای، استفاده از تکنیکی است که زبان انسان را به ورودی تبدیل میکند.
دویانک تامر، مدیرعامل Whitehead AI، در سخنان خود به چالشهای تاریخی هوش مصنوعی محاورهای اشاره کرده است: «مشخص شد زمانی که حرف میزنیم یا چیزی مینویسیم یا در کل پیامی را به زبانی انسانی منتقل میکنیم، به شدت به اطلاعات قبلی متکی هستیم. این اطلاعات تنها به حقایق کلی در مورد جهان ختم نمیشوند و مواردی مانند احساس گوینده در آن لحظه یا موارد ابهامآمیز نیز دخیل هستند».
«انسان به راحتی میتواند از این اطلاعات استفاده کند، اما استفاده از آنها برای هوش مصنوعی بسیار مشکل است. به همین دلیل هوش مصنوعی لطیفهها را نمیفهمد. این مسائل مضحک یا صرفاً نامحتمل هستند، اما به گونهای بیان میشوند که غیر از این به نظر برسند. لطیفهها برای انسان کاملاً واضح هستند، اما برای هوش مصنوعی، چندان مشخص نیستند، زیرا هوش مصنوعی مسائل را به معنای واقعی کلمه تفسیر میکند».
بنابراین، چگونه سیستمی که در تفسیرِ نکات ظریف، احساسات، یا در استنباط کردن ناتوان است، به خوبی با انسان ارتباط برقرار میکند؟ رمز موفقیت سیستم در شناخت بافت است، درست همانند یک گوینده غیر بومی که در ابتدای راهِ یادگیری زبان است.
هوش مصنوعی مبتنی بر بافت به ساخت مدلهایی اطلاق میشود که میتوانند از اطلاعات اضافی استفاده کنند، اطلاعاتی فراتر از هویتِ گوینده یا سایر حقایق. چتباتها فاقد هوش مصنوعی مبتنی بر بافت هستند و اگر این قابلیت به آنها اضافه شود، نتایج سودمندی به همراه خواهد داشت. برای مثال، اگر یک چتبات بتواند اطلاعات مربوط به مشخصات کاربر، تعاملات قبلی و سایر نقطهدادهها را جمعآوری کند، میتواند پاسخهایی هوشمندانه به کاربر بدهد.
تامر اینچنین توضیح میدهد: «به دنبال ایجاد زیرساختی مناسب برای استفاده ماهرانه از زبان طبیعی هستیم. یکی از فناوریهای جدید ما رابط کاربری گپ دوستانه (chit chat API) نام دارد. اغلب، زمانی که دستیار صوتی، مثلاا الکسا، حرف کاربر را نمیفهمد، در پاسخ میگویید ’متاسفم، نفهمیدم‘. اما با این فناوری جدید، چتبات میتواند حرف کاربر را شوخی در نظر بگیرد یا پاسخی شوخطبعانه به او بدهد».
تامر نسبت به آینده این فناوری بسیار خوشبین است. او میگوید: «فهمیدن مکالمه [نشانه] قدرت است. تصور کنید که با رایانه مکالمه میکنید: برای مثال، اگر در آسانسور گیر افتاده باشید، میتوانید فریاد بزنید تا سیستم با خدمات اضطراری تماس گیرد. حواس ما از این طریق به فناوری منتقل میشوند».
[irp posts=”21205″]اتوماسیون پردازشداده
یکی از انواع دادههای ساختارنیافته، صوت است. پس از جمعآوری، ارزیابی و تفسیر صوت، میتوان از الگوها و روندهای نهایی برای تصمیمگیریهای راهبردی یا ارائه بازخوردهای ارزشمند استفاده کرد.
شرکت super.AI از هوش مصنوعی برای خودکاریسازی پردازش دادههای ساختارنیافته استفاده میکند. میتوان از اتوماسیون پردازش داده یا DPA برای خودکارسازی کارهای تکراری استفاده کرد، کارهایی که با دادههای ساختارنیافته، از جمله فایلهای صوتی و تصویری سروکار دارند.
برای مثال، در یک شرکت آموزشی بزرگ، کودکان از طریق یک وبسایت، مهارت خواندن را آموزش میبینند (آنها جملات را با صدای بلند برای وبسایت میخوانند). super.AI با استفاده از نرمافزار اتوماسیون پردازش، تعداد اشتباهات کودک را شناسایی میکند. این نرمافزار در مقایسه با انسان دقت و سرعت بیشتری در شناسایی خطاها دارد و در نتیجه بازخوردهای سازندهتری ارائه میکند.
همچنین میتوان به یک مثال دیگر در مورد اطلاعات شخصی (PI) اشاره کرد. حفظ اطلاعات شخصی از بزرگترین دغدغههای امروز در خصوص نقض حریم خصوصی است، به ویژه زمانی که صحبت از هوش مصنوعی به میان میآید. super.AI یک سیستم حذف اطلاعات از صوت نیز دارد که به موجب آن کاربر میتواند اطلاعات شخصی، از جمله نام، آدرس و شماره تامین اجتماعی، را از صدا حذف کند. در پیروی از مقررات عمومی حفاظت از داده اتحادیه اروپا (GDPR) یا قانون حفظ حریم خصوصی مصرفکننده در کالیفرنیا (CCPA)، حذف مطالب مشمول قانون کپیرایت از بخشهای صوتی یا تصویری در این نرمافزار امکانپذیر شده است.
در ارزش ویژگیهای حمایتی super.AI تردیدی نیست، اما در شرایطی که افراد همه کارهای خود را، از جمله تضمین کیفیت محصولات فهرست شده در یک وبسایت و یادداشتبرداری در جلسات، با فناوری انجام میدهند، این سوال مطرح میشود که: آیا روند جایگزینی انسان با فناوری به سرعت پیش نمیرود؟
احتمالاً برَد کوردوا، موسس super.AI، مخالف این نظریه است زیرا او معتقد است: «انسان و ماشین متعامد هستند. بهترین شطرنجبازها نه ماشینها هستند و نه انسان، بلکه مجموعهای از هر دو هستند که در کنار هم کار میکنند. ما بصورت ضمنی میدانیم که به چه دلیلی روی این کره خاکی قرار گرفتهایم. زمانی که با مردم حرف میزنیم، با آنها مهربان هستیم و کارهای خلاقانه انجام میدهیم، احساس خوبی داریم».
کوردوا در ادامه در خصوص هوش مصنوعی صوتی میگوید: «هنوز هم وظایفی زیادی وجود دارند که برای انجام آنها مهارت نداریم؛ وظایفی که برای انسان ساخته نشدهاند. میخواهیم انسانها انسانیتر رفتار کنند. مسئله این نیست که ماشینها انسان را از کار بیکار خواهند کرد. داستان از این قرار است که باید بستر مناسبی برای انسان فراهم شود تا مهارتهای خود را به نمایش بگذارد؛ به ویژه در کارهایی که ماشینها از انجامشان عاجز هستند».
هوش مصنوعی صوتی قلمرو بینظیری دارد و اگر با همین سرعت به رشد خود ادامه دهد، ناگزیر بازارها را متحول خواهد کرد. نرخ پذیرش این نوع فناوری ممکن است بیشتر صنایع را تغییر دهد. هرچه هوش مصنوعی بیشتری در صنایع گنجانده شود، انسانهای بیشتری میتوانند از آن بهرهمند شوند. کوردوا به طور خلاصه بیان میکند: «شاید هوش مصنوعی آخرین فناوری ساخته انسان باشد». هوش مصنوعی صوتی قادر است نقشهای جدیدی در جامعه بر عهده گیرد و به انسانها فرصت دهد انسانیتر رفتار کنند. و این بهترین پیامد ممکن خواهد بود.
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید