سریع ترین دستیار صوتی مبتنی بر هوش مصنوعی

تیم تحریریه
۱۰ مرداد ۱۴۰۱

زمان مطالعه: 6 دقیقه

پیر سدربرگ، پژوهشگر دانشگاه ویرجینیا، پیشنهاد می‌کند آزمایشی ساده را برای شناخت سریع ترین دستیار صوتی در خانه امتحان کنید. با استفاده از یک دستیار صوتی مثل موتور جست‌وجوی گوگل، کلمه‌ «octopus» را به آهستگی به گوشی هوشمندتان بگویید. همان‌طور که می‌بینید، گوشی به‌سختی می‌تواند این کلمه را به شما برگرداند؛ یا کلمه‌ای کاملاً بی‌ربط تحویل‌تان می‌دهد و یا کلمه‌ای مشابه اما، بی‌معنی به زبان می‌آورد.

به گفته‌ سدربرگ، وقتی نوبت به دریافت سیگنال‌های شنیداری می‌رسد، علی‌رغم تمام توان محاسباتی که گوگل، دیپمایند و IBM و مایکروسافت به این مسئله اختصاص داده‌اند، سیستم‌های فعلی هوش مصنوعی همچنان در این قابلیت مشکل دارند. در این موارد، خروجی سیستم‌ها گاهی خنده‌دار و گاهی ناامیدکننده است؛ اما برای کسانی که مشکل تکلم دارند، می‌تواند جدی‌تر و ناراحت‌کننده‌تر باشد.

پژوهشگران دانشگاه ویرجینیا، با تکیه بر کشفیات حوزه‌ نوروساینس، شبکه‌های عصبی هوش مصنوعی موجود را به فناوری‌ تبدیل کرده‌اند که فارغ از سرعت بیان، حرف‌ها را می‌شنود. این ابزار یادگیری عمیق که SITHCon نام دارد، با تعمیم ورودی، کلماتی را که با سرعتی متفاوت از داده‌های آموزشی تلفظ می‌شوند، درک می‌کند و این شاید تا به حال سریع ترین دستیار صوتی باشد.

این قابلیت جدید تأثیری بر تجربه‌ نهایی کاربر ندارد؛ اما پتانسیل این را دارد که نحوه «تفکر» شبکه‌های عصبی هوش مصنوعی را تغییر دهد، تا اطلاعات را به صورت کارآمدتر پردازش کنند. این دستاورد است که می‌تواند صنعت را متحول کند، صنعتی که به دنبال ارتقای قابلیت پردازش و به حداقل رساندن حافظه‌ موردنیاز و کاهش تولیدات کربن ناشی از هوش مصنوعی است.

سدربرگ، استاد روان‌شناسی دانشگاه ویرجینیا و سرپرست برنامه Cognitive Science، و دانشجویش، برندون ژاک، نسخه‌ آزمایشی این فناوری را با کمک پژوهشگرانی از دانشگاه بوستون و ایندیانا، توسعه داده‌اند. سدربرگ معتقد است که مشکلی را حل کرده‌اند که غول‌های فناوری همچون گوگل و دیپ‌مایند یا اپل نتوانسته‌اند. این پژوهش بدعت‌آفرین در کنفرانس بین‌المللی یادگیری ماشین (ICML) در بالتیمور ارائه داده شد.

فهرست مقاله پنهان

1 هوش مصنوعی و بزرگ ‌شدن شبکه‌های عصبی

2 سلول‌های زمانی و فرایند شنیداری در مغز

3 رمزگشایی از اصوات با الگوریتم هوش مصنوعی

4 افزایش بهره‌وری هوش مصنوعی و استفاده اخلاقی از آن

هوش مصنوعی و بزرگ ‌شدن شبکه‌های عصبی

طی چند دهه، به‌ویژه بیست سال اخیر، شرکت‌های فناوری سعی داشته‌اند با ساخت شبکه‌های هوش مصنوعی پیچیده‌، ادراک مغز انسان از دنیای پویای اطرافش را تقلید کنند. نتیجه‌ این تلاش‌ها علاوه بر تسهیل بازیابی و مصرف اطلاعات پایه، در انجام اموری از قبیل پیش‌بینی بازار سهام، تشخیص‌ پزشکی و نظارت گسترده برای تشخیص تهدیدهای امنیتی، تخصص یافته‌اند.

سدربرگ توضیح می‌دهد: «در بطن کار، سعی کرده‌ایم الگوهای معنادار موجود در دنیای اطراف را تشخیص دهیم. این الگوها به ما کمک می‌کنند در مورد رفتار در محیط و هماهنگی با آن تصمیم بگیریم، تا بیشترین پاداش ممکن را دریافت کنیم.» برنامه‌نویس‌ها همواره از مغز انسان الهام گرفته‌اند؛ به همین دلیل هم هست که نام این فناوری‌ها را «شبکه‌‌های عصبی» گذاشته‌اند.

وی ادامه می‌دهد: «اولین پژوهشگران هوش مصنوعی ویژگی‌های اساسی نورون‌ها و نحوه‌ اتصالشان به یکدیگر را مطالعه و سپس با کدهای کامپیوتری بازآفرینی کردند.» با این حال، برای مسائل پیچیده‌ای مثل «شنیدن»، برنامه‌نویس‌ها به اشتباه رویکرد متفاوتی برای آموزش ماشین‌ها در پیش گرفتند. به همین دلیل، نتوانستند از پیشرفت‌های عرصه نوروساینس برای پیشبرد کارشان بهره‌ بگیرند.

یانگ در خصوص بزرگ ‌شدن شبکه‌های عصبی اضافه می‌کند: «شرکت‌های بزرگ برای حل این مسئله، منابع محاسباتی را بیشتر و بیشتر می‌کنند و در نهایت، شبکه‌های عصبی بزرگ و بزرگ‌تر می‌شوند. حالا حوزه‌ای که در اصل از مغز الهام گرفته بود، تبدیل به یک مسئله‌ مهندسی شده است.»

برنامه‌نویس‌ها صداهای گوناگون را هنگام بیان کلمات مختلف با سرعت‌های گوناگون، به عنوان ورودی به سیستم تغذیه می‌کنند، تا از طریق فرایندی به نام پس‌انتشار، به این شبکه‌های عصبی بزرگ آموزش دهند. برنامه‌نویس‌ها که پاسخ درست را می‌دانند، اطلاعات اصلاح‌شده را به صورت پیوسته به حلقه بر می‌گردانند. سپس، هوش مصنوعی ضرایب مناسب را به ورودی‌ها اختصاص می‌دهد، تا در نهایت، بتواند پاسخ درست را تولید کند. این فرایند میلیون‌ها بار تکرار می‌شود.

با اینکه دیتاست‌های آموزشی همگام با افزایش سرعت محاسبات، ارتقاء یافته‌اند، همچنان فاصله‎ زیادی با ایده‌آل دارند. در همین حال، برنامه‌نویس‌ها هم دائم لایه‌های بیشتری به شبکه‌های عصبی اضافه می‌کنند، تا قابلیت‌ها را بهبود ببخشند. بدین ترتیب، یادگیری عمیق یا «کانولوشنی» به وجود می‌آید.

برای دستیابی به سریع ترین دستیار صوتی در دنیا باید بدانیم که در حال حاضر، بیش از 7,000 زبان در سطح دنیا به کار می‌روند. در هر یک از این زبان‌ها هم لهجه‌ها و گویش‌های متفاوت، صداهای زیر و بم، با سرعت بیان بالا و پایین به گوش می‌خورند. هرچه بازیگران عرصه فناوری محصولات پیشرفته‌تری تولید می‌کنند، کامپیوترها می‌بایست اطلاعات بیشتری را پردازش کنند.

افزایش فرایند پردازش، پیامدهایی جدی برای محیط ‌زیست دارد. در سال 2019، پژوهشی نشان داد که میزان کربن‌ دی ‌اکسید ناشی از تأمین انرژی موردنیاز برای آموزش یک مدل بزرگ یادگیری عمیق برابر با کربن ‌دی ‌اکسید تولیدشده در سرتاسر عمر پنج خودرو است. با این حال، روند بزرگ ‌شدن شبکه‌های عصبی و دیتاست‌ها همچنان ادامه دارد.

سلول‌های زمانی و فرایند شنیداری در مغز

هاورد ایچنبام، از دانشگاه بوستون، برای اولین بار اصطلاح «سلول‌های زمانی» را مطرح کرد. پژوهش حاضر نیز بر اساس همین مفهوم ساختاربندی شده‌ است. متخصصان نوروساینس با مطالعه سلول‌های زمانی در موش‌ها و سپس انسان‌ها، نشان داده‌اند که وقتی مغز ورودی‌های وابسته‌ به زمان، همچون صدا را تفسیر می‌کند، فعالیت عصبی‌اش افزایش می‌یابد. این نورون‌ها که در هیپوکامپ و سایر نقاط مغز قرار دارند، بازه‌های خاص، یعنی نمونه‌هایی که مغز در ارتباط با یکدیگر بازبینی و تفسیر می‌کند را ثبت می‌کنند. این سلول‌ها در کنار «سلول‌های مکانی» قرار دارند که در تشکیل نقشه‌های ذهنی به ما کمک می‌کنند. در واقع، سلول‌های زمانی به مغز کمک می‌کنند، تا فارغ از سرعت بیان کلمات، درک واحد و کاملی از صدا به دست آورد و این موضوع انجام پژوهش‌ها را در خصوص شناسایی و ایجاد سریع ترین دستیار صوتی بیشتر کرد.

سدربرگ می‌گوید: «اگر کلمه octopus را بسیار آهسته تلفظ کنم، با اینکه شاید به عنوان مخاطب، تا کنون با این تلفظ کلمه را نشنیده باشید، هنوز هم متوجه آن می‌شوید؛ چون مغزتان به شیوه‌ «مستقل از مقیاس» اطلاعات را پردازش می‌کند. به بیان ساده، اگر اطلاعاتی را شنیده و در مقیاس خاصی پردازش کرده باشید، در صورتی که دوباره با همان اطلاعات با سرعت بیشتر یا کمتر روبه‌رو شوید، باز هم می‌توانید آن را درک کنید.» به گفته سدربرگ، تنها مورد استثنا مربوط به سرعت فوق ‌بالاست. در این صورت، داده‌ها کامل انتقال نمی‌یابند و تکه‌هایی از آن‌ها در میان راه گم می‌شوند.

مارک هاورد، پژوهشگر دانشگاه بوستون، به کار روی سلول‌های زمانی ادامه می‌دهد. هاورد که بیش از 20 سال با سدربرگ همکاری داشته است، مشغول مطالعه نحوه ادراک انسان‌ها از رویدادهای زندگی‌شان است.

یافته‌ها به زبان ریاضی درآمده و معادله هاورد را برای توصیف حافظه‌ شنیداری از طریق یک تایم‌لاین یا همان سیر زمانی ارائه داده‌اند. این تایم‌لاین متشکل از سلول‌های زمانی است که به نوبت فعال می‌شوند. طبق پیش‌بینی‌های این معادله، هرچه صدا مربوط به گذشته‌ دورتر باشد، تایم‌لاین به شکل خاصی تار می‌شود؛ چون دقت خاطره‌ مغز از آن رویداد با گذر زمان کاهش می‌یابد.

سدربرگ می‌گوید: «الگوی فعال شدن نورون‌ها نشانگر همان رویدادی است که در گذشته اتفاق افتاده است. هرچه از آن اتفاق دورتر شویم، این اطلاعات مبهم‌تر می‌شوند. کار جالبی که مارک و دانشجویش انجام داده‌اند این است که این پدیده را به زبان ریاضی درآورده‌اند. بنابراین، متخصصان نوروساینس توانسته‌اند شواهد مربوطه را در مغز پیدا کنند.» زمان، با اعطای یک نوع بافت به صداها، به آنچه می‌شنویم معنا می‌بخشد. به گفته‌ هاورد، سلول‌های زمانی موجود در مغز از این معادله ریاضیاتی پیروی می‌کنند.

رمزگشایی از اصوات با الگوریتم هوش مصنوعی

حدود پنج سال قبل، سدربرگ و هاورد دریافتند که هوش مصنوعی می‌تواند از این دست بازنمایی‌های الهام گرفته از مغز بهره‌ گیرد. در همین راستا، آزمایشگاه Computational Lab سدربرگ، با همکاری آزمایشگاه هاورد و زوران تیگنج و همکارانش از دانشگاه ایندیانا، شروع به ساخت و آزمایش مدل‌های گوناگون کردند.

سه سال پیش بود که ژاک موفق شد کد لازم برای توسعه‌ الگوریتم هوش مصنوعی را بنویسد؛ این الگوریتم یک قابلیت فشرده‌سازی دارد که در صورت نیاز می‌تواند بسط یابد، مثل قابلیت زیپ که فایل‌های بزرگ کامپیوتر را فشرده می‌کند. الگوریتم تنها یک خاطره از صدای ورودی را با رزولوشن کافی ذخیره می‌کند. بدین ترتیب، حافظه‌ زیادی ذخیره می‌شود.

سدربرگ توضیح می‌دهد: «از آنجایی که اطلاعات به صورت لوگاریتمی فشرده می‌شوند، الگوی مقیاس ورودی چندان تغییری نمی‌کند، بلکه تنها جابه‌جا می‌شود.»

پژوهش‌ها برای آماده کردن سریع ترین دستیار صوتی ادامه داشت. آموزش هوش مصنوعی برای SITHCon با منبعی آماده به نام «شبکه کانولوشنی زمانی» مقایسه شد. هدف از این کار، تغییر و تبدیل شبکه‌ای بود که تنها می‌توانست کلماتی را بشنود که با سرعت مشخص بیان شده‌اند.

فرایند آموزش با زبان ساده‌ مورس آغاز شد؛ زبان مورس از صداهای کوتاه و بلندی تشکیل می‌شود که نماد نقطه و خط‌تیره هستند. سپس، یک دیتاست متن‌باز از افراد انگلیسی‌زبان به کار رفت که اعداد 1 تا 9 را به زبان می‌آوردند. در انتهای آموزش، هوش مصنوعی توانست ورودی‌هایی را که سرعت‌های گوناگون داشتند شناسایی کند و دیگر تحت‌تأثیر سرعت قرار نگیرد.

ژاک می‌گوید: «ما نشان دادیم که SITHCon قادر است گفتار سریع یا کند را هم تشخیص دهد؛ در حالی ‌که مدل‌های دیگر نمی‌توانند اطلاعاتی را که سرعت‌شان مثل داده‌های آموزشی نیست، رمزگشایی کنند.» این پژوهش توانست سریع ترین دستیار صوتی را شناسایی کند.

دانشگاه ویرجینیا اکنون تصمیم دارد کد این پروژه را در دسترس عموم قرار دهد، تا به پیشبرد دانش کمک کرده باشد. پژوهشگران معتقدند که این اطلاعات در تمام شبکه‌های عصبی که مسئول تشخیص صدا و فرمان‌های صوتی هستند، کاربرد دارد.

سدربرگ در این ‌باره توضیح می‌دهد: «می‌خواهیم کد را به صورت کامل منتشر کنیم، چون به دسترسی‌پذیری علم باور داریم. امیدواریم شرکت‌ها هم با دیدن این پروژه، به همکاری و پشتیبانی از ادامه‌ کار علاقه نشان دهند. در این پروژه، روشی بنیادین مشابه با پردازش اطلاعات در مغز ارائه داده‌ایم که در عین صرفه‌جویی در مصرف انرژی، کارآیی را بالا می‌برد؛ اما این تازه اول راه است؛ مدل‌های هوش مصنوعی خیلی فراتر از این هم می‌توانند بروند.»

افزایش بهره‌وری هوش مصنوعی و استفاده اخلاقی از آن

سدربرگ امیدوار است افزایش بهره‌وری هوش مصنوعی به‌خصوص در زمینه اخلاقی بیشتر شود: «در حال حاضر، شرکت‌های بزرگ در مسیر ساخت ابزارهای قوی‌تر، با موانع محاسباتی عمده دست‌وپنجه نرم می‌کنند. باید امیدوار باشیم که مثبت‌ها بر منفی‌ها غلبه کنند. بدیهی است با ارتقای قابلیت تفکر کامپیوترها، افزایش بهره‌وری را در حوزه‌های گوناگون شاهد هستیم؛ اما اینکه افزایش بهره‌وری هوش مصنوعی در راستای مقاصد خوب به کار برود یا بد، به خودمان بستگی دارد.»

ژاک که به‌تازگی پدر شده است، این پروژه را به تولد سمت‌وسویی نوین در عرصه هوش مصنوعی تشبیه کرده است.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=29314

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

سریع ترین دستیار صوتی مبتنی بر هوش مصنوعی

هوش مصنوعی و بزرگ ‌شدن شبکه‌های عصبی

سلول‌های زمانی و فرایند شنیداری در مغز

رمزگشایی از اصوات با الگوریتم هوش مصنوعی

افزایش بهره‌وری هوش مصنوعی و استفاده اخلاقی از آن

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

متا به‌دنبال دسترسی به تصاویر داخل گالری کاربران است

باز طراحی سیری با موتور هوش مصنوعی OpenAI

زمان بیشتری برای طبابت واقعی

فرمان فرمول یک در دست هوش مصنوعی

تقسیم‌بندی «عجیب‌ها و باهوش‌ها» در دنیای هوش مصنوعی

اگر برای این ۱۱ کار از ChatGPT استفاده می‌کنید، همین حالا دست نگه‌ دارید!

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

متا به‌دنبال دسترسی به تصاویر داخل گالری کاربران است

باز طراحی سیری با موتور هوش مصنوعی OpenAI

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

زمان بیشتری برای طبابت واقعی

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

فرمان فرمول یک در دست هوش مصنوعی

هوش مصنوعی و بزرگ ‌شدن شبکه‌های عصبی

سلول‌های زمانی و فرایند شنیداری در مغز

رمزگشایی از اصوات با الگوریتم هوش مصنوعی

افزایش بهره‌وری هوش مصنوعی و استفاده اخلاقی از آن

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید