سریع ترین دستیار صوتی مبتنی بر هوش مصنوعی
پیر سدربرگ، پژوهشگر دانشگاه ویرجینیا، پیشنهاد میکند آزمایشی ساده را برای شناخت سریع ترین دستیار صوتی در خانه امتحان کنید. با استفاده از یک دستیار صوتی مثل موتور جستوجوی گوگل، کلمه «octopus» را به آهستگی به گوشی هوشمندتان بگویید. همانطور که میبینید، گوشی بهسختی میتواند این کلمه را به شما برگرداند؛ یا کلمهای کاملاً بیربط تحویلتان میدهد و یا کلمهای مشابه اما، بیمعنی به زبان میآورد.
به گفته سدربرگ، وقتی نوبت به دریافت سیگنالهای شنیداری میرسد، علیرغم تمام توان محاسباتی که گوگل، دیپمایند و IBM و مایکروسافت به این مسئله اختصاص دادهاند، سیستمهای فعلی هوش مصنوعی همچنان در این قابلیت مشکل دارند. در این موارد، خروجی سیستمها گاهی خندهدار و گاهی ناامیدکننده است؛ اما برای کسانی که مشکل تکلم دارند، میتواند جدیتر و ناراحتکنندهتر باشد.
پژوهشگران دانشگاه ویرجینیا، با تکیه بر کشفیات حوزه نوروساینس، شبکههای عصبی هوش مصنوعی موجود را به فناوری تبدیل کردهاند که فارغ از سرعت بیان، حرفها را میشنود. این ابزار یادگیری عمیق که SITHCon نام دارد، با تعمیم ورودی، کلماتی را که با سرعتی متفاوت از دادههای آموزشی تلفظ میشوند، درک میکند و این شاید تا به حال سریع ترین دستیار صوتی باشد.
این قابلیت جدید تأثیری بر تجربه نهایی کاربر ندارد؛ اما پتانسیل این را دارد که نحوه «تفکر» شبکههای عصبی هوش مصنوعی را تغییر دهد، تا اطلاعات را به صورت کارآمدتر پردازش کنند. این دستاورد است که میتواند صنعت را متحول کند، صنعتی که به دنبال ارتقای قابلیت پردازش و به حداقل رساندن حافظه موردنیاز و کاهش تولیدات کربن ناشی از هوش مصنوعی است.
سدربرگ، استاد روانشناسی دانشگاه ویرجینیا و سرپرست برنامه Cognitive Science، و دانشجویش، برندون ژاک، نسخه آزمایشی این فناوری را با کمک پژوهشگرانی از دانشگاه بوستون و ایندیانا، توسعه دادهاند. سدربرگ معتقد است که مشکلی را حل کردهاند که غولهای فناوری همچون گوگل و دیپمایند یا اپل نتوانستهاند. این پژوهش بدعتآفرین در کنفرانس بینالمللی یادگیری ماشین (ICML) در بالتیمور ارائه داده شد.
هوش مصنوعی و بزرگ شدن شبکههای عصبی
طی چند دهه، بهویژه بیست سال اخیر، شرکتهای فناوری سعی داشتهاند با ساخت شبکههای هوش مصنوعی پیچیده، ادراک مغز انسان از دنیای پویای اطرافش را تقلید کنند. نتیجه این تلاشها علاوه بر تسهیل بازیابی و مصرف اطلاعات پایه، در انجام اموری از قبیل پیشبینی بازار سهام، تشخیص پزشکی و نظارت گسترده برای تشخیص تهدیدهای امنیتی، تخصص یافتهاند.
سدربرگ توضیح میدهد: «در بطن کار، سعی کردهایم الگوهای معنادار موجود در دنیای اطراف را تشخیص دهیم. این الگوها به ما کمک میکنند در مورد رفتار در محیط و هماهنگی با آن تصمیم بگیریم، تا بیشترین پاداش ممکن را دریافت کنیم.» برنامهنویسها همواره از مغز انسان الهام گرفتهاند؛ به همین دلیل هم هست که نام این فناوریها را «شبکههای عصبی» گذاشتهاند.
وی ادامه میدهد: «اولین پژوهشگران هوش مصنوعی ویژگیهای اساسی نورونها و نحوه اتصالشان به یکدیگر را مطالعه و سپس با کدهای کامپیوتری بازآفرینی کردند.» با این حال، برای مسائل پیچیدهای مثل «شنیدن»، برنامهنویسها به اشتباه رویکرد متفاوتی برای آموزش ماشینها در پیش گرفتند. به همین دلیل، نتوانستند از پیشرفتهای عرصه نوروساینس برای پیشبرد کارشان بهره بگیرند.
یانگ در خصوص بزرگ شدن شبکههای عصبی اضافه میکند: «شرکتهای بزرگ برای حل این مسئله، منابع محاسباتی را بیشتر و بیشتر میکنند و در نهایت، شبکههای عصبی بزرگ و بزرگتر میشوند. حالا حوزهای که در اصل از مغز الهام گرفته بود، تبدیل به یک مسئله مهندسی شده است.»
برنامهنویسها صداهای گوناگون را هنگام بیان کلمات مختلف با سرعتهای گوناگون، به عنوان ورودی به سیستم تغذیه میکنند، تا از طریق فرایندی به نام پسانتشار، به این شبکههای عصبی بزرگ آموزش دهند. برنامهنویسها که پاسخ درست را میدانند، اطلاعات اصلاحشده را به صورت پیوسته به حلقه بر میگردانند. سپس، هوش مصنوعی ضرایب مناسب را به ورودیها اختصاص میدهد، تا در نهایت، بتواند پاسخ درست را تولید کند. این فرایند میلیونها بار تکرار میشود.
با اینکه دیتاستهای آموزشی همگام با افزایش سرعت محاسبات، ارتقاء یافتهاند، همچنان فاصله زیادی با ایدهآل دارند. در همین حال، برنامهنویسها هم دائم لایههای بیشتری به شبکههای عصبی اضافه میکنند، تا قابلیتها را بهبود ببخشند. بدین ترتیب، یادگیری عمیق یا «کانولوشنی» به وجود میآید.
برای دستیابی به سریع ترین دستیار صوتی در دنیا باید بدانیم که در حال حاضر، بیش از 7,000 زبان در سطح دنیا به کار میروند. در هر یک از این زبانها هم لهجهها و گویشهای متفاوت، صداهای زیر و بم، با سرعت بیان بالا و پایین به گوش میخورند. هرچه بازیگران عرصه فناوری محصولات پیشرفتهتری تولید میکنند، کامپیوترها میبایست اطلاعات بیشتری را پردازش کنند.
افزایش فرایند پردازش، پیامدهایی جدی برای محیط زیست دارد. در سال 2019، پژوهشی نشان داد که میزان کربن دی اکسید ناشی از تأمین انرژی موردنیاز برای آموزش یک مدل بزرگ یادگیری عمیق برابر با کربن دی اکسید تولیدشده در سرتاسر عمر پنج خودرو است. با این حال، روند بزرگ شدن شبکههای عصبی و دیتاستها همچنان ادامه دارد.
سلولهای زمانی و فرایند شنیداری در مغز
هاورد ایچنبام، از دانشگاه بوستون، برای اولین بار اصطلاح «سلولهای زمانی» را مطرح کرد. پژوهش حاضر نیز بر اساس همین مفهوم ساختاربندی شده است. متخصصان نوروساینس با مطالعه سلولهای زمانی در موشها و سپس انسانها، نشان دادهاند که وقتی مغز ورودیهای وابسته به زمان، همچون صدا را تفسیر میکند، فعالیت عصبیاش افزایش مییابد. این نورونها که در هیپوکامپ و سایر نقاط مغز قرار دارند، بازههای خاص، یعنی نمونههایی که مغز در ارتباط با یکدیگر بازبینی و تفسیر میکند را ثبت میکنند. این سلولها در کنار «سلولهای مکانی» قرار دارند که در تشکیل نقشههای ذهنی به ما کمک میکنند. در واقع، سلولهای زمانی به مغز کمک میکنند، تا فارغ از سرعت بیان کلمات، درک واحد و کاملی از صدا به دست آورد و این موضوع انجام پژوهشها را در خصوص شناسایی و ایجاد سریع ترین دستیار صوتی بیشتر کرد.
سدربرگ میگوید: «اگر کلمه octopus را بسیار آهسته تلفظ کنم، با اینکه شاید به عنوان مخاطب، تا کنون با این تلفظ کلمه را نشنیده باشید، هنوز هم متوجه آن میشوید؛ چون مغزتان به شیوه «مستقل از مقیاس» اطلاعات را پردازش میکند. به بیان ساده، اگر اطلاعاتی را شنیده و در مقیاس خاصی پردازش کرده باشید، در صورتی که دوباره با همان اطلاعات با سرعت بیشتر یا کمتر روبهرو شوید، باز هم میتوانید آن را درک کنید.» به گفته سدربرگ، تنها مورد استثنا مربوط به سرعت فوق بالاست. در این صورت، دادهها کامل انتقال نمییابند و تکههایی از آنها در میان راه گم میشوند.
مارک هاورد، پژوهشگر دانشگاه بوستون، به کار روی سلولهای زمانی ادامه میدهد. هاورد که بیش از 20 سال با سدربرگ همکاری داشته است، مشغول مطالعه نحوه ادراک انسانها از رویدادهای زندگیشان است.
یافتهها به زبان ریاضی درآمده و معادله هاورد را برای توصیف حافظه شنیداری از طریق یک تایملاین یا همان سیر زمانی ارائه دادهاند. این تایملاین متشکل از سلولهای زمانی است که به نوبت فعال میشوند. طبق پیشبینیهای این معادله، هرچه صدا مربوط به گذشته دورتر باشد، تایملاین به شکل خاصی تار میشود؛ چون دقت خاطره مغز از آن رویداد با گذر زمان کاهش مییابد.
سدربرگ میگوید: «الگوی فعال شدن نورونها نشانگر همان رویدادی است که در گذشته اتفاق افتاده است. هرچه از آن اتفاق دورتر شویم، این اطلاعات مبهمتر میشوند. کار جالبی که مارک و دانشجویش انجام دادهاند این است که این پدیده را به زبان ریاضی درآوردهاند. بنابراین، متخصصان نوروساینس توانستهاند شواهد مربوطه را در مغز پیدا کنند.» زمان، با اعطای یک نوع بافت به صداها، به آنچه میشنویم معنا میبخشد. به گفته هاورد، سلولهای زمانی موجود در مغز از این معادله ریاضیاتی پیروی میکنند.
رمزگشایی از اصوات با الگوریتم هوش مصنوعی
حدود پنج سال قبل، سدربرگ و هاورد دریافتند که هوش مصنوعی میتواند از این دست بازنماییهای الهام گرفته از مغز بهره گیرد. در همین راستا، آزمایشگاه Computational Lab سدربرگ، با همکاری آزمایشگاه هاورد و زوران تیگنج و همکارانش از دانشگاه ایندیانا، شروع به ساخت و آزمایش مدلهای گوناگون کردند.
سه سال پیش بود که ژاک موفق شد کد لازم برای توسعه الگوریتم هوش مصنوعی را بنویسد؛ این الگوریتم یک قابلیت فشردهسازی دارد که در صورت نیاز میتواند بسط یابد، مثل قابلیت زیپ که فایلهای بزرگ کامپیوتر را فشرده میکند. الگوریتم تنها یک خاطره از صدای ورودی را با رزولوشن کافی ذخیره میکند. بدین ترتیب، حافظه زیادی ذخیره میشود.
سدربرگ توضیح میدهد: «از آنجایی که اطلاعات به صورت لوگاریتمی فشرده میشوند، الگوی مقیاس ورودی چندان تغییری نمیکند، بلکه تنها جابهجا میشود.»
پژوهشها برای آماده کردن سریع ترین دستیار صوتی ادامه داشت. آموزش هوش مصنوعی برای SITHCon با منبعی آماده به نام «شبکه کانولوشنی زمانی» مقایسه شد. هدف از این کار، تغییر و تبدیل شبکهای بود که تنها میتوانست کلماتی را بشنود که با سرعت مشخص بیان شدهاند.
فرایند آموزش با زبان ساده مورس آغاز شد؛ زبان مورس از صداهای کوتاه و بلندی تشکیل میشود که نماد نقطه و خطتیره هستند. سپس، یک دیتاست متنباز از افراد انگلیسیزبان به کار رفت که اعداد 1 تا 9 را به زبان میآوردند. در انتهای آموزش، هوش مصنوعی توانست ورودیهایی را که سرعتهای گوناگون داشتند شناسایی کند و دیگر تحتتأثیر سرعت قرار نگیرد.
ژاک میگوید: «ما نشان دادیم که SITHCon قادر است گفتار سریع یا کند را هم تشخیص دهد؛ در حالی که مدلهای دیگر نمیتوانند اطلاعاتی را که سرعتشان مثل دادههای آموزشی نیست، رمزگشایی کنند.» این پژوهش توانست سریع ترین دستیار صوتی را شناسایی کند.
دانشگاه ویرجینیا اکنون تصمیم دارد کد این پروژه را در دسترس عموم قرار دهد، تا به پیشبرد دانش کمک کرده باشد. پژوهشگران معتقدند که این اطلاعات در تمام شبکههای عصبی که مسئول تشخیص صدا و فرمانهای صوتی هستند، کاربرد دارد.
سدربرگ در این باره توضیح میدهد: «میخواهیم کد را به صورت کامل منتشر کنیم، چون به دسترسیپذیری علم باور داریم. امیدواریم شرکتها هم با دیدن این پروژه، به همکاری و پشتیبانی از ادامه کار علاقه نشان دهند. در این پروژه، روشی بنیادین مشابه با پردازش اطلاعات در مغز ارائه دادهایم که در عین صرفهجویی در مصرف انرژی، کارآیی را بالا میبرد؛ اما این تازه اول راه است؛ مدلهای هوش مصنوعی خیلی فراتر از این هم میتوانند بروند.»
افزایش بهرهوری هوش مصنوعی و استفاده اخلاقی از آن
سدربرگ امیدوار است افزایش بهرهوری هوش مصنوعی بهخصوص در زمینه اخلاقی بیشتر شود: «در حال حاضر، شرکتهای بزرگ در مسیر ساخت ابزارهای قویتر، با موانع محاسباتی عمده دستوپنجه نرم میکنند. باید امیدوار باشیم که مثبتها بر منفیها غلبه کنند. بدیهی است با ارتقای قابلیت تفکر کامپیوترها، افزایش بهرهوری را در حوزههای گوناگون شاهد هستیم؛ اما اینکه افزایش بهرهوری هوش مصنوعی در راستای مقاصد خوب به کار برود یا بد، به خودمان بستگی دارد.»
ژاک که بهتازگی پدر شده است، این پروژه را به تولد سمتوسویی نوین در عرصه هوش مصنوعی تشبیه کرده است.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید