محققان گوگل رویای ساخت نوع جدیدی از موتور جستجو را در سر میپرورانند
مجموعه کتابهایی را در نظر بگیرید که ناشران به طور تصادفی روی هم انباشتهاند. شاید شمار این کتابها به چند میلیون یا حتی چند میلیارد جلد برسد. این انبوه کتابها که روز به روز بزرگتر میشوند، حاوی اطلاعات ارزشمندی هستند. اما چطور میتوان کتاب مد نظر را از میان این حجم انبوه پیدا کرد؟ اگر ساماندهی لازم وجود نداشته باشد، کتابها به هیچ دردی نمیخورند. همین مورد برای فضای اینترنت نیز صدق میکند. امروزه، موتور جستجوی گوگل پاسخگوی بسیاری از پرسشهای ما است. البته موتورهای جستجوی دیگری نیز وجود دارند. بازوهای الگوریتمیِ گوگل همه کتابهای موجود در آن انبوه عظیم را بررسی و ساماندهی میکنند. وقتی افراد عبارتی را در بخش جستجوی گوگل وارد میکنند، الگوریتم موتور جستجو به بررسی صفحات مختلف در اینترنت پرداخته و نتایج را به کاربر عرضه میکند.
این روش به قدری مفید است که در طی دو دهه اخیر تغییرات گستردهای در آن اِعمال نشده است. اما اکنون، محققان هوش مصنوعی گوگل رویای ساخت نوع جدیدی از موتور جستجو را در سر میپرورانند. در مقالهای که نسخه پیش از چاپش در سرور arXiv منتشر شده ، محققان گوگل به این موضوع اشاره کردهاند که فناوری میتواند قدرت جستجوی اینترنتی را بیش از پیش ارتقاء دهد. به گفتهی آنان، مدلهای زبانی بزرگ (الگوریتمهای یادگیری ماشین از قبیل GPT-3 متعلق به شرکت OpenAI) میتوانند بهطور کامل جایگزینِ سامانههای نشانهگذاری، بازیابی و رتبهبندی شوند .
آیا هوش مصنوعی به موتور جستجوی آینده تبدیل خواهد شد؟
بیشتر افراد هنگام جستجوی اطلاعات مایلاند از کارشناسان سوال بپرسند تا پاسخ قابلاطمینانی بدست بیاورند. اما امروزه گوگل قادر است به بسیاری از پرسشهای انسان جواب دهد. این کار گاهی بسیار موثر واقع میشود و گاهی میتواند پیامدهای نامساعدی به همراه داشته باشد. اگرچه موتور جستجو منابعی را در اختیارمان قرار میدهند که دستکم پاسخ بخشی از پرسش را دارند، اما بار اصلی به دوش فرد جستجوگر است تا نتایج بدست آمده را از صافی بگذراند و به بهترین جوابِ ممکن دست یابد. نتایج جستجو در طی سالیان گذشته به طرز چشمگیری ارتقاء پیدا کرده است. اما این روش کماکان با هدف آرمانیِ محققان فاصله دارد. امروزه چندین ابزار پرسش و پاسخ از قبیل الکسا ، سیری و دستیار گوگل به بازار عرضه شدهاند. اما این ابزارها بسیار ناقصاند و مجموعه پرسشهای محدودی را پوشش میدهند. اگرچه مدلهای زبانی بزرگ از قبیل GPT-3 معایب خاص خود را دارند، اما از انعطافپذیری بالایی برخوردارند و میتوانند پاسخهایی جدیدی به زبان طبیعی ارائه کنند. به باور تیم هوش مصنوعی گوگل، نسل بعدیِ موتور جستجو میتواند بهترین نتایج را برای کاربران عرضه کند. اشاره به این موضوع خالی از لطف نیست که یادگیری ماشین در حال حاضر در موتورهای جستجوی نشانهگذاری، بازیابی و رتبهبندی به کار برده میشود. محققان معتقدند که به جای اینکه ارتقای سامانه را در دستور کار قرار دهیم، بهتر است یادگیری ماشین را بهطور کامل جایگزین آن کنیم.
دونالد متزلر و همکاران در مقالهشان اظهار کردهاند: «آیا بهتر نیست بهطور کامل مفهوم ایندکس index یا نشانهگذاری را کنار بگذاریم و مدل بزرگِ از پیش آموزشدیدهای را جایگزین آن کنیم؟ این مدل میتواند کلیه اطلاعات موجود در پیکره را بهطور کارآمد رمزگذاری کند. آیا ممکن است تفاوت میان بازیابی retrieval و رتبهبندی ranking از بین برود و فقط یک مرحله تولید پاسخ response generation وجود داشته باشد؟»
یکی از نتایج ایدهآلی که محققان در نظر دارند، تا حدی شبیه کامپیوتر فضاپیمای اینترپرایز Enterprise در فیلم «استار ترِک» است. افراد پرسشهای خود را مطرح میکنند و سیستم در قالب زبان طبیعی جواب آنها را میدهد. این سیستم در جوابهایش به منابع موثقی نیز اشاره میکند. محققان در مقاله خود بهطور جامع به بررسی این موضوع پرداختهاند که روش بلندپروازانه فوقالذکر در عمل چه ویژگیهایی میتواند داشته باشد. این سوال ذهن یکی از کاربران را درگیر کرده است: «نوشیدنیهای الکلی چه فایدهای برای سلامتی بدن دارند؟» سیستم از چند منبع معتبر کمک میگیرد تا با نثری شفاف به این پرسش جواب دهد (در این مورد میتوان به WebMD و Mayo Clinic اشاره کرد). بنابراین، سیستم به فواید و خطرات احتمالی ِ مصرف نوشیدنیهای الکلی اشاره میکند. اما داستان به اینجا ختم نمیشود. محققان اظهار میدارند که یکی دیگر از فواید مدلهای زبانی بزرگ، تواناییشان برای یادگیری چندین کار مختلف با اندکی تغییر است. این فرایند با عنوان یادگیری one-shot یا یادگیری few-shot شناخته میشود. بنابراین، ممکن است مدلها توان انجام کلیه کارهایی را که موتورهای جستجوی امروزی انجام میدهند، داشته باشند.
چشماندازی هر چند کوچک
امروزه این چشمانداز دور از دسترس میباشد. مدلهای زبانی بزرگ هنوز آنطور که باید و شاید مورد توجه یا تایید بسیاری از محققان یا کارشناسان قرار نگرفتهاند. الگوریتمهایی نظیر GPT-3 گاهی نثرهایی تولید میکنند که هیچ فرقی با نوشتار انسان ندارد. اما این نوع الگوریتمها کماکان مستعد ارائه پاسخهایی غیرمنطقی هستند. نکته بدتر اینکه، این ابزارها حاوی سوگیریهای مشهودی در دادههای آموزشیشان هستند، درک بافتی ندارند و نمیتوانند به منابع ارجاع دهند؛ آنها حتی قادر به تفکیک منابع باکیفیت از منابع بیکیفیت نیستند. محققان اینچنین مینویسند: «تصور بر این است که این ابزارهای پیشرفته چیزهای بسیار زیادی میدانند، اما دانش آنها در بخشهای ژرف نهفته است.» محققان راهکارهایی برای پر کردن این خلاء پیشنهاد دادهاند. در واقع، بسیاری از چالشهایی که آنان مورد تاکید قرار میدهند، در مقیاس بزرگ در این حوزه قابل کاربرد است.
یکی از اقداماتی که میتواند گامی رو به جلو تلقی شود، کنار گذاشتنِ الگوریتمهایی است که فقط روابط میان عبارات را مدلسازی میکنند. در عوض، میتوان الگوریتمهایی را در دستور کار قرار داد که رابطه میان واژگان موجود در مقاله و کل مقاله را مدلسازی میکنند. علاوه بر این، امکان مدلسازی رابطههای میان مقالههای مختلف در اینترنت نیز وجود دارد. محققان باید باید مشخص کنند که پاسخ باکیفیت از چه مولفههایی تشکیل یافته است. تصور نکنید این کار آسان است. اما مبتدیان باید بدانند که پاسخهای باکیفیت باید شفاف، عاری از سوگیری، موثق و قابل دسترس باشند و حاوی دیدگاههای گوناگونی باشند. امروزه، حتی پیشرفتهترین الگوریتمها خود را به چنین سطحی نرساندهاند. علاقلانه نیست که مدلهای زبان طبیعی را پیش از حل شدنشان در این مقیاس به کار گیریم.
محققان چشمانداز بسیار جذابی ترسیم کردهاند. وبگردی با هدفِ یافتن پاسخ مورد نظر و تفکیک منابع معتبر از غیرمعتبر کار فرسایشی و ملالآوری است. بیتردید، ما توان لازم را برای انجام این کار صرف نمیکنیم. اما این مسئله جای بحث و بررسی دارد که این شیوه دسترسی به اینترنت چگونه میتواند نقش کاربران را تغییر دهد. اگر اساساً اطلاعات را در قالب مطالبی باشد که الگوریتمها تولید کردهاند، آیا میزان انتشار پایین میآید؟ گوگل و سایر سازندگان موتور جستجو چه راهکاری برای مقابله با این الگوریتمها در پیش میگیرند؟
هر اتفاقی هم بیفتد، باز هم عده زیادی به خواندن اخبار ادامه میدهند. در این گونه موارد، الگوریتمهای جستجو باید فهرستی از اخبار را عرضه کنند. اما ممکن است تغییر بزرگی در این بین رخ دهد. احتمال دارد غنای اطلاعاتی وب کاهش یابد. در این صورت، الگوریتمهای متکی اطلاعات روز به روز تضعیف میشوند . البته معلوم نیست چه اتفاقی خواهد افتاد. باید با پشتکاری بالا به فعالیتهایمان ادامه دهیم؛ شاید این چالشها نهایتاً از پیش رو برداشته شوند.