هوش مصنوعی؛ باهوشتر از چیزی که فکر میکنیم
پژوهشهای اخیر، نشان میدهد که باورهای افراد در مورد یک مدل زبانی بزرگ تأثیر قابل توجهی بر عملکرد آن دارد و در نحوه پیادهسازی آن نیز اهمیت ویژهای دارد.
یکی از عواملی که قدرت مدلهای زبانی بزرگ (LLM) را افزایش میدهد، تنوع وظایفی است که میتوانند به انجام آنها بپردازند. همان مدلی که میتواند به یک دانشجوی فارغالتحصیل در نوشتن ایمیل کمک کند، قادر است به یک پزشک در تشخیص سرطان نیز یاری رساند. با این حال، این قابلیت کاربرد گسترده این مدلها، ارزیابی را به صورت سیستماتیک دشوار میسازد. ایجاد یک مجموعه داده استاندارد برای آزمایش یک مدل در پاسخ به هر نوع سوالی که ممکن است مطرح شود، عملاً غیرممکن است.
چهارچوب جدید
در یک مطالعه جدید، پژوهشگران MIT رویکردی متفاوت را در پیش گرفتند. آنها بر این باورند که از آنجا که انسانها خود تصمیم میگیرند چه زمانی از مدلهای زبانی بزرگ بهرهبرداری کنند، ارزیابی یک مدل نیازمند درک چگونگی شکلگیری باورهای افراد درباره تواناییهای آن است. به عنوان نمونه، یک دانشجوی فارغالتحصیل باید تصمیم بگیرد که آیا مدل میتواند در نوشتن یک ایمیل خاص مفید واقع شود یا خیر، و پزشک نیز باید مشخص کند که کدام موارد برای مشاوره با مدل مناسبتر هستند.
با بهرهگیری از این ایده، پژوهشگران چارچوبی برای ارزیابی یک مدل زبانی بزرگ (LLM) براساس همراستایی آن با باورهای انسانی در مورد عملکردش در یک وظیفه خاص طراحی کردند. آنها یک تابع تعمیم انسانی را معرفی میکنند که مدلی از نحوه بهروزرسانی باورهای افراد درباره قابلیتهای یک LLM پس از تعامل با آن است. سپس، آنها بررسی میکنند که LLMها تا چه اندازه با این تابع تعمیم انسانی همراستا هستند. نتایج نشان میدهد که زمانی که مدلها با تابع تعمیم انسانی همخوانی ندارند، کاربران ممکن است در مورد تواناییهای آنها بیش از حد مطمئن یا کماطمینان باشند، که این امر میتواند منجر به شکستهای غیرمنتظره مدل شود. همچنین، به دلیل این عدم همراستایی، مدلهای قویتر معمولاً در شرایط پرخطر عملکرد ضعیفتری نسبت به مدلهای کوچکتر از خود نشان میدهند.
«آشیش رامباچان»، استادیار اقتصاد و محقق اصلی در آزمایشگاه اطلاعات و سیستمهای تصمیمگیری (LIDS)، بیان میکند: «این ابزارها بسیار جذاب هستند زیرا قابلیتهای متنوعی دارند، اما به همین دلیل باید در همکاری با انسانها مورد استفاده قرار گیرند، بنابراین لازم است که انسان را در فرآیند در نظر بگیریم.»
تعمیم انسانی
زمانی که با دیگران ارتباط برقرار میکنیم، تصورات خاصی درباره دانستهها و نادانستههای آنها در ذهنمان شکل میگیرد. به عنوان مثال، اگر دوستی داشته باشیم که به اشتباهات گرامری حساس است، ممکن است این تصور را پیدا کنیم که او در ساخت جملات نیز مهارت بالایی دارد، حتی اگر از او در این زمینه سؤالی نکرده باشیم.
رامباچان اظهار میدارد: «مدلهای زبانی معمولاً به شدت شبیه انسانها به نظر میرسند. هدف ما این بود که نشان دهیم این قابلیت انسان در تعمیم، همچنین در مورد تصورات مردم درباره مدلهای زبانی نیز صدق میکند.»
محققان در ابتدا به طور رسمی «تابع تعمیم انسانی» را تعریف کردند. این تابع شامل طرح یک سؤال، مشاهده پاسخ فرد یا مدل زبان بزرگ، و سپس استنتاج درباره پاسخهای ممکن آنها به سؤالات مرتبط است.
اگر فردی مشاهده کند که یک مدل زبان بزرگ قادر است به سؤالات مربوط به وارون کردن ماتریس به درستی پاسخ دهد، ممکن است تصور کند که این مدل در سؤالات ساده ریاضی نیز عملکرد خوبی خواهد داشت. اما مدلی که با این تابع سازگار نباشد، یعنی در سؤالاتی که انسان انتظار پاسخ صحیح دارد به خوبی عمل نکند، ممکن است در حین استفاده دچار مشکل شود.
محققان با استفاده از این تعریف رسمی، یک نظرسنجی ایجاد کردند تا بررسی کنند که مردم چگونه درباره کارایی مدلهای زبان بزرگ و انسانها قضاوت میکنند.
آنها به شرکتکنندگان در نظرسنجی سؤالاتی ارائه دادند که نشان میداد فرد یا مدل زبان بزرگ به درستی یا نادرستی پاسخ داده است. سپس از آنها خواستند نظرشان را درباره اینکه آیا این فرد یا مدل به سؤالات مرتبط نیز به درستی پاسخ میدهد یا خیر، بیان کنند. از نتایج این نظرسنجی، آنها مجموعهای نزدیک به ۱۹ هزار مثال از نحوه تعمیم انسانها در مورد عملکرد مدلهای زبان بزرگ در ۷۹ فعالیت مختلف تهیه کردند.
سنجش عدم تطابق
پژوهشگران متوجه شدند که شرکتکنندگان در پیشبینی اینکه آیا فردی که یک سؤال را به درستی پاسخ داده، در پاسخ به سؤال مرتبط نیز موفق خواهد بود، عملکرد خوبی داشتند. اما در پیشبینی عملکرد مدلهای زبان بزرگ، نتایج آنها بسیار ضعیف بود.
رامباچان بیان میکند: «تعمیم انسانی بر روی مدلهای زبان بزرگ نیز صورت میگیرد، اما نتیجهای ندارد زیرا این مدلها مانند انسانها الگوهای تخصصی را نشان نمیدهند.»
مردم زمانی که مدل زبان بزرگ به سؤالات نادرست پاسخ میداد، بیشتر از زمانی که پاسخهای صحیح ارائه میکرد، دیدگاههای خود را درباره آن تغییر میدادند. همچنین، آنها بر این باور بودند که عملکرد مدل در سؤالات ساده تأثیر چندانی بر عملکرد آن در سؤالات پیچیده ندارد.
در شرایطی که توجه مردم بیشتر به پاسخهای نادرست معطوف بود، مدلهای ساده عملکرد بهتری نسبت به مدلهای بزرگتر مانند GPT-4 از خود نشان دادند.
او بیان میکند: «مدلهای زبانی که بهبود مییابند، قادرند تقریباً افراد را فریب دهند تا تصور کنند در پاسخ به سؤالات مرتبط نیز عملکرد خوبی دارند، در حالی که واقعیت اینگونه نیست.»
یک دلیل ممکن برای اینکه انسانها در تعمیمدادن به مدلهای زبان بزرگ عملکرد ضعیفتری دارند، این است که این مدلها جدید هستند و افراد تجربه کافی در استفاده از آنها ندارند.
او بیان میکند: «احتمال دارد که با استفاده بیشتر از مدلهای زبان بزرگ، در آینده پیشرفت کنیم.» به همین دلیل، پژوهشگران قصد دارند تحقیقات بیشتری در مورد تغییر نگرشهای مردم نسبت به مدلهای زبان بزرگ در طول زمان انجام دهند. همچنین، آنها به دنبال بررسی این موضوع هستند که چگونه میتوان از تعمیمهای انسانی در طراحی مدلهای زبان بزرگ بهرهبرداری کرد.
او میگوید: «زمانی که ما این الگوریتمها را آموزش میدهیم یا با استفاده از بازخورد انسانی آنها را بهبود میدهیم، لازم است تابع تعمیم انسانی را مد نظر قرار دهیم تا بتوانیم عملکرد را ارزیابی کنیم.»
علاوه بر این، پژوهشگران امیدوارند که از مجموعه دادههای خود بهعنوان معیاری برای مقایسه عملکرد مدلهای زبان بزرگ با تابع تعمیم انسانی بهرهبرداری کنند. این اقدام میتواند به ارتقاء کارایی مدلهایی که در شرایط واقعی به کار گرفته میشوند، کمک نماید.
«الکس ایماس»، استاد علوم رفتاری و اقتصاد در مدرسه کسب و کار بوث دانشگاه شیکاگو که در این تحقیق مشارکت نداشته، اظهار میکند: «به نظر من این مقاله دو دستاورد مهم دارد. نخستین دستاورد، جنبه عملی آن است: این مقاله یک مشکل اساسی در استفاده عمومی از مدلهای زبان بزرگ را به تصویر میکشد. اگر مردم نتوانند به درستی تشخیص دهند که این مدلها در چه مواقعی پاسخهای صحیح و در چه مواقعی پاسخهای نادرست ارائه میدهند، احتمالاً بیشتر با اشتباهات مواجه خواهند شد و ممکن است ناامید شوند. این موضوع نشان میدهد که باید مدلها را با درک مردم از تعمیم هماهنگ کنیم.» «دستاور دوم، جنبه بنیادیتری دارد: ناتوانی در تعمیم به مسائل و حوزههای مورد انتظار، به ما کمک میکند تا بهتر بفهمیم که مدلها وقتی یک مسئله را بهدرستی حل میکنند، چه فرآیندی را طی میکنند. این موضوع بررسی میکند که آیا مدلهای زبان بزرگ واقعاً مسئله را «درک» کردهاند یا خیر.»