برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
گزارش
مصاحبه
 هوش مصنوعی؛ باهوش‌تر از چیزی که فکر می‌کنیم

هوش مصنوعی؛ باهوش‌تر از چیزی که فکر می‌کنیم

زمان مطالعه: 4 دقیقه

پژوهش‌های اخیر، نشان می‌دهد که باورهای افراد در مورد یک مدل زبانی بزرگ تأثیر قابل توجهی بر عملکرد آن دارد و در نحوه پیاده‌سازی آن نیز اهمیت ویژه‌ای دارد.

یکی از عواملی که قدرت مدل‌های زبانی بزرگ (LLM) را افزایش می‌دهد، تنوع وظایفی است که می‌توانند به انجام آن‌ها بپردازند. همان مدلی که می‌تواند به یک دانشجوی فارغ‌التحصیل در نوشتن ایمیل کمک کند، قادر است به یک پزشک در تشخیص سرطان نیز یاری رساند. با این حال، این قابلیت کاربرد گسترده این مدل‌ها، ارزیابی را به صورت سیستماتیک دشوار می‌سازد. ایجاد یک مجموعه داده استاندارد برای آزمایش یک مدل در پاسخ به هر نوع سوالی که ممکن است مطرح شود، عملاً غیرممکن است.

چهارچوب جدید

در یک مطالعه جدید، پژوهشگران MIT رویکردی متفاوت را در پیش گرفتند. آن‌ها بر این باورند که از آنجا که انسان‌ها خود تصمیم می‌گیرند چه زمانی از مدل‌های زبانی بزرگ بهره‌برداری کنند، ارزیابی یک مدل نیازمند درک چگونگی شکل‌گیری باورهای افراد درباره توانایی‌های آن است. به عنوان نمونه، یک دانشجوی فارغ‌التحصیل باید تصمیم بگیرد که آیا مدل می‌تواند در نوشتن یک ایمیل خاص مفید واقع شود یا خیر، و پزشک نیز باید مشخص کند که کدام موارد برای مشاوره با مدل مناسب‌تر هستند.

با بهره‌گیری از این ایده، پژوهشگران چارچوبی برای ارزیابی یک مدل زبانی بزرگ (LLM) براساس هم‌راستایی آن با باورهای انسانی در مورد عملکردش در یک وظیفه خاص طراحی کردند. آن‌ها یک تابع تعمیم انسانی را معرفی می‌کنند که مدلی از نحوه به‌روزرسانی باورهای افراد درباره قابلیت‌های یک LLM پس از تعامل با آن است. سپس، آن‌ها بررسی می‌کنند که LLMها تا چه اندازه با این تابع تعمیم انسانی هم‌راستا هستند. نتایج نشان می‌دهد که زمانی که مدل‌ها با تابع تعمیم انسانی هم‌خوانی ندارند، کاربران ممکن است در مورد توانایی‌های آن‌ها بیش از حد مطمئن یا کم‌اطمینان باشند، که این امر می‌تواند منجر به شکست‌های غیرمنتظره مدل شود. همچنین، به دلیل این عدم هم‌راستایی، مدل‌های قوی‌تر معمولاً در شرایط پرخطر عملکرد ضعیف‌تری نسبت به مدل‌های کوچکتر از خود نشان می‌دهند.

«آشیش رامباچان»، استادیار اقتصاد و محقق اصلی در آزمایشگاه اطلاعات و سیستم‌های تصمیم‌گیری (LIDS)، بیان می‌کند: «این ابزارها بسیار جذاب هستند زیرا قابلیت‌های متنوعی دارند، اما به همین دلیل باید در همکاری با انسان‌ها مورد استفاده قرار گیرند، بنابراین لازم است که انسان را در فرآیند در نظر بگیریم.»

تعمیم انسانی

زمانی که با دیگران ارتباط برقرار می‌کنیم، تصورات خاصی درباره دانسته‌ها و نادانسته‌های آن‌ها در ذهن‌مان شکل می‌گیرد. به عنوان مثال، اگر دوستی داشته باشیم که به اشتباهات گرامری حساس است، ممکن است این تصور را پیدا کنیم که او در ساخت جملات نیز مهارت بالایی دارد، حتی اگر از او در این زمینه سؤالی نکرده باشیم.

رامباچان اظهار می‌دارد: «مدل‌های زبانی معمولاً به شدت شبیه انسان‌ها به نظر می‌رسند. هدف ما این بود که نشان دهیم این قابلیت انسان در تعمیم، همچنین در مورد تصورات مردم درباره مدل‌های زبانی نیز صدق می‌کند.»

محققان در ابتدا به طور رسمی «تابع تعمیم انسانی» را تعریف کردند. این تابع شامل طرح یک سؤال، مشاهده پاسخ فرد یا مدل زبان بزرگ، و سپس استنتاج درباره پاسخ‌های ممکن آن‌ها به سؤالات مرتبط است.

اگر فردی مشاهده کند که یک مدل زبان بزرگ قادر است به سؤالات مربوط به وارون کردن ماتریس به درستی پاسخ دهد، ممکن است تصور کند که این مدل در سؤالات ساده ریاضی نیز عملکرد خوبی خواهد داشت. اما مدلی که با این تابع سازگار نباشد، یعنی در سؤالاتی که انسان انتظار پاسخ صحیح دارد به خوبی عمل نکند، ممکن است در حین استفاده دچار مشکل شود.

محققان با استفاده از این تعریف رسمی، یک نظرسنجی ایجاد کردند تا بررسی کنند که مردم چگونه درباره کارایی مدل‌های زبان بزرگ و انسان‌ها قضاوت می‌کنند.

آن‌ها به شرکت‌کنندگان در نظرسنجی سؤالاتی ارائه دادند که نشان می‌داد فرد یا مدل زبان بزرگ به درستی یا نادرستی پاسخ داده است. سپس از آن‌ها خواستند نظرشان را درباره اینکه آیا این فرد یا مدل به سؤالات مرتبط نیز به درستی پاسخ می‌دهد یا خیر، بیان کنند. از نتایج این نظرسنجی، آن‌ها مجموعه‌ای نزدیک به ۱۹ هزار مثال از نحوه تعمیم انسان‌ها در مورد عملکرد مدل‌های زبان بزرگ در ۷۹ فعالیت مختلف تهیه کردند.

سنجش عدم تطابق

پژوهشگران متوجه شدند که شرکت‌کنندگان در پیش‌بینی اینکه آیا فردی که یک سؤال را به درستی پاسخ داده، در پاسخ به سؤال مرتبط نیز موفق خواهد بود، عملکرد خوبی داشتند. اما در پیش‌بینی عملکرد مدل‌های زبان بزرگ، نتایج آن‌ها بسیار ضعیف بود.

رامباچان بیان می‌کند: «تعمیم انسانی بر روی مدل‌های زبان بزرگ نیز صورت می‌گیرد، اما نتیجه‌ای ندارد زیرا این مدل‌ها مانند انسان‌ها الگوهای تخصصی را نشان نمی‌دهند.»

مردم زمانی که مدل زبان بزرگ به سؤالات نادرست پاسخ می‌داد، بیشتر از زمانی که پاسخ‌های صحیح ارائه می‌کرد، دیدگاه‌های خود را درباره آن تغییر می‌دادند. همچنین، آن‌ها بر این باور بودند که عملکرد مدل در سؤالات ساده تأثیر چندانی بر عملکرد آن در سؤالات پیچیده ندارد.

در شرایطی که توجه مردم بیشتر به پاسخ‌های نادرست معطوف بود، مدل‌های ساده عملکرد بهتری نسبت به مدل‌های بزرگ‌تر مانند GPT-4 از خود نشان دادند.

او بیان می‌کند: «مدل‌های زبانی که بهبود می‌یابند، قادرند تقریباً افراد را فریب دهند تا تصور کنند در پاسخ به سؤالات مرتبط نیز عملکرد خوبی دارند، در حالی که واقعیت اینگونه نیست.»

یک دلیل ممکن برای اینکه انسان‌ها در تعمیم‌دادن به مدل‌های زبان بزرگ عملکرد ضعیف‌تری دارند، این است که این مدل‌ها جدید هستند و افراد تجربه کافی در استفاده از آن‌ها ندارند.

او بیان می‌کند: «احتمال دارد که با استفاده بیشتر از مدل‌های زبان بزرگ، در آینده پیشرفت کنیم.» به همین دلیل، پژوهشگران قصد دارند تحقیقات بیشتری در مورد تغییر نگرش‌های مردم نسبت به مدل‌های زبان بزرگ در طول زمان انجام دهند. همچنین، آن‌ها به دنبال بررسی این موضوع هستند که چگونه می‌توان از تعمیم‌های انسانی در طراحی مدل‌های زبان بزرگ بهره‌برداری کرد.

او می‌گوید: «زمانی که ما این الگوریتم‌ها را آموزش می‌دهیم یا با استفاده از بازخورد انسانی آن‌ها را بهبود می‌دهیم، لازم است تابع تعمیم انسانی را مد نظر قرار دهیم تا بتوانیم عملکرد را ارزیابی کنیم.»

علاوه بر این، پژوهشگران امیدوارند که از مجموعه داده‌های خود به‌عنوان معیاری برای مقایسه عملکرد مدل‌های زبان بزرگ با تابع تعمیم انسانی بهره‌برداری کنند. این اقدام می‌تواند به ارتقاء کارایی مدل‌هایی که در شرایط واقعی به کار گرفته می‌شوند، کمک نماید.

«الکس ایماس»، استاد علوم رفتاری و اقتصاد در مدرسه کسب و کار بوث دانشگاه شیکاگو که در این تحقیق مشارکت نداشته، اظهار می‌کند: «به نظر من این مقاله دو دستاورد مهم دارد. نخستین دستاورد، جنبه عملی آن است: این مقاله یک مشکل اساسی در استفاده عمومی از مدل‌های زبان بزرگ را به تصویر می‌کشد. اگر مردم نتوانند به درستی تشخیص دهند که این مدل‌ها در چه مواقعی پاسخ‌های صحیح و در چه مواقعی پاسخ‌های نادرست ارائه می‌دهند، احتمالاً بیشتر با اشتباهات مواجه خواهند شد و ممکن است ناامید شوند. این موضوع نشان می‌دهد که باید مدل‌ها را با درک مردم از تعمیم هماهنگ کنیم.» «دستاور دوم، جنبه بنیادی‌تری دارد: ناتوانی در تعمیم به مسائل و حوزه‌های مورد انتظار، به ما کمک می‌کند تا بهتر بفهمیم که مدل‌ها وقتی یک مسئله را به‌درستی حل می‌کنند، چه فرآیندی را طی می‌کنند. این موضوع بررسی می‌کند که آیا مدل‌های زبان بزرگ واقعاً مسئله را «درک» کرده‌اند یا خیر.»

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]