
سهولت در اعتبارسنجی پاسخهای مدلهای هوش مصنوعی
با وجود ویژگیهای برجسته مدلهای زبانی بزرگ، هنوز به کمال نرسیدهاند و گاهی اوقات دچار «توهم» میشوند، به این معنا که به سؤالات پاسخهای نادرست یا بیاساسی ارائه میدهند. به همین دلیل، معمولاً پاسخهای آنها، بهویژه در زمینههای حساس مانند بهداشت و امور مالی، توسط انسانها مورد بررسی قرار میگیرد.
اعتبارسنجی
به طور کلی، فرآیند اعتبارسنجی معمولاً مستلزم این است که افراد اسناد طولانی که توسط مدل ارجاع داده شدهاند را مطالعه کنند. این کار نه تنها زمانبر است، بلکه احتمال بروز خطا نیز در آن وجود دارد و ممکن است برخی از کاربران را از استفاده از مدلهای مولد هوش مصنوعی بازدارد.
پژوهشگران MIT سیستمی ساده به نام SymGen طراحی کردهاند که به افراد کمک میکند تا پاسخهای مدلهای زبانی را به طور سریعتر و آسانتری بررسی کنند. این ابزار به مدل این امکان را میدهد که پاسخهایی با ارجاعات دقیق ارائه دهد که به طور مستقیم به محل اطلاعات در منبع اصلی، مانند یک سلول خاص در پایگاهداده، اشاره کند.
کاربران میتوانند با قراردادن نشانگر ماوس بر روی بخشهای مشخصشده، پاسخ متنی و دادههایی را مشاهده کنند که مدل برای تولید آن کلمه یا عبارت خاص به کار برده است. در عین حال، بخشهای بدون برچسب به کاربران نشان میدهد که کدام قسمتها نیاز به توجه بیشتری برای بررسی و تأیید دارند.
«شانون شن»، دانشجوی کارشناسیارشد در رشته مهندسی برق و علوم رایانه و یکی از نویسندگان این تحقیق درباره SymGen اظهار میدارد: «ما به کاربران این فرصت را میدهیم که بر روی بخشهایی از متن که نیاز به بررسی دقیقتری دارند، تمرکز کنند. در نهایت، SymGen میتواند اعتماد افراد را به پاسخهای مدل افزایش دهد، زیرا آنها به سادگی میتوانند اطلاعات را بررسی کرده و از صحت آن اطمینان حاصل کنند.»
در یک تحقیق انجام شده بر روی کاربران، شن و همکارانش متوجه شدند که ابزار SymGen زمان موردنیاز برای بررسی و تأیید پاسخهای مدل را تقریباً ۲۰ درصد کاهش میدهد. این ابزار با تسریع فرآیند تأیید، به افراد این امکان را میدهد که در موقعیتهای مختلف، از تهیه گزارشهای بالینی تا خلاصهسازی گزارشهای مالی، به سرعت خطاهای مدلهای زبانی را شناسایی کنند.
در این تحقیق، شن به همراه «لوکاس تورویا هنینگن» و «انیرودا نوروسیمها»، دو دانشجوی رشته EECS، بهعنوان همکاران اصلی فعالیت کرده است. همچنین، «برنهارد گاپ»، رئیس Good Data Initiative؛ «دیوید سانتاگ»، استاد EECS و سرپرست گروه یادگیری ماشین بالینی در آزمایشگاه CSAIL؛ و «یون کیم»، استادیار EECS و عضو CSAIL نیز در این پروژه همکاری داشتهاند. نتایج این پژوهش بهتازگی در کنفرانس مدلسازی زبان ارائه شده است.
ارجاعات سمبلیک
بسیاری از مدلهای زبان بزرگ (LLM) به گونهای طراحی شدهاند که علاوه بر ارائه پاسخهای متنی، ارجاعاتی به منابع خارجی نیز ارائه دهند تا کاربران بتوانند صحت اطلاعات را بررسی کنند. «شانون شن» بیان میکند که این سیستمهای ارجاع معمولاً به صورت سطحی طراحی میشوند و به زحمت کاربران در جستوجوی ارجاعات متعدد توجه کافی نمیشود.
در ادامه، شن توضیح میدهد: «هدف از بهکارگیری هوش مصنوعی مولد، کاهش زمان لازم برای انجام کارها توسط کاربر است. اگر برای اطمینان از صحت اطلاعات، نیاز باشد ساعتها به مطالعه تمام این اسناد بپردازید، در این صورت استفاده از این مدلها چندان مفید نخواهد بود.» این پژوهشگران، مسئله اعتبارسنجی را از منظر افرادی که این کار را انجام میدهند، مورد بررسی قرار دادهاند.
در مرحله نخست، کاربر SymGen دادههایی را که مدل زبان قادر به ارجاع به آنهاست، مانند جدولی از آمار یک بازی بسکتبال، ارائه میدهد. سپس، بهجای اینکه بلافاصله از مدل بخواهند که خلاصهای از بازی بر اساس این دادهها ارائه دهد، پژوهشگران یک مرحله میانی را در نظر میگیرند. در این مرحله، آنها از مدل میخواهند که پاسخ خود را بهصورت نمادین تولید کند.
در این روش، هر زمان که مدل نیاز داشته باشد به اطلاعات خاصی در پاسخ اشاره کند، باید به جای متن اصلی، نام سلول مشخصی از جدول داده را که شامل آن اطلاعات است، ارائه دهد. به عنوان مثال، اگر مدل بخواهد عبارت «Portland Trailblazers» را ذکر کند، آن را با نام سلول جدول داده که این عبارت در آن موجود است، جایگزین میکند.
«توروبا هنینگن» بیان میکند: «وجود این مرحله میانی که اطلاعات را بهصورت نمادین نمایش میدهد، به ما این امکان را میدهد که ارجاعات دقیقتری داشته باشیم و بهوضوح مشخص کنیم که هر قسمت از متن خروجی از کدام بخش دادهها نشأت گرفته است.»
سپس، SymGen هر ارجاع را با بهرهگیری از ابزاری مبتنی بر قواعد حل میکند و متن مرتبط را به طور مستقیم از جدول دادهها به پاسخ مدل اضافه مینماید. شن توضیح میدهد: «به این ترتیب، ما اطمینان داریم که این متن به طور کامل کپی شده و در بخشهایی که به اطلاعات واقعی اشاره دارد، هیچگونه خطایی وجود نخواهد داشت.»
سادهسازی فرآیند اعتبارسنجی
مدل قادر است پاسخهای نمادین ایجاد کند، زیرا فرآیند آموزش آن به این شیوه طراحی شده است. مدلهای زبان بزرگ با استفاده از حجم وسیعی از دادههای موجود در اینترنت آموزش میبینند و بخشی از این دادهها بهصورت «قالبهای جایگزین» ثبت شدهاند، جایی که کدها به جای مقادیر واقعی قرار داده میشوند.
زمانی که SymGen از مدل درخواست میکند تا یک پاسخ نمادین ارائه دهد، از ساختار مشابهی بهره میبرد. شن توضیح میدهد: «ما prompt را به نحوی طراحی میکنیم که از تواناییهای LLM استفاده کند.»
در یک مطالعه کاربری، بیشتر شرکتکنندگان اظهار کردند که SymGen فرآیند اعتبارسنجی متن تولید شده توسط LLM را تسهیل کرده است. آنها توانستند پاسخهای مدل را تقریباً ۲۰ درصد سریعتر از روشهای معمول اعتبارسنجی بررسی کنند.
با وجود قابلیتهای SymGen، این سیستم به کیفیت دادههای منبع وابسته است. ممکن است مدل به یک متغیر نادرست اشاره کند و در این حالت، اعتبارسنجی انسانی ممکن است از این خطا مطلع نشود.
علاوه بر این، کاربر ملزم است که دادههای منبع را به شکل ساختار یافته، مانند یک جدول، به SymGen ارائه دهد. در حال حاضر، این سیستم تنها با دادههای جدولی سازگار است.
در آینده، پژوهشگران در حال ارتقاء SymGen هستند تا توانایی مدیریت انواع متن و دیگر فرمهای داده را نیز پیدا کند. با این ویژگی، SymGen قادر خواهد بود به اعتبارسنجی بخشهایی از خلاصههای مستندات حقوقی که توسط هوش مصنوعی تولید شدهاند، کمک کند. همچنین، آنها برنامه دارند تا SymGen را با پزشکان آزمایش کنند تا بررسی کنند که چگونه میتواند خطاها را در خلاصههای بالینی تولید شده توسط هوش مصنوعی شناسایی نماید.
این تحقیق با حمایت مالی Liberty Mutual و ابتکار MIT Quest for Intelligence انجام شده است.