Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 کشف منشأ «سوگیری مکانی» در مدل‌های زبانی بزرگ

بررسی سوگیری نهان در مدل‌های زبانی هوش مصنوعی

کشف منشأ «سوگیری مکانی» در مدل‌های زبانی بزرگ

زمان مطالعه: 4 دقیقه

پژوهشی جدید از محققان «مؤسسه فناوری ماساچوست» (MIT) منشأ نوعی سوگیری در مدل‌های زبانی بزرگ (LLMs) موسوم به «سوگیری مکانی» (Position Bias) را شناسایی کرده است. این کشف گامی کلیدی در راستای توسعه سیستم‌های هوش مصنوعی دقیق‌تر و قابل‌اعتمادتر به شمار می‌رود.

سوگیری مکانی به تمایل مدل‌های زبانی بزرگ برای تمرکز بیش از حد بر اطلاعات موجود در ابتدا یا انتهای یک سند یا مکالمه و نادیده گرفتن بخش‌های میانی اشاره دارد. برای نمونه، اگر وکیلی از یک دستیار مجازی مبتنی بر مدل زبانی برای جستجوی عبارتی خاص در یک اظهارنامه ۳۰ صفحه‌ای استفاده کند، احتمال یافتن عبارت موردنظر در صورتی که در صفحات ابتدایی یا انتهایی باشد، به مراتب بیشتر است.

چارچوب نظری جدید برای تحلیل سوگیری مکانی

محققان «MIT» چارچوبی نظری برای بررسی جریان اطلاعات در معماری یادگیری ماشینی مدل‌های زبانی بزرگ طراحی کردند. آن‌ها دریافتند که برخی انتخاب‌های طراحی، از جمله نحوه پردازش داده‌های ورودی، می‌توانند به ایجاد یا تشدید سوگیری مکانی منجر شوند. آزمایش‌ها نشان داده است که معماری مدل‌ها، به‌ویژه اجزایی که توزیع اطلاعات میان واژه‌های ورودی را کنترل می‌کنند و همچنین داده‌های آموزشی، در بروز این سوگیری نقش دارند. این چارچوب نه‌تنها منشأ سوگیری مکانی را شناسایی می‌کند، بلکه ابزاری برای اصلاح آن در طراحی‌های آینده ارائه می‌دهد.

کاربردهای بالقوه در حوزه‌های مختلف

این پیشرفت می‌تواند به توسعه چت‌بات‌هایی منجر شود که در مکالمات طولانی تمرکز خود را حفظ می‌کنند، سیستم‌های پزشکی هوش مصنوعی که داده‌های بیماران را با دقت و انصاف بیشتری پردازش می‌کنند و دستیارهای برنامه‌نویسی که به تمامی بخش‌های کد توجه یکسانی دارند.

«شینی وو»، دانشجوی کارشناسی‌ارشد در «مؤسسه علوم داده، سامانه‌ها و جامعه» (IDSS) و «آزمایشگاه سامانه‌های اطلاعات و تصمیم‌گیری» (LIDS) در MIT و نویسنده اصلی این پژوهش، اظهار می‌دارد: «مدل‌های زبانی بزرگ مانند جعبه‌های سیاه هستند. کاربران ممکن است از وجود سوگیری مکانی که می‌تواند عملکرد مدل را ناپایدار کند، آگاه نباشند. درک سازوکارهای درونی این مدل‌ها به ما امکان می‌دهد با شناخت محدودیت‌ها، عملکرد آن‌ها را بهبود بخشیم.»

نویسندگان همکار این پژوهش شامل «ییفی وانگ»، پژوهشگر پسادکتری در «MIT» و نویسندگان ارشد «استفانی یگلکا»، دانشیار مهندسی برق و علوم رایانه و عضو «IDSS» و «CSAIL» و «علی جتابی»، استاد و رئیس دپارتمان مهندسی عمران و محیط‌زیست، عضو اصلی هیئت علمی «IDSS» و پژوهشگر اصلی در «LIDS» هستند. این پژوهش در «کنفرانس بین‌المللی یادگیری ماشین» («ICML») ارائه خواهد شد.

تحلیل سازوکار توجه در مدل‌های زبانی

مدل‌های زبانی مانند «Claude»، «LLaMA» و «GPT-4» بر پایه معماری شبکه‌های عصبی «ترنسفورمر» طراحی شده‌اند که برای پردازش داده‌های ترتیبی توسعه یافته‌اند. این مدل‌ها جملات را به واحدهای کوچک‌تری به نام «توکن» تجزیه می‌کنند و روابط میان آن‌ها را برای پیش‌بینی کلمه بعدی می‌آموزند. «سازوکار توجه» (Attention Mechanism) که از لایه‌های درهم‌تنیده گره‌های پردازشی تشکیل می‌شود، به مدل‌ها امکان می‌دهد با تمرکز گزینشی بر توکن‌های مرتبط، معنا را درک کنند.

با این حال، پردازش تمامی توکن‌ها در اسناد طولانی، مانند یک سند ۳۰ صفحه‌ای، از نظر محاسباتی بسیار پرهزینه است. به همین دلیل، مهندسان از تکنیک‌هایی مانند «نقاب‌گذاری توجه» (attention masking) استفاده می‌کنند تا محدوده توکن‌هایی که هر توکن می‌تواند به آن‌ها توجه کند، محدود شود. برای مثال، در «نقاب علّی» (causal mask)، هر توکن تنها به توکن‌های قبلی توجه می‌کند. همچنین، «رمزگذاری مکانی» (positional encoding) به مدل کمک می‌کند تا موقعیت هر کلمه در جمله را درک کند و عملکرد را بهبود دهد.

نقش گراف‌ها در تحلیل سازوکار توجه

محققان «MIT» با طراحی چارچوبی نظری مبتنی بر گراف، تأثیر نقاب‌گذاری توجه و رمزگذاری مکانی بر سوگیری مکانی را بررسی کردند. «شینی وو» می‌گوید: «سازوکار توجه به دلیل وابستگی‌های پیچیده خود مطالعه دشواری دارد. گراف‌ها زبان انعطاف‌پذیری برای توصیف روابط میان واژه‌ها در این سازوکار فراهم می‌کنند و امکان ردیابی این روابط در لایه‌های مختلف را می‌دهند.»

تحلیل نظری پژوهشگران «MIT» نشان می‌دهد که نقاب‌گذاری علّی به‌طور ذاتی مدل‌های زبانی را به سمت سوگیری نسبت به بخش‌های ابتدایی ورودی سوق می‌دهد، حتی در مواردی که داده‌ها خود فاقد چنین سوگیری‌هایی هستند. این پدیده می‌تواند باعث شود که مدل‌های ترنسفورمر، حتی در صورت کم‌اهمیت بودن واژه‌های ابتدایی برای معنای جمله، توجه بیش از حدی به ابتدای ورودی معطوف کنند.

«شینی وو»، دانشجوی کارشناسی ارشد در «مؤسسه علوم داده، سامانه‌ها و جامعه» (IDSS) و «آزمایشگاه سامانه‌های اطلاعات و تصمیم‌گیری» (LIDS) در «MIT»، اظهار می‌کند: «اگرچه واژه‌های ابتدایی و انتهایی یک جمله معمولاً از اهمیت بیشتری برخوردارند، اما در وظایفی غیر از تولید زبان طبیعی، مانند رتبه‌بندی یا بازیابی اطلاعات، این سوگیری مکانی می‌تواند اثرات مخربی داشته باشد.» افزایش مقیاس مدل و افزودن لایه‌های بیشتر به سازوکار توجه، این سوگیری را تشدید می‌کند، زیرا بخش‌های ابتدایی ورودی در فرآیند استدلال مدل نقش پررنگ‌تری ایفا می‌کنند.

پژوهشگران همچنین دریافتند که استفاده از رمزگذاری مکانی (positional encoding) برای تقویت ارتباط میان واژه‌ها و کلمات مجاور آن‌ها می‌تواند سوگیری مکانی را کاهش دهد. با این حال، در مدل‌هایی با لایه‌های متعدد توجه، اثر این تکنیک ممکن است کم‌رنگ شود. علاوه بر این، داده‌های آموزشی مدل که نحوه اولویت‌بندی توالی واژه‌ها را تعیین می‌کنند، نیز در ایجاد این سوگیری نقش دارند. «وو» می‌افزاید: «اگر داده‌های آموزشی دارای سوگیری خاصی باشند، تنظیمات مدل و بازتنظیم (fine-tuning) آن با توجه به این سوگیری‌ها ضروری است.»

پدیده «گم‌شده در میانه» در داده‌ها

محققان پس از توسعه چارچوب نظری خود، آزمایش‌هایی انجام دادند که در آن‌ها موقعیت پاسخ درست در توالی‌های متنی برای یک وظیفه بازیابی اطلاعات به‌صورت سیستماتیک تغییر یافت. نتایج، پدیده موسوم به «گم‌شده در میانه» را آشکار می‌کند، که در آن دقت بازیابی الگویی U-شکل را نشان می‌دهد: مدل‌ها در مواردی که پاسخ درست در ابتدای توالی قرار داشت، بهترین عملکرد را داشتند؛ با نزدیک شدن به بخش میانی، دقت کاهش می‌یافت و در نزدیکی انتهای توالی، اندکی بهبود پیدا می‌کند.

این پژوهش نشان داد که استفاده از تکنیک‌های مختلف نقاب‌گذاری، کاهش تعداد لایه‌های سازوکار توجه یا بهره‌گیری هدفمند از رمزگذاری‌های مکانی می‌تواند سوگیری مکانی را کاهش دهد و دقت مدل را افزایش دهد. «علی جتابی»، استاد و رئیس دپارتمان مهندسی عمران و محیط‌زیست «MIT»، تأکید می‌کند: «ترکیب نظریه و آزمایش به ما این امکان را می‌دهد تا پیامدهای انتخاب‌های طراحی مدل را که پیش‌تر ناشناخته بودند، بررسی کنیم. برای استفاده از مدل‌ها در کاربردهای حساس، باید دقیقاً بدانیم چه زمانی عملکرد مطلوب دارند، چه زمانی خیر، و دلیل آن چیست.»

افق‌های آینده پژوهش

در آینده، پژوهشگران قصد دارند تأثیرات رمزگذاری مکانی را عمیق‌تر بررسی کنند و امکان بهره‌برداری راهبردی از سوگیری مکانی در کاربردهای خاص را مطالعه کنند. «امین صابری»، استاد و مدیر مرکز طراحی بازار محاسباتی دانشگاه استنفورد، که در این پژوهش مشارکت نداشته، اظهار می‌کند: «این پژوهش دیدگاه نظری منحصربه‌فردی به سازوکار توجه، که هسته مدل‌های ترنسفورمر است، ارائه می‌دهد. تحلیل آن‌ها با وضوح ریاضی و بینش‌هایی که رفتارهای دیرپای این مدل‌ها را روشن می‌سازد، نشان می‌دهد که نقاب‌گذاری علّی ذاتاً مدل‌ها را به سمت سوگیری نسبت به ابتدای توالی‌ها سوق می‌دهد. این مقاله ترکیبی بی‌نظیر از دقت ریاضی و درک عمیق سازوکارهای سیستم‌های واقعی ارائه می‌کند.»

این پژوهش با حمایت «دفتر تحقیقات نیروی دریایی ایالات متحده»، «بنیاد ملی علوم آمریکا» و «بورسیه الکساندر فون هومبولت» انجام شده است.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]