مدل‌های زبانی کوچک MIT، پانصد برابر بهتر از نسخه‌های بسیار پیشرفته قبلی

تیم تحریریه
۱۶ خرداد ۱۴۰۲

زمان مطالعه: 3 دقیقه

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) در MIT، به پیشرفتی پیشگامانه در مدل‌سازی زبان در حوزه مدل‌های زبانی بزرگ (LLM) دست یافته‌اند. این محققان مدل‌های زبانی را ایجاد کرده‌اند که می‌توانند به تنهایی یاد بگیرند و بدون نیاز به برنامه‌ریزی صریح، پیشرفت کنند. این مدل‌ها بهتر از نسخه‌های بسیار پیشرفته قبلی هستند، زیرا می‌توانند خود را از طریق تجربه و ورودی داده بهبود بخشند.

به گزارش هوشیو، تیم CSAIL پیشگام رویکردی نوآورانه برای مدل‌سازی زبان هستند که این باور مرسوم را که مدل‌های زبانی کوچک‌تر دارای قابلیت‌های محدودی هستند را به چالش می‌کشد. این تحقیق یک مدل مقیاس‌پذیر و خودآموز را معرفی می‌کند که قادر است بدون نیاز به دستورالعمل‌های تولید‌شده توسط انسان، به تنهایی یاد بگیرد و توانایی‌های خود را بدون نیاز به مداخله انسانی بهبود بخشد. این پلتفرم می‌تواند برای انجام وظایف زبانی خاص تا 500 برابر بهتر از همتایان بزرگ‌تر و سنتی‌تر خود عمل نماید.

قابل ذکر است، تیم تحقیقاتی ادعا می‌کند که این رویکرد ابداعی به طرز قابل‎توجهی عملکرد مدل را در کارهای مختلف افزایش می‌دهد و از مدل‎های قابل‎توجهی مانند LaMDA، FLAN و سایر مدل‌های GPT گوگل پیشی می‌گیرد .

فهرست مقاله پنهان

1 یک انقلاب (اما با دامنه محدود)

2 تقویت درک مدل زبان از طریق پیوست متنی

یک انقلاب (اما با دامنه محدود)

تیم تحقیقاتی MIT در مقاله خود «Entailment as Robust Self-Learners»، این استدلال را ارائه می‌کند؛ در حالی که پیشرفت‌های اخیر در تولید زبان با LLM انقلابی را به همراه داشته است، اما این مدل‌ها محدودیت مشخصی در درک وظایف خود دارند.

Hongyin Luo، دانش‌یار فوق دکتری MIT CSAIL و نویسنده ارشد تحقیق، به VentureBeat گفت: «ماشین‌حساب‌های دیجیتال در محاسبات بهتر از GPT-4 هستند، زیرا به طور خاص برای انجام محاسبات طراحی شده‌اند. مدل کوچک ما برای درک معانی ضمنی پشت کلمات و عبارات «مطالعه متنی» آموزش دیده است، در‌حالی‌کهLLM ها آموزش صریحی در این زمینه دریافت نمی‌کنند. با تمرکز بر این جنبه کلیدی، کارایی پارامتر مدل ما بسیار بالاتر ازLLM ها است و به همین خاطر عملکرد خوبی در انجام وظایف NLU (درک زبان طبیعی) از خود نشان می‌دهد.»

به زبان ساده، این تحقیق بیان می‌کند که یک مدل زبانی که به طور خاص برای درک زمینه‎ای مشخص آموزش دیده است، می‌تواند نسبت به سایر مدل‌ها در انجام وظایفNLU (مانند پاسخ دادن به سؤالات یا درک متن) بهتر عمل نماید.

علاوه‌بر‎این، تیم CSAIL معتقد است که پیامدهای این تحقیق فراتر از افزایش صرف عملکرد مدل‌های زبانی خواهد بود، بلکه این تصور رایج که مدل‌های بزرگ‌تر ذاتا برتر هستند را به چالش می‌کشد و پتانسیل مدل‌های کوچک‌تر را به‌عنوان جایگزین‌هایی به همان اندازه قدرتمند و پایدار از نظر زیست‌محیطی برجسته می‌کند.

تقویت درک مدل زبان از طریق پیوست متنی

تیم MIT CSAIL می‌خواست با تمرکز بر مفاهیم متنی، درک مدل زبانی از وظایف زبانی مختلف را بهبود بخشد. دلالت متنی ارتباط میان دو جمله را نشان می‌دهد که به موجب آن اگر یک جمله (مقدمات) درست باشد، احتمال می‌رود جمله دیگر (فرضیه) نیز صحیح باشد. با درک این رابطه بین جملات، مدل زبانی می‌تواند یک متن منسجم را بهتر درک کرده و تولید نماید.

برای بهبود توانایی مدل زبان در درک و تولید متن، محققان مدل را با استفاده از یک مدل تخصصی که روابط بین جملات را تشخیص می‌دهد، آموزش دادند. این به محققان اجازه داد تا پرسش‌هایی ایجاد کنند تا ببینند آیا اطلاعات خاصی برای وظایف مختلف زبانی مورد نیاز است یا خیر. با انطباق و بهبود درک مدل از این روابط، آنها توانستند سازگاری و توانایی مدل را برای انطباق با وظایف جدید، بدون نیاز به آموزش مجدد بهبود بخشند که به آن «انطباق شات صفر» می‌گویند. به عبارت ساده، محققان راهی برای آموزش مدل زبان خود به‌منظور تشخیص روابط بین جملات یافتند که به آن اجازه می‌داد بدون نیاز به آموزش اضافی در کارهای جدید بهتر عمل کند.

لو از MIT به VentureBeat گفت که اگرچه ‌LLMها توانایی‌های چشمگیری در تولید زبان، هنر و کد به نمایش گذاشته‌اند، اما هزینه‌های محاسباتی قابل‌توجه و خطرات حفظ حریم خصوصی، در هنگام مدیریت داده‌های حساس را به‌همراه دارند. برعکس، مدل‌های کوچک‌تر از لحاظ تاریخی از همتایان بزرگ‌تر خود در کارهای چندوظیفه‌ای و با نظارت ضعیف عقب افتاده‌اند.

برای مقابله با این چالش‌ها، محققان MIT CSAIL از مجموعه داده‌های مبتنی بر منطق و آموزش درک روابط متنی بین جملات، مدل‌های زبانی کوچکتر اما هوشمندتر از مدل‌های بسیار بزرگ‌تر زبانی ایجاد کردند.