مدلهای زبانی کوچک MIT، پانصد برابر بهتر از نسخههای بسیار پیشرفته قبلی
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) در MIT، به پیشرفتی پیشگامانه در مدلسازی زبان در حوزه مدلهای زبانی بزرگ (LLM) دست یافتهاند. این محققان مدلهای زبانی را ایجاد کردهاند که میتوانند به تنهایی یاد بگیرند و بدون نیاز به برنامهریزی صریح، پیشرفت کنند. این مدلها بهتر از نسخههای بسیار پیشرفته قبلی هستند، زیرا میتوانند خود را از طریق تجربه و ورودی داده بهبود بخشند.
به گزارش هوشیو، تیم CSAIL پیشگام رویکردی نوآورانه برای مدلسازی زبان هستند که این باور مرسوم را که مدلهای زبانی کوچکتر دارای قابلیتهای محدودی هستند را به چالش میکشد. این تحقیق یک مدل مقیاسپذیر و خودآموز را معرفی میکند که قادر است بدون نیاز به دستورالعملهای تولیدشده توسط انسان، به تنهایی یاد بگیرد و تواناییهای خود را بدون نیاز به مداخله انسانی بهبود بخشد. این پلتفرم میتواند برای انجام وظایف زبانی خاص تا 500 برابر بهتر از همتایان بزرگتر و سنتیتر خود عمل نماید.
قابل ذکر است، تیم تحقیقاتی ادعا میکند که این رویکرد ابداعی به طرز قابلتوجهی عملکرد مدل را در کارهای مختلف افزایش میدهد و از مدلهای قابلتوجهی مانند LaMDA، FLAN و سایر مدلهای GPT گوگل پیشی میگیرد .
یک انقلاب (اما با دامنه محدود)
تیم تحقیقاتی MIT در مقاله خود «Entailment as Robust Self-Learners»، این استدلال را ارائه میکند؛ در حالی که پیشرفتهای اخیر در تولید زبان با LLM انقلابی را به همراه داشته است، اما این مدلها محدودیت مشخصی در درک وظایف خود دارند.
Hongyin Luo، دانشیار فوق دکتری MIT CSAIL و نویسنده ارشد تحقیق، به VentureBeat گفت: «ماشینحسابهای دیجیتال در محاسبات بهتر از GPT-4 هستند، زیرا به طور خاص برای انجام محاسبات طراحی شدهاند. مدل کوچک ما برای درک معانی ضمنی پشت کلمات و عبارات «مطالعه متنی» آموزش دیده است، درحالیکهLLM ها آموزش صریحی در این زمینه دریافت نمیکنند. با تمرکز بر این جنبه کلیدی، کارایی پارامتر مدل ما بسیار بالاتر ازLLM ها است و به همین خاطر عملکرد خوبی در انجام وظایف NLU (درک زبان طبیعی) از خود نشان میدهد.»
به زبان ساده، این تحقیق بیان میکند که یک مدل زبانی که به طور خاص برای درک زمینهای مشخص آموزش دیده است، میتواند نسبت به سایر مدلها در انجام وظایفNLU (مانند پاسخ دادن به سؤالات یا درک متن) بهتر عمل نماید.
علاوهبراین، تیم CSAIL معتقد است که پیامدهای این تحقیق فراتر از افزایش صرف عملکرد مدلهای زبانی خواهد بود، بلکه این تصور رایج که مدلهای بزرگتر ذاتا برتر هستند را به چالش میکشد و پتانسیل مدلهای کوچکتر را بهعنوان جایگزینهایی به همان اندازه قدرتمند و پایدار از نظر زیستمحیطی برجسته میکند.
تقویت درک مدل زبان از طریق پیوست متنی
تیم MIT CSAIL میخواست با تمرکز بر مفاهیم متنی، درک مدل زبانی از وظایف زبانی مختلف را بهبود بخشد. دلالت متنی ارتباط میان دو جمله را نشان میدهد که به موجب آن اگر یک جمله (مقدمات) درست باشد، احتمال میرود جمله دیگر (فرضیه) نیز صحیح باشد. با درک این رابطه بین جملات، مدل زبانی میتواند یک متن منسجم را بهتر درک کرده و تولید نماید.
برای بهبود توانایی مدل زبان در درک و تولید متن، محققان مدل را با استفاده از یک مدل تخصصی که روابط بین جملات را تشخیص میدهد، آموزش دادند. این به محققان اجازه داد تا پرسشهایی ایجاد کنند تا ببینند آیا اطلاعات خاصی برای وظایف مختلف زبانی مورد نیاز است یا خیر. با انطباق و بهبود درک مدل از این روابط، آنها توانستند سازگاری و توانایی مدل را برای انطباق با وظایف جدید، بدون نیاز به آموزش مجدد بهبود بخشند که به آن «انطباق شات صفر» میگویند. به عبارت ساده، محققان راهی برای آموزش مدل زبان خود بهمنظور تشخیص روابط بین جملات یافتند که به آن اجازه میداد بدون نیاز به آموزش اضافی در کارهای جدید بهتر عمل کند.
لو از MIT به VentureBeat گفت که اگرچه LLMها تواناییهای چشمگیری در تولید زبان، هنر و کد به نمایش گذاشتهاند، اما هزینههای محاسباتی قابلتوجه و خطرات حفظ حریم خصوصی، در هنگام مدیریت دادههای حساس را بههمراه دارند. برعکس، مدلهای کوچکتر از لحاظ تاریخی از همتایان بزرگتر خود در کارهای چندوظیفهای و با نظارت ضعیف عقب افتادهاند.
برای مقابله با این چالشها، محققان MIT CSAIL از مجموعه دادههای مبتنی بر منطق و آموزش درک روابط متنی بین جملات، مدلهای زبانی کوچکتر اما هوشمندتر از مدلهای بسیار بزرگتر زبانی ایجاد کردند.