با سیستم ارزیابی LLMهای فارسی آشنا شوید
مدلهای زبانی ایرانی در ارزیابی دقیقتر
در سالهای اخیر با توسعه سرویسهای مبتنی بر هوش مصنوعی و پردازش زبان طبیعی، مدلهای زبانی چندزبانه با پشتیبانی از زبان فارسی هم توسعه پیدا کردند. اما سؤال اصلی برای کاربران یا توسعهدهندگان این است که کدام مدل زبانی در انجام وظایف در زبان فارسی بهتر عمل میکند؟ چه مدلی را باید برای گرفتن نتیجه مطلوب استفاده کرد؟
مدلهای زبانی بزرگ تا زمانی که توسط سنجههای معتبر مورد ارزیابی قرار نگیرند، کیفیت عملکرد آنها مشخص نمیشود و مورد اعتماد اکوسیستم هوش مصنوعی قرار نمیگیرند. به همین منظور، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با عرضه سیستمی جامع برای ارزیابی LLMهای فارسی (Open Persian LLM Leaderboard) امکان مقایسه مدلهای زبانی فارسی را در انجام وظایف مختلف فراهم کرده تا اعتبار این مدلها مورد ارزیابی دقیق قرار بگیرد و کاربران این مدلها بتوانند انتخاب دقیقتری انجام دهند.
چالش رتبهبندی
یکی از چالشهای اساسی زیستبوم هوش مصنوعی کشور، موانعی است که بر سر راه سنجش مدلهای زبانی فارسی وجود دارد. سنجههای مشهور و معتبر خارجی، پشتیبانی مناسبی از زبان فارسی ندارند و سنجههای بومی که تاکنون عرضه شدند نیز جامعیت لازم را برای ارزیابی مدلها نداشتند، از همین رو، نتیجه ارزیابی LLMهای فارسی از اعتبار کافی برخوردار نبود و امکان مقایسه موشکافانه آنها تا به امروز وجود نداشته است.
بهمنظور رفع این مانع، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، کار بر روی یک سیستم ارزیابی جامع را آغاز کردند و موفق شدند دقیقترین سنجه LLMهای فارسی را در اختیار توسعهدهندگان، محققان و علاقهمندان عرصه هوش مصنوعی کشور قرار دهند.
چالش دادههای باکیفیت
این سیستم ارزیابی شامل بیش از 40 هزار نمونه است که در آن، حجم زیادی از کلاندادههای فارسی از پایه (From scratch) جمعآوری و برچسبزنی شده تا باکیفیتترین دادهها برای سنجش مدلهای زبانی ارائه شود. به علاوه، این چارچوب، تعدادی از بنچمارکهای معتبر جهانی را نیز در دل خود جای داده که به همت توسعهدهندگان، به زبان فارسی بازگردانده شده و بومیسازیهای لازم بر روی آنها صورت گرفته است تا به طور کامل با نیاز زیستبوم هوش مصنوعی کشور منطبق شود. شایان ذکر است، با افزایش مستمر تعداد نمونهها و بهروزرسانی مداوم، عملکرد این سیستم برای ارزیابی LLMها بهبود مییابد.
همراه با این چارچوب ارزیابی، یک جدول رتبهبندی نیز عرضه شده که امکان مقایسه و ارزیابی کلی مدلها را فراهم میکند. با بهبود کیفیت مدلها، جایگاه آنها در جدول نیز ارتقا پیدا میکند و بیش از پیش موردتوجه کاربران قرار میگیرند. این سازوکار، فضایی رقابتی را شکل میدهد که نتیجه آن را میتوان در بهبود روزافزون کیفیت مدلهای زبانی فارسی و در مقیاس کلانتر، در رشد صنعت هوش مصنوعی کشور مشاهده کرد. علاوه بر این، محققان و توسعهدهندگانی که قصد ورود به بازار LLMها را دارند، این فرصت ارزشمند را به دست میآورند که با کسب جایگاه در جدول رتبهبندی، مدل خود را به هزاران مخاطب این حوزه معرفی کنند.
ارزیابی در سطوح بالاتر
سنجههای فارسی که تاکنون عرضه شدهاند، تنها تا سقف دانش دبیرستانی قادر به محکزدن توانایی مدلهای بودند. این نکته باعث شده بود تا LLMهای بزرگ و توانمند، نتوانند بهخوبی پتانسیل خود را به نمایش بگذارند. این در حالی است که سیستم ارزیابی مدلهای فارسی، از دانشی همسطح کارشناسیارشد در حوزههای پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علومانسانی و… برخوردار است و میتواند مدلها را به شیوهای حرفهای مورد سنجش قرار دهد. این سیستم ارزیابی در کنار دادههای متنی، از اعداد و فرمولهای ریاضی هم برای سنجش عملکرد مدلها استفاده میکند تا هر LLM از ابعاد مختلفی مورد بررسی قرار گیرد.
همکاری بین بازیگران اکوسیستم
مجموعه پارت، تقویت همکاری میان دانشگاه و صنعت را یکی از راهکارهای مؤثر برای رفع چالشها و نیازهای توسعهدهندگان فارسیزبان میداند و از عرضه موفقیتآمیز سیستم ارزیابی LLMهای فارسی بهعنوان شاهدی بر این موضوع یاد میکند. پارت با تأمین زیرساختهای ضروری و پایپلاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سنجه پیشرفته را فراهم کرده و امیدوار است که این فرایند نتیجهبخش، در آینده نیز به توسعه ابزارهای نوآورانه بیشتری بینجامد.
این سنجه به لطف تلاشهای دکتر سعیده ممتازی، مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کرده و نتایج ارزیابی مدلهای فارسی در این مرجع جهانی نیز معتبر شناخته میشود. در نتیجه، LLMهای داخلی این امکان را دارند که در سطح جهانی مطرح شوند و مورد استفاده قرار بگیرند. شما میتوانید با مراجعه به درگاه HuggingFace این سیستم ارزیابی، لیست مقایسه مدلهای زبانی فارسی را مشاهده کنید و در صورت تمایل، LLM خود را با بخشی از این سیستم ارزیابی کنید.