Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 مدل‌های زبانی ایرانی در ارزیابی دقیق‌تر

با سیستم ارزیابی LLMهای فارسی آشنا شوید

مدل‌های زبانی ایرانی در ارزیابی دقیق‌تر

زمان مطالعه: 2 دقیقه

در سال‌های اخیر با توسعه سرویس‌های مبتنی بر هوش مصنوعی و پردازش زبان طبیعی، مدل‌های زبانی چندزبانه با پشتیبانی از زبان فارسی هم توسعه پیدا کردند. اما سؤال اصلی برای کاربران یا توسعه‌دهندگان این است که کدام مدل زبانی در انجام وظایف در زبان فارسی بهتر عمل می‌کند؟ چه مدلی را باید برای گرفتن نتیجه مطلوب استفاده کرد؟

مدل‌های زبانی بزرگ تا زمانی که توسط سنجه‌های معتبر مورد ارزیابی قرار نگیرند، کیفیت عملکرد آنها مشخص نمی‌شود و مورد اعتماد اکوسیستم هوش مصنوعی قرار نمی‌گیرند. به همین منظور، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با عرضه سیستمی جامع برای ارزیابی LLMهای فارسی (Open Persian LLM Leaderboard) امکان مقایسه مدل‌های زبانی فارسی را در انجام وظایف مختلف فراهم کرده تا اعتبار این مدل‌ها مورد ارزیابی دقیق قرار بگیرد و کاربران این مدل‌ها بتوانند انتخاب دقیق‌تری انجام دهند.

چالش رتبه‌بندی

یکی از چالش‌های اساسی زیست‌بوم هوش مصنوعی کشور، موانعی است که بر سر راه سنجش مدل‌های زبانی فارسی وجود دارد. سنجه‌های مشهور و معتبر خارجی، پشتیبانی مناسبی از زبان فارسی ندارند و سنجه‌های بومی که تاکنون عرضه شدند نیز جامعیت لازم را برای ارزیابی مدل‌ها نداشتند، از همین رو، نتیجه ارزیابی LLMهای فارسی از اعتبار کافی برخوردار نبود و امکان مقایسه موشکافانه آنها تا به امروز وجود نداشته است.

به‌منظور رفع این مانع، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، کار بر روی یک سیستم ارزیابی جامع را آغاز کردند و موفق شدند دقیق‌ترین سنجه LLMهای فارسی را در اختیار توسعه‌دهندگان، محققان و علاقه‌مندان عرصه هوش مصنوعی کشور قرار دهند.

چالش داده‌های باکیفیت

این سیستم ارزیابی شامل بیش از  40 هزار نمونه است که در آن، حجم زیادی از کلان‌داده‌های فارسی از پایه (From scratch) جمع‌آوری و برچسب‌زنی شده تا باکیفیت‌ترین داده‌ها برای سنجش مدل‌های زبانی ارائه شود. به علاوه، این چارچوب، تعدادی از بنچمارک‌های معتبر جهانی را نیز در دل خود جای داده که به همت توسعه‌دهندگان، به زبان فارسی بازگردانده شده و بومی‌سازی‌های لازم بر روی آنها صورت گرفته است تا به طور کامل با نیاز زیست‌بوم هوش مصنوعی کشور منطبق شود. شایان ذکر است، با افزایش مستمر تعداد نمونه‌ها و به‌روزرسانی مداوم، عملکرد این سیستم برای ارزیابی LLMها بهبود می‌یابد.

همراه با این چارچوب ارزیابی، یک جدول رتبه‌بندی نیز عرضه شده که امکان مقایسه و ارزیابی کلی مدل‌ها را فراهم می‌کند. با بهبود کیفیت مدل‌ها، جایگاه آنها در جدول نیز ارتقا پیدا می‌کند و بیش از پیش موردتوجه کاربران قرار می‌گیرند. این سازوکار، فضایی رقابتی را شکل می‌دهد که نتیجه آن را می‌توان در بهبود روزافزون کیفیت مدل‌های زبانی فارسی و در مقیاس کلان‌تر، در رشد صنعت هوش مصنوعی کشور مشاهده کرد. علاوه بر این، محققان و توسعه‌دهندگانی که قصد ورود به بازار LLMها را دارند، این فرصت ارزشمند را به دست می‌آورند که با کسب جایگاه در جدول رتبه‌بندی، مدل خود را به هزاران مخاطب این حوزه معرفی کنند.

ارزیابی در سطوح بالاتر

سنجه‌های فارسی که تاکنون عرضه شده‌اند، تنها تا سقف دانش دبیرستانی قادر به محک‌زدن توانایی مدل‌های بودند. این نکته باعث شده بود تا LLMهای بزرگ و توانمند، نتوانند به‌خوبی پتانسیل خود را به نمایش بگذارند. این در حالی است که سیستم ارزیابی مدل‌های فارسی، از دانشی هم‌سطح کارشناسی‌ارشد در حوزه‌های پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علوم‌انسانی و… برخوردار است و می‌تواند مدل‌ها را به شیوه‌ای حرفه‌ای مورد سنجش قرار دهد. این سیستم ارزیابی در کنار داده‌های متنی، از اعداد و فرمول‌های ریاضی هم برای سنجش عملکرد مدل‌ها استفاده می‌کند تا هر LLM از ابعاد مختلفی مورد بررسی قرار گیرد.

همکاری بین بازیگران اکوسیستم

مجموعه پارت، تقویت همکاری میان دانشگاه و صنعت را یکی از راهکارهای مؤثر برای رفع چالش‌ها و نیازهای توسعه‌دهندگان فارسی‌زبان می‌داند و از عرضه موفقیت‌آمیز سیستم ارزیابی LLMهای فارسی به‌عنوان شاهدی بر این موضوع یاد می‌کند. پارت با تأمین زیرساخت‌های ضروری و پایپ‌لاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سنجه پیشرفته را فراهم کرده و امیدوار است که این فرایند نتیجه‌بخش، در آینده نیز به توسعه ابزارهای نوآورانه بیشتری بینجامد.

این سنجه به لطف تلاش‌های دکتر سعیده ممتازی، مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کرده و نتایج ارزیابی مدل‌های فارسی در این مرجع جهانی نیز معتبر شناخته می‌شود. در نتیجه، LLMهای داخلی این امکان را دارند که در سطح جهانی مطرح شوند و مورد استفاده قرار بگیرند. شما می‌توانید با مراجعه به درگاه HuggingFace این سیستم ارزیابی، لیست مقایسه مدل‌های زبانی فارسی را مشاهده کنید و در صورت تمایل، LLM خود را با بخشی از این سیستم ارزیابی کنید.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]