برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
 معرفی معیار جدید OpenAI برای ارزیابی توانایی‌های تحقیقاتی عوامل هوش مصنوعی

معرفی معیار جدید OpenAI برای ارزیابی توانایی‌های تحقیقاتی عوامل هوش مصنوعی

زمان مطالعه: 2 دقیقه

OpenAI معیار جدیدی به نام PaperBench معرفی کرده است که هدف آن اندازه‌گیری توانایی عوامل هوش مصنوعی در بازتولید تحقیقات پیشرفته هوش مصنوعی است. این آزمون بررسی می‌کند که آیا یک هوش مصنوعی می‌تواند مقالات علمی را درک کند، کدهای مرتبط را بنویسد و آن‌ها را اجرا کند تا نتایج ذکرشده در مقاله را بازتولید کند.

PaperBench چیست؟

این معیار از ۲۰ مقاله برتر کنفرانس بین‌المللی یادگیری ماشین (ICML) سال ۲۰۲۴ استفاده می‌کند که شامل ۱۲ موضوع مختلف است. این مقالات تحقیقاتی شامل ۸,۳۱۶ وظیفه قابل ارزیابی به‌صورت جداگانه هستند. برای ارزیابی دقیق‌تر، سیستم ارزیابی Rubric توسعه داده شده است که هر وظیفه را به‌صورت سلسله‌مراتبی به زیر‌وظایف کوچک‌تر تقسیم می‌کند و معیارهای ارزیابی مشخصی برای آن‌ها ارائه می‌دهد. این سیستم با همکاری نویسندگان هر مقاله ICML برای حفظ دقت و واقع‌گرایی توسعه داده شده است.

در این آزمون، هوش مصنوعی باید جزئیات لازم را از مقاله استخراج کرده و تمام کدهای مورد نیاز برای بازتولید مقاله را در یک مخزن (repository) ارائه دهد. همچنین، هوش مصنوعی باید اسکریپتی به نام reproduce.sh ایجاد کند که به اجرای کدها کمک کرده و نتایج مقاله را بازتولید کند.

ارزیابی توسط قاضی هوش مصنوعی

تمام این فرایند توسط یک قاضی هوش مصنوعی ارزیابی می‌شود. OpenAI ادعا می‌کند که این قاضی به اندازه یک انسان دقیق عمل می‌کند. در مقاله تحقیقاتی ذکر شده است: «بهترین قاضی مبتنی بر مدل LLM ما که از o3-mini-high با ساختار سفارشی استفاده می‌کند، در ارزیابی کمکی به امتیاز F1 معادل ۰.۸۳ دست یافته است، که نشان می‌دهد این قاضی جایگزین مناسبی برای یک قاضی انسانی است.»

نتایج اولیه

چندین مدل هوش مصنوعی در PaperBench مورد آزمایش قرار گرفتند. بهترین عملکرد متعلق به مدل Claude 3.5 Sonnet از شرکت Anthropic بود که توانست امتیاز بازتولید ۲۱.۰٪ را کسب کند. سایر مدل‌ها، از جمله o1 و GPT-4o از OpenAI، Gemini 2.0 Flash و DeepSeek-R1، امتیازهای پایین‌تری کسب کردند.


در مقایسه، دانشجویان دکتری (PhD) در حوزه یادگیری ماشین به طور میانگین امتیاز ۴۱.۴٪ کسب کردند، که نشان‌دهنده فاصله قابل‌توجه بین توانایی‌های فعلی هوش مصنوعی و تخصص انسانی است.

آزمون طولانی‌مدت

یک آزمون جداگانه نیز با مدل o1 از OpenAI برای مدت زمان طولانی‌تری انجام شد، اما این مدل همچنان نتوانست به سطح تلاش انسانی برسد.

دسترسی عمومی

کد PaperBench اکنون برای عموم در GitHub در دسترس است. نسخه سبک‌تر این معیار، به نام PaperBench Code-Dev نیز منتشر شده است تا افراد بیشتری بتوانند از آن استفاده کنند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]