معرفی معیار جدید OpenAI برای ارزیابی توانایی‌های تحقیقاتی عوامل هوش مصنوعی

تیم تحریریه
۱۷ فروردین ۱۴۰۴

زمان مطالعه: 2 دقیقه

OpenAI معیار جدیدی به نام PaperBench معرفی کرده است که هدف آن اندازه‌گیری توانایی عوامل هوش مصنوعی در بازتولید تحقیقات پیشرفته هوش مصنوعی است. این آزمون بررسی می‌کند که آیا یک هوش مصنوعی می‌تواند مقالات علمی را درک کند، کدهای مرتبط را بنویسد و آن‌ها را اجرا کند تا نتایج ذکرشده در مقاله را بازتولید کند.

فهرست مقاله پنهان

1 PaperBench چیست؟

2 ارزیابی توسط قاضی هوش مصنوعی

3 نتایج اولیه

4 آزمون طولانی‌مدت

5 دسترسی عمومی

PaperBench چیست؟

این معیار از ۲۰ مقاله برتر کنفرانس بین‌المللی یادگیری ماشین (ICML) سال ۲۰۲۴ استفاده می‌کند که شامل ۱۲ موضوع مختلف است. این مقالات تحقیقاتی شامل ۸,۳۱۶ وظیفه قابل ارزیابی به‌صورت جداگانه هستند. برای ارزیابی دقیق‌تر، سیستم ارزیابی Rubric توسعه داده شده است که هر وظیفه را به‌صورت سلسله‌مراتبی به زیر‌وظایف کوچک‌تر تقسیم می‌کند و معیارهای ارزیابی مشخصی برای آن‌ها ارائه می‌دهد. این سیستم با همکاری نویسندگان هر مقاله ICML برای حفظ دقت و واقع‌گرایی توسعه داده شده است.

در این آزمون، هوش مصنوعی باید جزئیات لازم را از مقاله استخراج کرده و تمام کدهای مورد نیاز برای بازتولید مقاله را در یک مخزن (repository) ارائه دهد. همچنین، هوش مصنوعی باید اسکریپتی به نام reproduce.sh ایجاد کند که به اجرای کدها کمک کرده و نتایج مقاله را بازتولید کند.

ارزیابی توسط قاضی هوش مصنوعی

تمام این فرایند توسط یک قاضی هوش مصنوعی ارزیابی می‌شود. OpenAI ادعا می‌کند که این قاضی به اندازه یک انسان دقیق عمل می‌کند. در مقاله تحقیقاتی ذکر شده است: «بهترین قاضی مبتنی بر مدل LLM ما که از o3-mini-high با ساختار سفارشی استفاده می‌کند، در ارزیابی کمکی به امتیاز F1 معادل ۰.۸۳ دست یافته است، که نشان می‌دهد این قاضی جایگزین مناسبی برای یک قاضی انسانی است.»

نتایج اولیه

چندین مدل هوش مصنوعی در PaperBench مورد آزمایش قرار گرفتند. بهترین عملکرد متعلق به مدل Claude 3.5 Sonnet از شرکت Anthropic بود که توانست امتیاز بازتولید ۲۱.۰٪ را کسب کند. سایر مدل‌ها، از جمله o1 و GPT-4o از OpenAI، Gemini 2.0 Flash و DeepSeek-R1، امتیازهای پایین‌تری کسب کردند.

در مقایسه، دانشجویان دکتری (PhD) در حوزه یادگیری ماشین به طور میانگین امتیاز ۴۱.۴٪ کسب کردند، که نشان‌دهنده فاصله قابل‌توجه بین توانایی‌های فعلی هوش مصنوعی و تخصص انسانی است.

آزمون طولانی‌مدت

یک آزمون جداگانه نیز با مدل o1 از OpenAI برای مدت زمان طولانی‌تری انجام شد، اما این مدل همچنان نتوانست به سطح تلاش انسانی برسد.

دسترسی عمومی

کد PaperBench اکنون برای عموم در GitHub در دسترس است. نسخه سبک‌تر این معیار، به نام PaperBench Code-Dev نیز منتشر شده است تا افراد بیشتری بتوانند از آن استفاده کنند.

https://hooshio.com/?p=66797

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

معرفی معیار جدید OpenAI برای ارزیابی توانایی‌های تحقیقاتی عوامل هوش مصنوعی

PaperBench چیست؟

ارزیابی توسط قاضی هوش مصنوعی

نتایج اولیه

آزمون طولانی‌مدت

دسترسی عمومی

استارتاپی که غول‌های نظامی آمریکا را کنار زد

هوش مصنوعی در خدمت میلیاردرهاست، نه کارگران

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

استارتاپی که غول‌های نظامی آمریکا را کنار زد

هوش مصنوعی در خدمت میلیاردرهاست، نه کارگران

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

استارتاپی که غول‌های نظامی آمریکا را کنار زد

هوش مصنوعی در خدمت میلیاردرهاست، نه کارگران

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

PaperBench چیست؟

ارزیابی توسط قاضی هوش مصنوعی

نتایج اولیه

آزمون طولانی‌مدت

دسترسی عمومی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید