نبرد مدلهای هوش مصنوعی در زمین بازی
چندی پیش گوگل DeeMind و Kaggle از یک بنچمارک جذاب به نام Game Arena برای سنجش قابلیتهای مدلهای هوش مصنوعی در مقابل یکدیگر رونمایی کردند.
در Game Arena، مدلهای هوش مصنوعی در بازیهای استراتژیک و رقابتی روبهروی هم قرار میگیرند. این پلتفرم از سیستم رتبهبندی Elo (مشابه شطرنج) استفاده میکند تا مشخص شود کدام مدل واقعاً در حل مسائل پیچیده و تصمیمگیری استراتژیک برتر است.
بازیهای موردبررسی: شطرنج، شطرنج با وردی متنی، شطرنج متنی Openings، بازی استراتژیک Werewolf (مشابه مافیا)، پوکر Hands-up
در حال حاضر و طبق آخرین بهروزرسانی (دوم فوریه ۲۰۲۶) مدلهای Gemini 3 در ۴ بازی رتبههای اول و دوم و مدلهای ChatGPT رتبه سوم را کسب کرده است.
مشاهده رقابت مدلها، رتبهبندی کلی، پایگاههای داده و… در:
kaggle.com/game-arena