
هوش مصنوعی هنوز هم در برابر سودوکو شکست میخورد!
شرکت Sakana AI از توسعهی یک معیار جدید برای سنجش تواناییهای استدلالی هوش مصنوعی با استفاده از معماهای سودوکو خبر داده است. این معیار شامل چالشبرانگیزترین معماهای سودوکو است که حتی برای حرفهایترین حلکنندگان معما دشوار هستند و میتوانند آزمونی جدی برای قابلیتهای استدلالی مدلهای هوش مصنوعی باشند.
چرا سودوکو؟
سودوکو که در دههی ۱۹۸۰ توسط شرکت Nikoli در ژاپن مشهور شد، از یک جدول ۹×۹ تشکیل شده است که بخشی از اعداد آن از پیش تعیین شدهاند. هدف این است که خانههای خالی را طوری پر کنیم که هر عدد از ۱ تا ۹ در هر سطر، ستون و مربع ۳×۳ بدون تکرار ظاهر شود. در سالهای اخیر، نسخههای پیشرفتهتری از سودوکو، با قوانین پیچیدهتر و متنوعتر، تحت عنوان «سودوکوهای مدرن» معرفی شدهاند که حل آنها نیاز به استدلال خلاقانه دارد.

اگرچه کامپیوترها مدتهاست که میتوانند سودوکوهای ساده را از طریق الگوریتمهای جستجوی محاسباتی حل کنند، اما مدلهای هوش مصنوعی هنوز قادر به تقلید از روش استدلال انسانی در حل این معماها نیستند. سودوکوهای مدرن دارای قوانین منحصربهفردی هستند که نیاز به استدلال انتزاعی دارند، به همین دلیل، Sakana AI معتقد است که این معماها میتوانند بهعنوان یک معیار ایدهآل برای سنجش تواناییهای استدلالی مدلهای هوش مصنوعی عمل کنند.
چالش جدید هوش مصنوعی در حوزهی استدلال
با پیشرفت مدلهای هوش مصنوعی مانند ChatGPT-4 و DeepSeek R1، نیاز به معیارهای پیچیدهتر برای سنجش توانایی استدلالی این مدلها افزایش یافته است. تاکنون، آزمونهای دانشگاهی و مسابقات ریاضی بهعنوان معیارهای سنجش در نظر گرفته میشدند، اما مدلهای مدرن بسیاری از این آزمونها را با موفقیت پشت سر گذاشتهاند. حالا، سودوکوهای مدرن با قوانین متنوع و غیرقابل پیشبینی، چالشی جدید برای مدلهای هوش مصنوعی محسوب میشوند.
جنسن هوانگ، مدیرعامل NVIDIA، در سخنرانی کلیدی خود در کنفرانس GTC 2025 تأکید کرد که معماهایی مانند سودوکو میتوانند منبع ارزشمندی برای آموزش استدلال در مدلهای هوش مصنوعی باشند.
همکاری با Cracking The Cryptic برای آموزش هوش مصنوعی
یکی از مشکلات اصلی در آموزش مدلهای استدلالی، کمبود دادههای باکیفیت از فرآیندهای حل مسئله است. بسیاری از متونی که در اینترنت وجود دارند، فاقد توضیحات گامبهگام دربارهی نحوهی استدلال انسانی هستند. برای رفع این مشکل، Sakana AI با کانال معروف Cracking The Cryptic، بزرگترین کانال حل معما در یوتیوب، همکاری کرده است.
این همکاری شامل موارد زیر است:
- بیش از ۲۵۰۰ ویدیو از حل معماهای پیچیدهی سودوکو
- بیش از ۲۰۰۰ ساعت دادههای متنی از فرآیند استدلال انسانی، شامل حدود ۱۰ میلیون کلمه
- حدود ۲ میلیون حرکت استخراجشده از ویدیوهای حل معما
این مجموعه دادهها، که همراه با معیار سنجش جدید منتشر میشوند، میتوانند به مدلهای هوش مصنوعی کمک کنند تا روشهای استدلال انسانی را بهتر بیاموزند.
چالشهای فعلی مدلهای هوش مصنوعی در حل سودوکو
مدلهای هوش مصنوعی امروزی در حل سودوکو با یک مشکل اساسی مواجهاند:« عدم توانایی در حفظ سازگاری جهانی در زنجیرههای طولانی استدلال. بسیاری از این مدلها قادرند اعداد را در جدول قرار دهند، اما گاهی مسیرهای نادرستی را دنبال میکنند که در مراحل پایانی منجر به تناقض میشود. این نقطهی ضعف اصلی مدلهای هوش مصنوعی در مقایسه با انسانها است.»
در مقابل، حلکنندگان حرفهای سودوکو از یک روش استدلالی دقیق و تدریجی استفاده میکنند. آنها ابتدا محدودیتهای منحصربهفرد معما را تحلیل کرده و به دنبال «نقطهی ورود» میگردند؛ یعنی همان بینش کلیدی که مسیر حل معما را هموار میکند. بسیاری از مدلهای پیشرفتهی امروزی هنوز قادر به کشف این نقاط ورود نیستند.
سودوکوهای دستساز Nikoli؛ معیاری برای استدلال انسانی در هوش مصنوعی
Nikoli، شرکت ژاپنی که سودوکو را به جهان معرفی کرد، مجموعهای از ۱۰۰ معمای دستساز را برای این معیار جدید ارائه داده است. برخلاف معماهای تولیدشده توسط کامپیوتر که غالباً بر الگوریتمهای جستجوی بیرحمانه (Brute Force) متکی هستند، سودوکوهای دستساز نیازمند بینش و استدلال خلاقانه هستند. به همین دلیل، این معماها میتوانند معیار ایدهآلی برای سنجش تواناییهای استدلالی هوش مصنوعی باشند.
انتشار معیار جدید استدلال هوش مصنوعی
Sakana AI معیار جدید خود را همراه با مجموعهی کاملی از دادهها و ابزارها منتشر کرده است. علاقهمندان و محققان میتوانند این معیار را در GitHub مشاهده کنند.
در این معیار، معماها بهصورت تدریجی از سطح ساده تا سطحی که مدلهای پیشرفتهی امروزی حتی قادر به حل یک عدد آن هم نیستند، تنظیم شدهاند. تستهای اولیه نشان دادهاند که حتی قویترین مدلهای هوش مصنوعی در حال حاضر قادر به حل معماهای دشوار این معیار نیستند. برای مثال، مدل ChatGPT-4o تنها توانسته ۵٪ از معماهای سادهی این معیار را حل کند، در حالی که با افزایش سطح دشواری، عملکرد آن بهطور چشمگیری کاهش یافته است.
معیار جدید Sakana AI، چالش بزرگی برای مدلهای پیشرفتهی هوش مصنوعی ایجاد کرده و میتواند زمینهساز پیشرفتهای چشمگیری در استدلال مصنوعی باشد. سودوکوهای مدرن، با قوانین متنوع و پیچیدهی خود، میتوانند معیار مناسبی برای سنجش تواناییهای واقعی مدلهای هوش مصنوعی در حل مسائل دشوار باشند.
با این معیار جدید، آیا هوش مصنوعی میتواند مانند انسانها معماهای پیچیده را حل کند؟ پاسخ این سوال، آیندهی تحقیقات در حوزهی استدلال هوش مصنوعی را تعیین خواهد کرد.