Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 جایگاه هوشی هوش مصنوعی

تحلیل آماری ضریب هوشی چت‌بات‌ها با کمک آزمون Mensa

جایگاه هوشی هوش مصنوعی

زمان مطالعه: 8 دقیقه

از همان اولین روزهایی که مدل‌های هوش مصنوعی مولد و مخصوصاً چت‌بات‌ها مطرح شدند، اولین سؤالی که مطرح شد این بود که آیا این مدل‌های هوش مصنوعی، از انسان باهوش‌تر هستند یا نه؟  

در همان لحظه شاید نمی‌شد پاسخ دقیقی به این سؤال اساسی و مهم داد؛ زیرا هر ادعایی، چه مثبت و چه منفی، در این زمینه به‌قول‌معروف «مثل بمب صدا می‌کند». اگر یک چت‌بات از انسان باهوش‌تر باشد، شاید بتوان آن را به‌عنوان یک تهدید بالقوه در نظر گرفت و اگر هوش کمتری از انسان داشته باشد، خب پس دیگر استفاده از یک مخلوق ضعیف چه منفعتی خواهد داشت!

آزمون بهره هوشی منسا

یک روش منطقی و موردقبول برای انجام چنین مقایسه‌ای، یعنی مقایسه ضریب هوشی انسان و هوش مصنوعی، استفاده از آزمون‌های رایج محاسبه ضریب هوشی است.

آزمون بهره هوشی «منسا» (Mensa IQ Test) یک ابزار استاندارد برای ارزیابی هوش کلی (General Intelligence) است که توسط سازمان بین‌المللی منسا، بزرگ‌ترین و شناخته‌شده‌ترین انجمن افراد با بهره هوشی بالا یا به‌اصطلاح نابغه، استفاده می‌شود. آزمون منسا از ۳۵ سوال تشکیل شده‌است که می‌بایست در طول مدت ۲۵ دقیقه به آن‌ها پاسخ داده شود. سوالات منسا به‌طور خاص برای سنجش توانایی‌های استدلالی، الگو‌یابی، منطق و تحلیل انتزاعی طراحی شده‌اند و جنبه‌هایی از هوش را مورد ارزیابی قرار می‌دهند که کمتر وابسته به دانش قبلی یا آموزش رسمی هستند و در عین‌حال یکی از سخت‌ترین و دشوارترین آزمون‌های سنجش بهره هوشی به شمار می‌آید.

بر اساس سوابق تاریخی و نمودار توزیع گوسی (زنگوله‌ای) بهره هوشی منسا، عدد بهره هوش متوسط انسان عدد ۱۰۰ است. بر اساس همین نمودار می‌توان دریافت که در حدود ۷۰درصد از انسان‌ها ضریب هوشی‌ای مابین ۸۵ تا ۱۱۵ دارند که در دسته افراد نرمال و معمولی قرار می‌گیرند. اما تنها ۲درصد از افراد امکان و اجازه عضویت رسمی در منسا را دارند؛ زیرا شرط اولیه عضویت در این انجمن این است که در آزمون منسا امتیازی بالاتر از ۱۳۰ را کسب کنند و به‌اصطلاح «نابغه» باشند.

نمودار زنگوله‌ای توزیع نرمال بهره هوشی انسان. منبع: وب‌سایت رسمی Mensa

به‌عنوان‌مثال بر اساس آخرین آمار منتشرشده در «مرکز آمار ایران»، جمعیت فعلی ایران در زمان نگارش این گزارش؛ در حدود ۸۶ میلیون ۳۰۰ هزار نفر اعلام شده است، یعنی بر اساس میانگین جهانی، در حدود ۱ میلیون و ۷۲۶ هزار نفر به‌صورت بالقوه در دسته افراد نابغه قرار می‌گیرند. اما منسا به دلیل تحریم‌های بین‌المللی و… به طور رسمی در ایران فعالیت ندارد.

روش‌شناسی

وب‌سایت «Tracking AI»، که بخشی از پروژه  «Maximum Truth»است با هدف اصلی بررسی و افشای سوگیری‌های سیاسی در مدل‌های هوش مصنوعی در دسترس است. این پلتفرم به‌صورت روزانه و هفتگی، ۱۷ مدل متن‌محور و ۸ مدل دیداری را با تست‌های IQ از جمله تست Mensa، ارزیابی می‌کند. پلتفرمTracking AI  امکان مقایسه نظرات سیاسی و پاسخ‌ها به سوالت آزمون منسا توسط مدل‌ها را فراهم می‌کند و برای توسعه‌دهندگان و کاربران ابزاری ارزشمند جهت تضمین بی‌طرفی و طراحی استراتژی‌های بهبود شفافیت در هوش مصنوعی است.

پلتفرم Tracking AI روشی هوشمندانه برای انجام این آزمون توسط مدل‌های مختلف در پیش گرفته است. Tracking AI برای مدل‌های بصری (Vision model) مانند «GPT-4o (Vision)» تصویر سؤالات آزمون را به‌عنوان ورودی به مدل داده است؛ اما برای مدل‌های کلامی (VERBAL model) مانند «OpenAI o3» سؤالات را به طور کامل شرح داده و متن توصیفی آن را به‌عنوان ورودی در اختیار مدل قرار داده است.

مدل‌های بصری شامل:

Claude-4 Opus (Vision) – Claude-4 Sonnet (Vision) – Grok-3 Think (Vision) – OpenAl o3 (Vision) – Gemini 2.5 Pro Exp. (Vision) – GPT-4o (Vision) – Llama-3.2 (Vision) – OpenAl o1 Pro (Vision)

مدل‌های کلامی شامل:

Claude-4 Opus – Claude-4 Sonnet – OpenAl o3 – OpenAl o4 mini – OpenAl o4 mini high – Llama 4 Maverick – Gemini 2.0 Flash Thinking Exp. –  Bing Copilot – GPT-4o – Gemini 2.5 Pro Exp. –  OpenAl o1 Pro – DeepSeek V3 – DeepSeek R1 – Mistral – Grok-3 – Grok-3 Think – GPT4.5 Preview

به‌عنوان مثال تصویر زیر که سوال شماره ۱۹ در آزمون منسا است؛ به طور مستقیم به عنوان ورودی به مدل‌های بصری داده شده:

و پرامپت زیر به عنوان توصیف متنی معادل تصویر ۱۹، به عنوان ورودی به مدل‌های متنی داده شده است:

“Below is a verbal description of a puzzle, consisting of a 3×3 grid, with the lowest-right square being empty. Please consider the patterns and determine the appropriate answer to fill in the empty square.

First row, first column: A diamond shape within a large square; the points of the diamond do not reach the edge of the square.

First row, second column: Four black dots positioned as if they were on the corners of an imaginary large square; there’s also a small hollow circle in the center.

First row, third column: A large plus sign.

Second row, first column: Four black dots positioned as if they were on the corners of an imaginary large square Second.

 row, second column: A diamond shape overlapping with a plus sign; the points of the diamond do not reach the edges of the plus sign.

Second row, third column: A small hollow circle within a large hollow square.

Third row, first column: A small hollow circle overlapping with a large plus sign; the edges of the circle do not reach the edges of the plus sign.

Third row, second column: A large hollow square Third row, third column: [what should go here? Please pick from the answers below.]

Answer options:

Option A: Four black dots positioned as if they were on the corners of an imaginary large square, with a hollow diamond shape in the center; the points of the diamond do not reach the edge of the square.

Option B: A large hollow square overlapping with a plus sign. The plus sign lines extend just past the edges of the square, in each direction.

Option C: A small hollow circle within a hollow diamond shape. The edges of the circle are not quite overlapping with the edges of the diamond.

Option D: A small hollow circle

Option E: A large hollow square overlapping with a plus sign. The plus sign lines extend just past the edges of the square, in each direction. In addition, there is a small hollow circle in the center of the square and plus sign.

Option F: Same as Option E, except that instead of the large hollow square, there are four black dots, one at each of the corners of where the square was.

Which answer is correct? “

پاسخ‌های تمام مدل‌ها نیز به تفکیک در وب‌سایت «Tracking AI» در دسترس است.

یک نابغه، چند باهوش، تعدادی متوسط و شماری کندذهن

آخرین اطلاعات و داده‌های نتایج آماری این آزمون توسط مدل‌های برجسته هوش مصنوعی، در تاریخ ۱۰ ژوئن ۲۰۲۵ مصادف با ۲۱ خرداد ۱۴۰۴ (این متن در ۲۱ خرداد نوشته شده است)، منتشر شده است. نتایج آماری نشان می‌دهد که مدل زبانی متن‌محور «OpenAI o3» موفق شده است در آزمون منسا امتیاز ۱۳۳ را کسب کند. این عدد مدل «OpenAI o3» را به تنها مدل هوش مصنوعی‌ای تبدیل کرده که توانسته است مطابق با تعاریف منسا، در زمره ۲درصدی نابغه‌ها قرار گیرد. (۴ درصد از کل مدل‌ها)

رتبه‌بندی مدل‌های هوش مصنوعی بر اساس امتیاز کسب‌شده در آزمون Mensa
اعتبار تصویر: وب‌سایت «Tracking AI»

به‌طورکلی فقط ۱۰ مدل (معادل ۴۰ درصد) توانسته‌اند امتیازی بالاتر از ۱۰۰ که به‌عنوان میانگین بهره هوش انسان در آزمون منسا شناخته می‌شود، کسب کنند. با بررسی دقیق‌تر آمار درمیابیم که تنها ۵ مدل (۲۰درصد) توانسته‌اند عملکردی بالاتر از امتیاز ۱۱۵ (و کمتر از ۱۳۰) که به‌عنوان حد آستانه تعریف لقب «باهوش» شناخته می‌شود، داشته باشند. بیش از نیمی از مدل‌ها (۱۴ مدل و معادل ۵۶ درصد) نیز در همان محدوده امتیازی نرمال و معمولی ۸۵ تا ۱۱۵ قرار گرفته‌اند و ۵ مدل امتیازی کمتر از ۸۵ کسب کرده‌اند.

نمودار بررسی تعداد پاسخ‌های به هر صحیح به هر سوال آزمون Mensa توسط مدل‌های هوش مصنوعی
اعتبار تصویر: وب‌سایت «Tracking AI»
نکته: آزمون منسا شامل ۳۵ سوال است، اما علت وجود سوال ۳۶ در تحلیل‌های Tracking AI ذکر نشده‌است.

اما نکته جالب‌توجه، عملکرد بسیار متفاوت و بسیار بهتر مدل‌های کلامی نسبت به مدل‌های بصری است. هر ۸ مدل بصری، امتیازی کمتر از ۱۰۰ کسب کرده‌اند و حتی مدل‌های GPT-4o (Vision) و Grok-3 Think (Vision) با امتیازی کمتر از ۷۰، در زمره تقریباً ۲ درصدی‌ای قرار می‌گیرند که به آن‌های لقب‌هایی مانند «عقب‌مانده ذهنی» اطلاق می‌شود. از طرفی مدل‌های کلامی و متن‌محور، اغلب عملکردی بسیار قابل‌قبول داشته‌اند و تمام ۱۰ مدلی که عملکردی بهتر از میانگین انسانی داشته‌اند، همگی از نوع مدل‌های کلامی هستند.

چنین اختلافی نشان می‌دهد که استدلال مبتنی بر زبان و متن همچنان نقطه قوت اصلی هوش مصنوعی است و مقابل، مدل‌های چندوجهی (Multimodal) که قادر به پردازش تصویر هستند، در تحلیل‌های استدلالی و منطقی ضعیف هستند.

بدیهی‌ست که تمامی این اعداد، درصدها و رده‌بندی مدل‌ها، پیوسته در حال تغییر است؛ زیرا پلتفرم Tracking AI، به‌صورت روزانه و هفتگی نتایج و عملکرد مدل‌ها در آزمون منسا را بررسی و منتشر می‌کند. 

نمودار زنگوله‌ای توزیع امتیاز کسب‌شده مدل‌های هوش مصنوعی در آزمون Mensa
اعتبار تصویر: وب‌سایت «Tracking AI»

اشتراکی بخریم یا نخریم؟

نکته دیگری که کمی قابل‌تأمل است، اختلاف عملکرد غیرقابل‌انکار مدل‌های رایگان با مدل‌های اشتراکی گران‌قیمت است.

در جدول زیر و بر اساس اطلاعات به‌دست‌آمده از مدل رایگان «GPT-4o»، دسترسی رایگان یا نیاز خرید به اشتراک برای هر یک از مدل‌های موردبررسی، مشخص شده است. وضعیت‌ها ممکن است بسته به پلتفرم میزبان (مثلاً Poe، ChatGPT، Claude، Gemini، xAI و غیره) متفاوت باشد، اما در حالت کلی و رایج‌ترین وضعیت‌ها در ژوئن ۲۰۲۵ (خرداد ۱۴۰۴) رایگان یا اشتراکی بودن مدل‌ها به‌صورت زیر است:

امتیاز منساوضعیت دسترسیمدل
۱۳۳فقط با اشتراکOpenAI o3
۱۲۸رایگان (در Google Bard / Gemini رایگان)Gemini 2.0 Flash Thinking Exp.
۱۲۶رایگان (در برخی پیاده‌سازی‌ها مانند Poe)OpenAI o4 mini
۱۲۴فقط با اشتراکGemini 2.5 Pro Exp.
۱۱۹نیاز به اشتراکClaude-4 Opus
۱۱۸رایگان (در Claude AI یا Poe)Claude-4 Sonnet
۱۱۱نیاز به اشتراکGrok-3 Think
۱۰۵احتمالاً رایگان (open weights، قابل‌دسترسی در HuggingFace)Llama 4 Maverick
۱۰۵رایگان (open-source)DeepSeek R1
۱۰۲نیاز به اشتراک (محدود به دسترسی خاص)OpenAI o1 Pro
۹۷رایگان در Claude AI (ممکن است محدودیت‌هایی داشته باشد)Claude-4 Sonnet (Vision)
۹۷رایگان (در HuggingFace یا برخی پلتفرم‌ها)DeepSeek V3
۹۷فقط در API یا برنامه‌های خاص (نه به‌صورت عمومی رایگان)GPT-4.5 Preview
۹۶فقط با اشتراک (Google One AI Premium)Gemini 2.5 Pro Exp. (Vision)
۹۵نیاز به اشتراک (X Premium+)Grok-3
۹۱رایگان با محدودیت / اشتراک برای دسترسی کاملGPT-4o
۹۰فقط با اشتراک (در Poe یا OpenRouter)OpenAI o4 mini high
۸۶فقط با اشتراک (در ChatGPT Plus یا  Pro)OpenAI o3 (Vision)
۸۶رایگان (نسخه‌ای از GPT-4 / 4o با محدودیت)Bing Copilot
۸۵رایگان (open-source)Mistral
۸۰نیاز به اشتراک (Anthropic Pro در Poe یا Claude AI Pro)Claude-4 Opus (Vision)
۷۹فقط با اشتراک (نسخه‌های آزمایشی خاص یا Pro)OpenAI o1 Pro (Vision)
۷۰احتمالاً رایگان (بسته به پیاده‌سازی، مثلاً در HuggingFace یا  Poe)Llama-3.2 (Vision)
۶۳رایگان در ChatGPT (محدود) / کامل‌تر با اشتراک  PlusGPT-4o (Vision)
۶۲نیاز به اشتراک (در X Premium+)Grok-3 Think (Vision)

با توجه نوع دسترسی این مدل‌ها و امتیازی که در آزمون منسا کسب کرده‌اند، پیشنهاد می‌شود:

  • اگر هدف شما استفاده از به بهترین مدل به‌صورت رایگان اما با دسترسی محدود و مشروط است: مدل‌های «Gemini 2.0 Flash Thinking Exp.» و «OpenAI o4 mini» پیشنهاد خوبی هستند. مدل «Claude-4-Sonnet» نیز به نسبت رایگان بودن خود و عملکرد قابل‌قبولی دارد.
  • مدل‌هایی که باوجود اشتراک نسبتاً گران، ارزش خرید دارند (بسته به نیاز تخصصی): مدل «OpenAI o3» بهترین مدل موجود است که اگر هزینه بالای آن را در نظر نگیریم، کیفیت استدلال و دقت پاسخ‌گویی بسیار بالایی دارد. مدل «Gemini 2.5 Pro Exp.» برای پاسخ‌های چندمرحله‌ای و استنتاجی بهترین گزینه است و مدل «Claude-4-Opus» برای کاربردهای استدلالی، تحقیقاتی و چندزبانه بسیار مناسب است.
  • مدل‌های با هزینه بالا و عملکرد نسبتاً پایین: مدل‌های «Grok-3-Think» و «Grok-3» باوجود نیاز به اشتراک (X Premium+) عملکرد ضعیف‌تری نسبت به برخی مدل‌های رایگان دارند. مدل‌های مانند «GPT-4o (Vision)» و «Grok-3-Think-Vision» نیز نشان می‌دهند که مدل‌های بصری حتی در حالت اشتراکی نیز، هنوز به بلوغ نسخه‌های متنی نرسیده‌اند.

جنگ توسعه‌دهندگان

اگر کمی عمیق‌تر شویم و عملکرد مدل‌های بر اساس امتیاز آزمون منسا و به تفکیک پلتفرم‌های میزبان را بررسی کنیم؛ این رویکرد کمک می‌کند تا دریابیم کدام پلتفرم‌ها در ارائه مدل‌های هوشمندتر و باکیفیت‌تر عملکرد بهتری دارند و کدام یک در ازای دریافت هزینه، ارزش بیشتری به کاربر می‌دهند.

وضعیت دسترسیبهترین مدلمیانگین امتیاز (تقریبی)پلتفرم میزبان
اشتراکیOpenAI o3۱۰۰OpenAI / ChatGPT
رایگانClaude-4 Sonnet۱۰۳.۵Anthropic / Claude
رایگانGemini 2.0 Flash Thinking Exp.۱۱۶Google / Gemini
اشتراکیGrok-3 Think۸۹xAI / Grok
ترکیبیترکیبیترکیبیPoe (Quora)
رایگانLlama-4 / DeepSeek-R1۹۲HuggingFace / Open-source models
رایگانBing Copilot۸۶Microsoft / Bing

به‌صورت کلی می‌توان گفت که پلتفرم OpenAI هرچند بهترین عملکرد خام را دارد (مدل OpenAI o3 با نمره ۱۳۳) اما فقط تنها از طریق خرید اشتراک در دسترس است و نسخه‌های رایگان آن مانند GPT-4o، در حالت کلامی بهتر از حالت بصری عمل می‌کنند، اما همچنان از مدل‌های رقیب عقب‌تر هستند. مدل Sonnet رایگان و بسیار قابل‌اتکا است و Claude-Opus نیز با عملکرد خوب، گزینه مناسبی برای کاربران حرفه‌ای با اشتراک است. پلتفرم Google  در ترکیب عملکرد بالا و دسترسی رایگان بسیار موفق عمل کرده است. مدل‌های Grok باوجود تبلیغات بالا اما در آزمون‌های استدلالی عملکرد ضعیف‌تری دارند. پلتفرم Poe (Quora) نیز بیشتر نقش یک هاب و مرکز تعاملی هوش مصنوعی را دارد و مدل‌هایی مانند Llama-3.2، Mistral، Claude-4-Opus و o4-mini به‌صورت محدود و در چارچوب‌های مشخصی در آن قابل‌دسترسی هستند. مدل‌های متن‌باز مثل Llama-4 و DeepSeek-R1 عملکرد برای توسعه‌دهندگان و پژوهشگران، بسیار مناسب هستند هرچند به قدرت به مدل‌های اشتراکی ممتاز نمی‌رسند، اما نسبت به رایگان بودن، توانایی قابل‌قبولی و بالایی دارند.

هوش انسانی یا مصنوعی؟

تیتر اصلی این مقاله را می‌شد به دو نوع مختلف نوشت:

  • برخی چت‌بات‌‌ها حتی از نابغه‌ها هم باهوش‌تر هستند.
  • بیش از نیمی از چت‌بات‌ها باهوش‌تر از انسان نیستند.

هر دوی این تیترها، در عمق خود یک مفهوم را می‌رسانند؛ اما در لایه ظاهری، نشان‌دهنده دو سوگیری کاملاً متفاوت و دو دیدگاه کاملاً مخالف هستند. دیدگاه اول دست بالا را به چت‌بات‌ها می‌‌دهد و دیدگاه دوم جایگاه انسان را بالاتر می‌داند.

سوگیری‌های خاص در مواجه با برخی مسائل، به‌نوعی در ذهن انسان حک شده و گاهی به‌سختی می‌توان آن را نادیده گرفت. برای مدل‌های هوش مصنوعی نیست هرچند تمام تلاش توسعه‌دهندگان این است که تا حد ممکن سوگیری‌ها را شناسایی کنند و از بین ببرند، اما باز هم درصدی کمی از آن، اجتناب‌ناپذیر است.

بااین‌حال، استفاده از این آزمون‌ها برای هوش مصنوعی محدودیت‌هایی دارد. مدل‌های هوش مصنوعی ممکن است الگوهای موجود در داده‌های آموزشی را به‌خاطر سپرده باشند و این امر می‌تواند نتایج را تحت‌تأثیر قرار دهد. بااین‌وجود، عملکرد برجسته مدل‌هایی مانند «OpenAI o3» نشان‌دهنده پیشرفت قابل‌توجه در توانایی استدلال و حل مسئله است.

در نهایت؛ مفهومی مثل ظهور یک ابر هوش مصنوعی فوق‌نابغه، چیزی نیست که انسان انتظار آن را نداشته باشد (و به عقیده شخصی، در آینده‌ای نه‌چندان خیلی دور، قطعاً رخ خواهد داد). اما در اینجاست که شیوه تعامل و نحوه برخورد انسان با این ابرهوش مصنوعی فوق‌نابغه، اهمیت خود را نشان خواهد داد.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]