عبور از آزمایش هوش عمومی
اوپنایآی O3 به تازگی موفق به کسب امتیاز ۸۵ در معیارهای ARC-AGI شده است؛ این بالاترین امتیاز ثبتشده توسط هوش مصنوعی است. بالاترین امتیاز قبلی ۵۵ بود که همتراز با میانگین امتیاز انسانی بود. گفتنی است که Open AI O3 در یک آزمون ریاضی خیلی سخت هم نمره خوبی را کسب کرده است.
تست ARC-AGI چیست؟
تست ARC-AGI را میتوان به آزمایشی برای بررسی «کارایی نمونه» در انطباق با چیزی جدید در سیستمها هوش مصنوعی توصیف کرد؛ به این معنا که چند نمونه از یک موقعیت جدید که سیستم باید ببیند تا متوجه شود که چگونه کار میکند.
تا زمانی که سیستمهای هوش مصنوعی نتوانند از تعداد مثالهای کمی بیاموزند و با نمونههای کاربردی بیشتری سازگار شوند، فقط برای کارهای معمول و تکراری و البته مواردی که در آنها ناکامی و شکست قابلپذیرش باشد، مورداستفاده قرار میگیرند.
نتایج حاکی از آن است که مدل o3 سازگاری بالایی دارد و از چند مثال محدود میتواند قوانینی را کشف کند که قابلتعمیم دادن باشند.
«فرانسوا شوله»، محقق فرانسوی هوش مصنوعی که این معیار را طراحی کرده، براین باور است که o3 از طریق «زنجیرههای فکری» مختلف که گامهایی را برای حل مسئله را توصیف میکنند، به جستجو میپردازد و درنهایت بر اساس برخی قاعدههای تعریفشده یا هیوریستیک، بهترین را انتخاب میکند.
این بیشباهت به نحوه جستجوی سیستم AlphaGo گوگل که ممکن است در توالیهای مختلفی از حرکات، برای شکست دادن قهرمان جهان Go اقدام میکند، نیست.
اگر مثل AlphaGo باشد، بهسادگی یک هوش مصنوعی است که یک هیوریستیک ایجاد میکند. این روند برای AlphaGo بود و گوگل مدلی را آموزش داد تا توالیهای مختلف حرکت بهصورت بهتر یا بدتر از سایرین ارزیابی کند.
با این حال تقریباً همهچیز در مورد o3 ناشناخته است. Open AI افشای اطلاعات را به چند ارائه رسانهای و آزمایش اولیه برای تعداد محدودی از محققان، آزمایشگاهها و مؤسسات ایمنی هوش مصنوعی محدود کرده است و درنتیجه درک واقعی پتانسیل o3 مستلزم تلاشهای گستردهای از ارزیابی و درک توزیع ظرفیتهای آن گرفته تا تعداد دفعات شکست و تعداد دفعات موفقیت آن خواهد بود.
باید منتظر ماند تا o3 منتشر شود و در آن صورت تصور بهتری خواهیم داشت که آیا تقریباً بهاندازه یک انسان معمولی سازگار است یا خیر. اگر واقعاً این چنین باشد، این سیستم در بعد اقتصادی تأثیرگذار خواهد بود و عصر جدیدی از هوش سرعت یافته که قابلیت خودکاری برای بهبود دارد را آغاز خواهد کرد.