Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 مواظب باشید وقتی هوش مصنوعی این آزمون را رد کند؛ «آزمون پایانی بشریت»

مواظب باشید وقتی هوش مصنوعی این آزمون را رد کند؛ «آزمون پایانی بشریت»

زمان مطالعه: 5 دقیقه

خالقان یک تست جدید با نام «آزمون پایانی بشریت» استدلال می‌کنند که ممکن است به‌زودی توانایی طراحی آزمون‌هایی که به‌اندازه کافی برای مدل‌های هوش مصنوعی دشوار باشند را از دست بدهیم.

اگر به دنبال دلیل جدیدی برای عصبی شدن در مورد هوش مصنوعی هستید، این را در نظر بگیرید: برخی از باهوش‌ترین انسان‌های جهان در تلاش برای طراحی آزمون‌هایی هستند که سیستم‌های هوش مصنوعی نتوانند از سد آن‌ها عبور کنند.

سال‌هاست که سیستم‌های هوش مصنوعی با دادن انواع مختلفی از آزمون‌های استانداردِ معیار به مدل‌های جدید، سنجیده می‌شوند. بسیاری از این آزمون‌ها شامل مسائل چالش‌برانگیز در سطح آزمون‌های SAT و در حوزه‌هایی مانند ریاضیات، علوم و منطق بوده‌اند. مقایسه نمرات مدل‌ها در طول زمان، به‌عنوان یک معیار تقریبی برای سنجش پیشرفت هوش مصنوعی عمل می‌کرد. اما سیستم‌های هوش مصنوعی در نهایت در آن آزمون‌ها بسیار خوب عمل کردند؛ بنابراین آزمون‌های جدید و دشوارتری طراحی شد، اغلب با انواع سوالاتی که دانشجویان تحصیلات تکمیلی ممکن است در امتحانات خود با آن‌ها مواجه شوند.

اما حتی آن آزمون‌های پیشرفته نیز دیگر چالش‌برانگیز نیستند. مدل‌های جدید از شرکت‌هایی مانند «OpenAI»، «گوگل» و «آنتروپیک» (Anthropic) در بسیاری از چالش‌های سطح دکترا (PhD) نمرات بالایی کسب کرده‌اند. این موضوع کاربرد آن آزمون‌ها را محدود کرده و منجر به طرح یک پرسش هشداردهنده شده است:

آیا سیستم‌های هوش مصنوعی دارند بیش‌ازحد باهوش می‌شوند، به‌طوری‌که دیگر نتوانیم آن‌ها را اندازه‌گیری کنیم؟

رونمایی از سخت‌ترین آزمون تاریخ

پژوهشگران در «مرکز ایمنی هوش مصنوعی» (Center for AI Safety) و شرکت «اسکیل ای‌آی» (Scale AI) در حال انتشار یک پاسخ ممکن به آن پرسش هستند: یک ارزیابی جدید به نام «آزمون پایانی بشریت» (Humanity’s Last Exam) که ادعا می‌شود سخت‌ترین آزمونی است که تاکنون روی سیستم‌های هوش مصنوعی اجرا شده است.

«آزمون پایانی بشریت» حاصل ایده «دن هندریکس»، پژوهشگر شناخته‌شده ایمنی هوش مصنوعی و مدیر مرکز ایمنی هوش مصنوعی است. (گفتنی است نام اولیه آزمون، «آخرین سنگر بشریت»، به دلیل دراماتیک بودن بیش‌ازحد، کنار گذاشته شد.)

آقای هندریکس با همکاری «اسکیل ای‌آی» (یک شرکت هوش مصنوعی که در آن مشاور است)، این آزمون را گردآوری کرد. این مجموعه شامل حدود ۳۰۰۰ سوال چهارگزینه‌ای و پاسخ کوتاه است و برای سنجش توانایی سیستم‌های هوش مصنوعی در حوزه‌هایی از فلسفه تحلیلی گرفته تا مهندسی موشک طراحی شده است. سوالات توسط کارشناسان برجسته این حوزه‌ها، از جمله اساتید دانشگاه و ریاضیدانان برنده جایزه، طراحی شده‌اند؛ کسانی که از آن‌ها خواسته شده بود سوالات فوق‌العاده دشواری را طرح کنند که خودشان پاسخ آن‌ها را می‌دانستند.

نمونه سوالات: از آناتومی پرندگان تا فیزیک محض

در اینجا، می‌توانید خودتان را با یک سوال از این آزمون درباره کالبدشناسی مرغ مگس‌خوار محک بزنید:

«مرغ‌های مگس‌خوار در راسته آپودی‌فورمز (Apodiformes) به‌طور منحصربه‌فردی دارای یک استخوان بیضوی جفت‌شده دوطرفه هستند؛ یک استخوان کنجدی (سزاموئید) که در بخش دمیِ جانبیِ نیام (آپونوروز) گشادشده محل اتصال عضله “m. depressor caudae” تعبیه شده است. این استخوان کنجدی از چند تاندون جفت‌شده پشتیبانی می‌کند؟ پاسخ را با یک عدد بیان کنید.»

یا اگر به فیزیک بیشتر علاقه دارید، این یکی را امتحان کنید:

«یک بلوک روی یک ریل افقی قرار داده می‌شود که می‌تواند بدون اصطکاک در امتداد آن بلغزد. این بلوک به انتهای یک میله صلب و بدون جرم به طول R متصل است. یک جرم در انتهای دیگر میله نصب شده است. هر دو جسم وزن W دارند. سیستم در ابتدا ساکن است، با جرمی که مستقیماً در بالای بلوک قرار دارد. به جرم، یک فشار بی‌نهایت کوچک، موازی با ریل داده می‌شود. فرض کنید سیستم طوری طراحی شده که میله بتواند بدون وقفه در یک دایره کامل ۳۶۰ درجه بچرخد. وقتی میله افقی است، تنش T1 را تحمل می‌کند. وقتی میله دوباره عمودی است (با جرمی که مستقیماً در زیر بلوک قرار دارد)، تنش T2 را تحمل می‌کند. (هر دوی این کمیت‌ها می‌توانند منفی باشند که نشان‌دهنده تحت فشار بودن میله است.) مقدار (T1−T2)/W چقدر است؟»

من پاسخ‌ها را اینجا منتشر نمی‌کنم، چراکه این کار باعث می‌شود آزمون برای هر سیستم هوش مصنوعی که با این متن آموزش می‌بیند، لو برود. علاوه بر این، من شخصاً برای تأیید پاسخ‌ها دانش کافی ندارم.

فرآیند طراحی و غربالگری سوالات

سوالات «آزمون پایانی بشریت» یک فرایند غربالگری دو مرحله‌ای را پشت سر گذاشته‌اند. نخست، سوالات ارائه‌شده به مدل‌های پیشروی هوش مصنوعی داده شد تا آن‌ها را حل کنند. اگر مدل‌ها نتوانستند به آن‌ها پاسخ دهند یا در مورد سوالات چهارگزینه‌ای، عملکردشان بدتر از حدس زدن تصادفی بود، سوالات به مجموعه‌ای از داوران انسانی سپرده شد تا آن‌ها را اصلاح کرده و پاسخ‌های صحیح را تأیید کنند. به کارشناسانی که سوالات با بالاترین رتبه را طراحی کرده بودند، مبلغی بین ۵۰۰ تا ۵۰۰۰ دلار به ازای هر سوال پرداخت شد و همچنین برای مشارکت در این پروژه اعتبار علمی دریافت کردند.

«کوین ژو»، پژوهشگر پسادکترا در فیزیک ذرات نظری در دانشگاه کالیفرنیا، برکلی، چندین سوال برای این آزمون ارائه داد. سه سوال از او انتخاب شد که به گفته خودش «در محدوده بالاییِ دشواریِ چیزی بودند که ممکن است در یک امتحان تحصیلات تکمیلی ببینید.»

آقای هندریکس که پیش‌تر در طراحی یک آزمون پرکاربرد دیگر برای هوش مصنوعی به نام «MMLU» مشارکت داشته است، می‌گوید که یک گفتگو با «ایلان ماسک» الهام‌بخش او برای طراحی آزمون‌های سخت‌تر بود. به گفته او، آقای ماسک نگرانی‌هایی را درباره آزمون‌های موجود مطرح کرد و معتقد بود آن‌ها بیش‌ازحد آسان هستند.

آقای هندریکس نقل می‌کند: «ایلان به سوالات MMLU نگاه کرد و گفت:

این‌ها در سطح کارشناسی هستند. من چیزهایی می‌خواهم که یک متخصص در سطح جهانی بتواند انجام دهد.»

آزمون‌های دیگری نیز برای سنجش قابلیت‌های پیشرفته هوش مصنوعی در حوزه‌های خاص وجود دارد؛ مانند «FrontierMath» که توسط «Epoch AI» توسعه یافته و «ARC-AGI» که توسط پژوهشگر هوش مصنوعی، «فرانسوا شوله» (François Chollet) ایجاد شده است. اما هدف «آزمون پایانی بشریت» تعیین این است که سیستم‌های هوش مصنوعی تا چه حد در پاسخ دادن به سوالات پیچیده در طیف گسترده‌ای از موضوعات دانشگاهی مهارت دارند؛ چیزی که می‌توان آن را معادل یک «نمره هوش عمومی» در نظر گرفت.

آقای هندریکس می‌گوید: «ما در تلاش هستیم تا برآورد کنیم که هوش مصنوعی تا چه حد می‌تواند بخش زیادی از کار فکریِ واقعاً دشوار را خودکار کند.»

شکست مدل‌های فعلی و چشم‌انداز آینده

پس از تدوین فهرست نهایی سوالات، پژوهشگران «آزمون پایانی بشریت» را بر روی شش مدل پیشروی هوش مصنوعی، از جمله «Gemini 1.5 Pro» گوگل و «Claude 3.5 Sonnet» آنتروپیک اجرا کردند. نتیجه؟ همه آن‌ها به‌طور فاجعه‌باری رد شدند. سیستم «o1» شرکت OpenAI بالاترین امتیاز را در بین این گروه کسب کرد که تنها ۸.۳ درصد بود.

آقای هندریکس پیش‌بینی می‌کند که این نمرات به‌سرعت افزایش یابند و احتمالاً تا پایان سال از ۵۰ درصد فراتر روند. او بیان می‌کند در آن مرحله، ممکن است سیستم‌های هوش مصنوعی به‌عنوان «مشاوران غیبی در سطح جهانی» در نظر گرفته شوند که قادرند در هر موضوعی دقیق‌تر از کارشناسان انسانی پاسخ دهند. در آن صورت، ممکن است مجبور شویم به دنبال روش‌های دیگری برای سنجش تأثیرات هوش مصنوعی باشیم؛ مانند بررسی داده‌های اقتصادی یا قضاوت در مورد اینکه آیا هوش مصنوعی می‌تواند اکتشافات جدیدی در حوزه‌هایی مانند ریاضیات و علوم انجام دهد یا خیر.

«سامر یو» (Summer Yue)، مدیر تحقیقات «اسکیل ای‌آی» و یکی از سازندگان آزمون می‌گوید: «می‌توانید نسخه بهتری از این آزمون را تصور کنید که در آن بتوانیم سوالاتی بپرسیم که خودمان هنوز پاسخ آن‌ها را نمی‌دانیم و قادر باشیم تأیید کنیم که آیا مدل می‌تواند به ما در حل آن کمک کند یا خیر.»

پارادوکس هوشمندی و بی‌کفایتی هم‌زمان

بخشی از چیزی که این روزها پیشرفت هوش مصنوعی را بسیار گیج‌کننده می‌کند، ناهموار بودن آن است. ما مدل‌های هوش مصنوعی داریم که قادرند بیماری‌ها را مؤثرتر از پزشکان انسانی تشخیص دهند، در المپیاد بین‌المللی ریاضی مدال نقره کسب کنند و برترین برنامه‌نویسان انسانی را در چالش‌های کدنویسی رقابتی شکست دهند. اما همین مدل‌ها گاهی با کارهای اولیه دست‌وپنج نرم می‌کنند؛ مانند محاسبات ساده ریاضی یا سرودن شعر عروضی.

این امر به آن‌ها شهرتی دوگانه داده است: در برخی موارد به‌طور حیرت‌انگیزی درخشان و در موارد دیگر کاملاً بی‌فایده هستند. بسته به اینکه شما به بهترین خروجی‌ها نگاه می‌کنید یا بدترین آن‌ها، برداشت‌های بسیار متفاوتی از سرعت بهبود هوش مصنوعی شکل می‌گیرد.

این ناهمواری، سنجش این مدل‌ها را نیز دشوار کرده است. من سال گذشته نوشتم که ما به ارزیابی‌های بهتری برای سیستم‌های هوش مصنوعی نیاز داریم و هنوز به این باور پایبندم. اما همچنین معتقدم که به روش‌های خلاقانه‌تری برای ردیابی پیشرفت هوش مصنوعی نیاز داریم که صرفاً به آزمون‌های استاندارد متکی نباشند؛ زیرا بیشترِ آنچه انسان‌ها انجام می‌دهند (و آنچه می‌ترسیم هوش مصنوعی بهتر از ما انجام دهد) را نمی‌توان در قالب یک آزمون کتبی گنجاند.

آقای ژو، پژوهشگر فیزیک ذرات نظری که سوالاتی برای «آزمون پایانی بشریت» ارائه داده است، به من گفت که اگرچه مدل‌های هوش مصنوعی اغلب در پاسخ به سوالات پیچیده تحسین‌برانگیز عمل می‌کنند، اما آن‌ها را تهدیدی برای خود و همکارانش نمی‌داند؛ زیرا شغل آن‌ها بسیار فراتر از صرفاً ارائه پاسخ‌های صحیح است.

او می‌گوید: «یک شکاف بزرگ بین معنای امتحان دادن و معنای یک فیزیکدان و پژوهشگر حرفه‌ای بودن وجود دارد. حتی یک هوش مصنوعی که بتواند به این سوالات پاسخ دهد، ممکن است آماده کمک به پژوهش نباشد؛ چراکه پژوهش ذاتاً ساختاریافتگی کمتری دارد.»

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]