چتربات ChatGPT، باموفقیت به تست واتسون گلیزر پاسخ میدهد
چتربات هوش مصنوعی ChatGPT که این روزها همه درباره آن صحبت میکنند، در اثبات قابلیتهای خود نشان داده که میتواند، به سؤالات تست تفکر انتقادی واتسون گلیزر با موفقیت پاسخ دهد.
به گزارش هوشیو، برای درک بهتر توانمندی منحصربهفرد این چتبات باید توضیح کوتاهی درمورد تست واتسون گلیزر ارائه دهیم. این تست برای ارزیابی تفکر انتقادی افراد بوده، که توسط شرکتهای حقوقی بهعنوان راهی برای سنجش و انتخاب، طی فرایند استخدام نیروهایشان بهکار گرفته میشود.
بااینحال، ممکن است این آزمون بهزودی به تاریخ بپیوندد، زیرا بهتازگی یکی از دانشآموزان با نشریه حقوقی ما یعنی Legal Cheek تماس گرفته و ادعاهای جالبی درمورد پاسخ به آزمون واتسون گلیزر با کمک چتبات ChatGPT کرده است. بنابهگفته این دانشآموز، او توانسته تنها با استفاده از پاسخهای این ربات، در یک نسخه آزمایشی از آزمون شرکت کرده و 70 درصد امتیاز کسب نماید. نکته قابلتوجه درنتیجه این آزمون آن است که، نمره قبولی برای ارزیابی در این تست معمولاً درحدود 75٪ است.
ازآنجاییکه مشتاق بودیم خودمان این ربات را ارزیابی کنیم، چند سؤال به سبک واتسون گلیزر از ربات پرسیدیم، که اگر بخواهیم هرطور به جوابهای آن نگاه کنیم، قابلتوجه بهنظر میرسد.
این چتربات هوش مصنوعی برای چهار نوع سؤال (ارزشیابی استدلالهای منطقی، تعبیر و تفسیر، استنباط و شناسایی مفروضات) از نمره کامل برخوردار شد. بااینحال، زمانی که با یک سؤال به سبک استنتاج با پیچیدگی بیشتر به چالش کشیده شد، که نیاز به رمزگشایی تفاوت میان گزینههای «احتمالاً درست» و «احتمالاً نادرست» داشت، کوتاه آمد و تسلیم شد.
در ادامه دو مورد از سؤالات مطرحشده، ورودیهای هوش مصنوعی و پاسخهای این چتربات را آوردهایم.
نمونه سؤال ارزیابی استدلالهای منطقی
طرح مسئله: آیا مدیران هنگام اتخاذ سیاست تجاری باید با کارکنان شرکت مشورت کنند؟
بله، چون نظر همه مهم است، حتی اگر مدیر نباشند.
سؤال: آیا این یک استدلال قوی است؟
پاسخهای احتمالی: استدلال قوی یا استدلال ضعیف
ورودی هوش مصنوعی + پاسخ = استدلال ضعیف✅
پاسخ چتبات ChatGP: نه، این استدلال محکمی نیست. درحالیکه توجه به نظرات کارمندان مهم است، عوامل دیگری مانند شرایط بازار، روند صنعت و ملاحظات قانونی باید درهنگام اتخاذ سیاست تجاری در نظر گرفته شوند. مشاوره با کارکنان باید یکی از جنبههای فرایند تصمیمگیری باشد، نهتنها عامل برای آن.
نمونه سؤال استنتاجی
طرح مسئله: کارمندان مجازی یا کارمندان دورکار، روند روبهافزایشی دارند. در بریتانیا تعداد کارمندان مجازی در دو سال گذشته 39 درصد و در پنج سال گذشته 74 درصد افزایش یافته است. بهکارگیری کارگران مجازی هزینهها را کاهش میدهد و استفاده از پتانسیل کارگران بااستعداد را بدون توجهبه اینکه در کجای جهان قرار دارند، ممکن میسازد. بااینحال، اداره یک محل کار با کارمندان مجازی ممکن است مستلزم ارتباط نادرست و روابط دوستانه کمتری بوده و نسبت به تعامل چهرهبهچهره زمانبرتر نیز باشد.
افزایش تعداد کارمندان مجازی در سال گذشته بیشتر از 4 سال پیش بود.
سؤال: براساس بیانیه بالا، آیا درست است، احتمالاً درست است، احتمالاً نادرست است یا نادرست است که افزایش تعداد کارمندان مجازی در سال گذشته بیشتر از 4 سال قبل بوده؟ یا دادههای کافی دراینزمینه وجود ندارد؟
پاسخهای احتمالی: درست است، احتمالا درست است، دادههای ناکافی، احتمالا نادرست، نادرست
ورودی هوش مصنوعی + پاسخ = نادرست
پاسخ چتبات ChatGP: اینکه افزایش تعداد کارمندان مجازی در سال گذشته بیشتر از 4 سال پیش بوده، نادرست است.
در نمونه اول از سؤالات استدلالی، ChatGP توانست به پرسش مطرحشده پاسخ صحیحی دهد، درحالیکه در مورد بعدی یعنی سؤال استنتاجی پاسخ این چتبات به سؤال اشتباه بود.
براساس توانمندیهای که این چتبات تاکنون در مسائل گوناگون از خود نشان داده، آیا حضور آن میتواند نقطه پایانی برای آزمایش واتسون گلیزر باشد؟
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید