ابزار هوش مصنوعی MyInterview برای مصاحبههای کاری و بررسی دقت آن
بیشتر از یک سال از شروع همهگیری کووید-19 میگذرد و در حال حاضر، میلیونها نفر آمریکایی در جستجوی شغل هستند. ادعای «نرمافزارهای مجهز به هوش مصنوعی مصاحبه» این است که میتوانند در غربال متقاضیان و گزینش بهترین افراد ممکن، به کارفرمایان کمک کند. شرکتهای فعال در این حوزه (فناوری) از موج عظیم کسب و کارها طی همهگیری خبر میدهند.
با این حال، با افزایش تقاضا برای این فناوریها، پرسشهای بیشتری در مورد دقت و اعتبار آنها مطرح میشود. در آخرین قسمت پادکست مجله فناوری MIT، «ما به ماشینها اعتماد کردهایم»، دو نرمافزار مخصوص برای انجام مصاحبههای کاری را به آزمایش گذاشتیم: MyInterview و Curious Thing. نتایج حاکی از پراکندگی در پیشبینیها و امتیازات اعطاءشده به متقاضیان بودند؛ پس باید از خود بپرسیم این الگوریتمها واقعاً چه چیزی را ارزیابی میکنند.
MyInterview و آشنایی با متقاضیان
نرمافزار MyInterview ویژگیهای شخصیتی افراد را با استفاده از آزمون Big Five اندازه میگیرد؛ این آزمون شخصیتشناسی اغلب در فرآیند استخدامی به کار رفته و 5 ویژگی را مورد ارزیابی قرار میدهد: باز بودن نسبت به تجارب جدید، خودآگاهی، برونگرایی، توافقجویی و ثبات عاطفی. Curious Thing نیز ویژگیهای مرتبط با شخصیت را میسنجد، اما به جای استفاده از آزمون Big Five، از معیارهای دیگری همچون تواضع و تابآوری برای سنجش متقاضیان استفاده میکند.
این الگوریتمها پاسخ متقاضیان را تحلیل میکنند تا به ویژگیهای شخصیتی آنها دست یابند. MyInterview علاوه بر این، نمرات دیگری هم در اختیار میگذارد که تناسب بین متقاضی و ویژگیهایی که مدیران استخدامی برای آن شغل خاص، مناسب و ایدهآل میدانند را نشان میدهند.
گام اول آزمایشات
اولین گام آزمایشات، راهاندازی نرمافزارها بود؛ بدین منظور، یک موقعیت شغلی غیرواقعی برای «منشی دفتر/ پژوهشگر» را در هر دو نرمافزار MyInterview و Curious Thing بارگذاری کردیم. سپس با انتخاب از میان ویژگیهای شخصیتی که سیستم نشان میداد، متقاضی ایدهآل خود را تعریف کردیم.
در نرمافزار MyInterview، چندین ویژگی (همچون توجه به جزئیات) انتخاب و آنها را بر اساس درجهی اهمیت رتبهبندی کردیم. سؤالات مصاحبه که هنگام ضبط پاسخ روی صفحهی متقاضی نشان داده میشود را هم انتخاب کردیم. در Curious Thing، ویژگیهایی همچون تواضع، سازگاری و تابآوری را برگزیدیم.
سپس یکی از افراد تیم خودمان، هیلک، برای این موقعیت شغلی فرضی درخواست داد و در مصاحبههای هر دو نرمافزار شرکت کرد.
هیلک یک مصاحبهی تلفنی کامل با Curious Thing انجام داد. در آزمایش اول، عملکردی معمولی از خود نشان داد و نمرهی 5/8 از 9 را برای تواناییاش در زبان انگلیسی دریافت کرد. بار دوم، مصاحبهگر خودکار همان سؤالات را پرسید و متقاضی از روی توضیحات آلمانی ویکیپدیا در مورد ویژگیهای روانسنجی، به آنها پاسخ داد.
با این وجود، Curious Thing به زبان انگلیسی او نمره 6 از 9 داد. هیلک مصاحبه را تکرار کرد و دوباره همین نمره را به دست آورد.
آزمایش MyInterview
همین آزمایش با MyInterview نیز تکرار شد و متقاضی همان متون آلمانیزبان ویکیپدیا را در پاسخ به سؤالات نرمافزار ارائه داد. الگوریتم علاوه بر تحلیل شخصیت، پیشبینی کرد بین متقاضی و شغل مذکور، 73% تناسب وجود دارد، امتیازی که او را در 50% برتر متقاضیان قرار داد.
سازندگان MyInterview نوعی رونوشت از مصاحبه در اختیار مدیران استخدامی قرار میدهند. با بررسی این رونوشت فهمیدیم که سیستم، کلمات آلمانی را به عنوان کلمات انگلیسی تفسیر کرده است. اما این متن هیچ معنایی نداشت.
عدم تناسب
کلیتون دونلی، روانشناس صنعتی و سازمانی که با MyInterview همکاری داشته است، میگوید: «الگوریتم به جای اینکه بر اساس پاسخهای متقاضی به او نمره دهد، ویژگیهای شخصیتی را از صدای او تشخیص داده است.»
اما به گفته فرد ازوالد، استاد روانشناسی صنعتی و سازمانی دانشگاه رایس، لحن و طرز بیان معیار قابل اعتمادی برای سنجش ویژگیهای شخصیتی نیست. وی معتقد است: «در فرآیند گزینش و استخدام، نمیتوان لحن صدا را به عنوان دادهی معتبری به کار برد. این کار اصلاً درست نیست.»
استفاده از سؤالات بازپاسخ برای تعیین ویژگیهای شخصیتی، چالشهای فراوانی به همراه دارد، حتی زمانی که (یا به خصوص زمانی که) فرآیند خودکار باشد. به همین خاطر است که بسیاری از آزمونهای شخصیتی همچون Big Five، سؤالات چندگزینهای دارند و افراد میتوانند از بین پاسخها، یکی را انتخاب کنند.
ازوالد میگوید: «مسئله اینجاست که شخصیت را به سختی میتوان در این معنا و به شکل بازپاسخ ارزیابی کرد. هوش مصنوعی و الگوریتمها فرصتهای زیادی پیش رو دارند، اما سؤالات آنها باید ساختارمندتر و استانداردتر شود. به شخصه گمان نمیکنم از نظر داده و طراحیهایی که این دادهها را در اختیار ما میگذارند، هنوز به این نقطه رسیده باشیم.»
هان ژو، از بنیانگزاران و مدیر ارشد فناوری Curious Thing، طی ایمیلی به یافتههای ما پاسخ داد: «این اولین باری است که سیستم ما به زبان آلمانی به آزمایش گذاشته میشود. این یافتهها کمک کردند نقطهی آسیبپذیر الگوریتم را بشناسیم. تحقیق و بررسی بیشتری لازم است تا بفهمیم آیا مشکل خاصی در سیستم ما وجود دارد یا خیر.»
پارادوکس سوگیری
عملکرد متقاضیان در مصاحبههای مجهز به هوش مصنوعی تنها معیار ارزیابی نیست. این سیستمها ممکن است سوگیری را کاهش دهند. اما بسیاری از این ابزارها به صورت مستقل آزمایش نشدهاند و شرکتهای سازندهی آنها هم نسبت به اشتراکگذاری جزئیات نحوهی کار آنها مقاومت نشان میدهند؛ به همین دلیل متقاضیان و حتی خود کارفرمایان به سختی میتوانند از دقت الگوریتمها مطمئن بوده و بفهمند چه تأثیری روی تصمیمات استخدامیشان میگذارد.
مارک گری در یک پلتفرم هلندی مدیریت املاک به نام Proper کار میکند و پیش از این در واحد منابع انسانی شرکت الکترونیک Airtime مشغول بوده است. وی توضیح میدهد: «در ابتدا از نرمافزاری استفاده میکردم که توسط شرکتی آلمانی به نام Retorio ساخته شده بود. این ابزار میتوانست سوگیری انسانی که هنگام گفت و گو با متقاضیان، معمولاً در مدیران استخدامی شکل میگیرد را کاهش دهد.»
Retorio ویژگیهایی از جمله Big Five را اندازه میگیرد. اما گری تصمیمات استخدامی را تنها بر اساس ارزیابی Retorio اتخاذ نمیکند؛ بلکه نتایج این ارزیابی را در کنار چندین دادهی دیگر مدنظر قرار میدهد.
گری در یک فرآیند استخدامی معمولی، از تماس غربالگری و مصاحبهی Retorio استفاده میکند: از بیشتر متقاضیان، فارغ از نتیجهای که در تماس غربالگری اولیه به دست آوردهاند، خواسته میشود تا در این مصاحبه شرکت کنند. افرادی که از این مرحله با موفقیت عبور میکنند، وارد مرحلهی بعدی یعنی آزمون مهارتهای شغلی شده و پس از آن در یک مصاحبهی حضوری با سایر اعضای تیم شرکت میکنند.
گری معتقد است: «به مرور زمان همهی شرکتها مجبور خواند بود از ابزارهایی همچون Retorio استفاده کنند، چون بینش و اطلاعات بیشتری در اختیارشان قرار میدهند. چندین علامت سؤال کلی در این حوزه وجود دارد، اما به نظر من سؤال مهمتر این است که مگر خودمان بهتر از این ابزارها میتوانیم شخصیت افراد را قضاوت کنیم؟»
انتقادات از ابزارهای مصاحبه هوش مصنوعی
گری به انتقادات وارد شده به ابزارهای مصاحبه هوش مصنوعی نیز اشاره میکند. در پژوهشی که «انتشارات عمومی باوارین» در ماه فوریه انجام داد، نشان داده شد که الگوریتم Retorio، بسته به پسزمینهی ویدئوی متقاضیان و وسایل موجود در آن، نتایج متفاوتی به دست میدهد.
کریستوف هوئنبرگر، مدیر و یکی از بنیانگزاران Retorio، در پاسخ به این یافتهها میگوید: «از جزئیات روشهای آزمایشی خبرنگاران اطلاعی ندارم، اما هدف شرکت این نبوده که الگوریتمش به عنوان عامل تعیینکنندهی تصمیمات استخدامی به کار برود. ما صرفاً ابزاری کمکی هستیم؛ در عمل، این ابزار باید در کنار افراد استفاده شود. Retorio ابزاری برای غربال خودکار نیست.»
در هر صورت، به کارگیری این ابزارها باید با احتیاط بیشتری همراه شود. چون بسیاری از افراد هستند که صرفاً به خاطر تنوع، چالشطلبی یا تغییر محیط به دنبال شغل نمیگردند. این گروه برای بقای اقتصادی خود به شغل نیاز دارند و سروکار داشتن با این ابزارها، ریسک بالایی برای آنها به همراه دارد.