هر کس بگوید هوش مصنوعی توانایی تشخیص دروغ را دارد فریبکار است!
باز هم با یک پژوهش مشکلساز دیگر در حوزه هوش مصنوعی روبهرو هستیم. اینبار مهره مار در دانشگاهی در خاور میانه پیدا شده، جایی که در آن یک گروه از پژوهشگران از بهاصطلاح «سیستم تشخیص دروغ lie-detection system» رونمایی کردهاند.
اجازه بدهید از ابتدا، روراست باشیم: هوش مصنوعی نمیتواند کاری را که انسان قادر به انجام آن نیست، انجام دهد، حتی اگر به همان اندازه روی مسئله وقت بگذارد و هیچ انسانی هم توانایی تشخیص دروغ را ندارد و نمیتواند متوجه دروغگویی انسان دیگری شود، تمام!
حقیقت این است که برخی از ما، بعضی مواقع میتوانیم بفهمیم که دیگری دروغ میگوید؛ اما هیچکس، همیشه قادر به تشخیص دروغ نیست. طبق آنچه که در اخبار منتشر شده است، محققان یک دانشگاه ادعای زیر را مطرح کردهاند:
پژوهشگران، توانستند بر اساس انقباض ماهیچههای صورت شرکتکنندگان در آزمایش، 73 درصد از دروغهای آنها را تشخیص دهند؛ این روش به بالاترین میزان تشخیص دروغ در میان روشهای موجود، دست یافته است.
این ادعا، واقعاً عجیب است! در بهترین حالت، این موضوع قابلبحث است که میزان 73 درصد صحت در تشخیص دروغ، نشانه موفقیت ویژه این پارادایم است.
صحت چیست؟
بر اساس شانس پایه، هر سیستمی برای انتخاب بین دو گزینه، شانس 50-50 دارد و اساساً عملکرد انسان هم برای حدس زدن دروغ، همینگونه است. جالب است که افراد، در تشخیص حرف راست، بهتر عمل میکنند. بعضی پژوهشها ادعا میکنند که انسان در تشخیص گفتههای صادقانه، دارای «صحت» مشابه «سیستم تشخیص دروغ» گروه پژوهشی تلآویو است.
مقاله تیم پژوهشی دانشگاه تلآویو حتی بیان میکند که پلیگرافها در دادگاهها قابلقبول نیستند، زیرا معتبر نیستند؛ اما آنها به این نکته اشاره نمیکنند که دستگاههای پلیگراف (که از سال 1921 مورد استفاده بودهاند)، بهاصطلاح «صحت» بالاتری از سیستم آنها دارد؛ میانگین ضریب صحت پلیگرافها در پژوهشها حدود 80- 90 درصد اعلام شده است.
در هر حال، اجازه بدهید نگاه دقیقتری به پژوهش گروه تلآویو بیندازیم. آنها پژوهش خود را با حضور 48 نفر آغاز کردند که 35 نفر از آنان، زن بودند. 9 نفر به دلایل مختلف از آزمایش کنار گذاشته شدند.
بنابراین داده این پژوهش از دو منبع به دست آمد: یک سیستم هوش مصنوعی اختصاصی و 39-40 نفر شرکتکننده. اکثر شرکتکنندگان زن بودند و هیچ اشارهای به تفاوت نژادی، فرهنگی یا دینی آنها نشده است. به علاوه میانه سنی شرکتکنندگان 23 سال بود و هیچ راهی نیست که بدانیم آیا گروه پژوهشی سابقه مالی، سلامت روانی یا دیگر ملاحظات را در نظر داشته است. تنها چیزی که میدانیم این است که گروه کوچکی از افراد با میانگین سنی 23 سال که اکثراً زن بودند، برای شرکت در این پژوهش با هم جفت شدند.
همچنین به شرکتکنندگان، دستمزد هم پرداخت شد. آنها نهتنها به خاطر وقتی که صرف کردند (که در محیط دانشگاهی امری استاندارد است) بلکه به خاطر بیان موفقیتآمیز دروغ به دیگران نیز مبلغی دریافت کردند. این امر، یک خط قرمز است، نه به این دلیل که پرداخت دستمزد در ازای شرکت در پژوهشهای علمی، غیراخلاقی است، بلکه به این دلیل که پارامترهایی به پژوهش میافزاید که آن را عمداً یا ناآگاهانه، مبهم میسازد. پژوهشگران این امر را اینگونه توجیه میکنند که بخشی از آزمایش بوده است، تا بتوانند تعیین کنند که آیا ایجاد انگیزه، توانایی دروغگویی افراد را تغییر میدهد.
اما با داشتن چنین نمونه کوچکی، جمع کردن تعداد زیادی پارامتر غیرضروری در آزمایش، نامعقول است. بهخصوص پارامترهایی که چنان نیمهکاره هستند که نمیتوان بدون دادههای پسزمینه جدی، آنها را کدگذاری کرد.
انگیزه مالی، چه مقدار بر روی اثربخشی یک پژوهش راستگویی، تأثیر دارد؟ به نظر میرسد خود این مسئله، نیاز به یک پژوهش در مقیاس کلان دارد.
روششناسی پژوهش
پژوهشگران، شرکتکنندگان را در گروههای دونفره دروغگو- شنونده، جفت کردند. دروغگوها هدفونهایی داشتند که از آن یا کلمه «درخت» یا «خط» پخش میشد و به آنها گفته میشد درباره آنچه شنیدند، دروغ یا راست بگویند. همگروهی آنها باید حدس میزد که راست میگویند یا دروغ.
مشکل پژوهش این است که پژوهشگران آرایههای الکترودی خود را ایجاد کردند و آنها را به صورت فرد دروغگو متصل کردند و سپس یک هوش مصنوعی برای تفسیر خروجیها توسعه دادند. فرض اولیه پژوهشگران این بود که انقباض ماهیچههای صورت ما، دریچهای به سوی حقیقت عینی است. این فرضیه کاملاً نظری و صراحتاً نامعقول است. حداقل یک میلیارد نفر در جهان مبتلا به نوعی ناتوانی جسمی هستند و تقریباً به همین میزان، دارای اختلال روانی هستند. سکته مغزی، فلج بلز، جای زخم و از دست دادن قدرت عضلانی از این قبیل هستند. با وجود همه اینها، پژوهشگران انتظار دارند که ما باور کنیم الگوریتمی یکسان برای درک همه انسانها، اختراع کردهاند. آنها مدعی هستند که با یک ویژگی انسانی مواجه شدهاند که عمل ذهنی فریب دادن را بدون استثنا، با یک حالت فیزیکی همگانی، مرتبط میکند و فقط با اندازهگیری انقباض عضلانی صورت 40 انسان، به این دستاورد رسیدهاند!
طبق خبر منتشرشده، این پژوهشگران عقیده دارند که نتایج آنها میتواند پیامدهای چشمگیری در بسیاری از صحنههای زندگی ما داشته باشد. در آینده به واسطه نرمافزار ویدئویی آموزشدیدهای که میتواند بر اساس حرکات ماهیچههای صورت، دروغها را تشخیص دهد، ممکن است الکترودها بلااستفاده شوند.
بنابراین، ایده اصلی این پژوهش این است که با استفاده از یک پارادایم تجربی (الکترودهای فیزیکی)، دادههایی برای ایجاد روششناسی یک پارادایم تجربی کاملاً متفاوت (بینایی کامپیوتر) تولید کنیم؟ و ما باید باور کنیم که این ترکیب ورودیهای ناهمخوان، منجر به سیستمی میشوند که میتواند راستگویی انسان را چنان تعیین کند که خروجی آن در دادگاه قابلقبول باشد؟
این ادعایی بسیار جسورانه است! این گروه حتی ممکن است ادعا کنند که مسئله AGI را با یادگیری عمیق حل کردهاند. بینایی کامپیوتر درحالحاضر وجود دارد، چه دادههای الکترودها ضروری باشند و چه نباشند.
بدتر از همه، ظاهراً آنها قصد دارند که این سیستم را برای کارهای تجاری و دولتی هم به کار بگیرند.
در خبر منتشرشده نقل شده است که دینو لوی، یکی از اعضای گروه پژوهشی پیشبینی میکند که در بانک، بازجوییهای پلیس، فرودگاه یا در مصاحبههای کاری برخط، دوربینهای با وضوح بالا که برای تشخیص حرکات ماهیچههای صورت آموزش دیدهاند، قادر خواهند بود که حرف راست را از دروغ تشخیص بدهند. هماکنون، وظیفه تیم آنها این است که مراحل آزمایشی را کامل کنند، الگوریتم را آموزش دهند و الکترودها را حذف کنند. زمانی که فناوری، کامل شد، انتظار دارند که کاربردهای متعدد و گوناگونی داشته باشد.
بازجوییهای پلیس؟ فرودگاه؟ این واقعی است؟
دقیقاً چند درصد از 40 شرکتکننده در آزمایش، سیاهپوست، لاتین، معلول، مبتلا به اتیسم یا اقلیت جنسی بودهاند؟ چگونه انسان باوجدان و دارای حسننیت میتواند بر اساس چنین داده کم و پراکندهای، ادعای علمی به این بزرگی را مطرح کند؟
اگر این «راهحل هوش مصنوعی» واقعاً تبدیل به یک محصول شود، افرادی که دقیقاً شبیه شرکتکنندگان در پژوهش نیستند، به طور بالقوه میتوانند به اشتباه بازداشت شوند، در فرودگاه دستگیر شوند، درخواست وامشان رد شود و در مصاحبههای کاری رد شوند.
این سیستم تنها قادر بود که دروغ افراد را با سطح صحت 73 درصد و در آزمایشی که دروغها تنها یک کلمه بودند، تشخیص دهد. کلمهای که هیچ معنایی برای گوینده و هیچ تأثیر حقیقیای بر شنونده نداشت.
در واقعیت، شرایطی مشابه این آزمایش وجود ندارد و این «صحت 73 درصدی» به اندازه انداختن تاس، شانسی و بیمعنا است. به زبان ساده: نرخ صحت 73 درصد در کمتر از 200 تکرار و با حداکثر 20 گروه (شرکتکنندگان گروههای دونفره تشکیل دادند)، نتیجهای است که نشان میدهد آزمایش شما با شکست مواجه شده است.
اشتباه متوجه نشوید! چنین آزمایشهایی باید بیشتر انجام شوند. آزمودن مرزهای فناوری، مهم است؛ اما ادعاهای مطرحشده پژوهشگران کاملاً عجیب هستند و واضح است که هدف، عرضه نهایی محصول بوده است.
متأسفانه این محصول به طور قطع، توسعه خواهد یافت و پلیس ایالات متحده از آن استفاده خواهد کرد. درست مانند پلیس پیشبینی، Gaydar ، هوش مصنوعی استخدامکننده و دیگر راهحلهای عجیب و غریب هوش مصنوعی، این اختراع هم کاملاً مشکلآفرین است.