گزارشات جعلی AI متخصصان را به اشتباه میاندازند
فناوری هوش مصنوعی میتواند گزارشات جعلی تولید کند که به اندازهای طبیعی جلوه میکنند که حتی متخصصان امنیت سایبری را به اشتباه میاندازند. در صورت استفاده گسترده از این سیستمها تلاش برای مقابله با حملات سایبری راه به جایی نخواد بُرد. این سیستمها میتوانند آتش مسابقه تسلیحاتی میان مولدهای اخبار و گزارشات جعلی و تشخیصدهندهها را روشن کنند.
اگر شما هم جزو آن دسته از افرادی هستید که از شبکههای اجتماعی، برای مثال، فیسبوک و توئیتر، استفاده میکنید، احتمالاً مطالبی که برچسبهایی با مضمون اطلاعات نادرست دارند را دیدهاید. تا به امروز، مخاطب اطلاعات کِذب – چه آنها که برچسب دارند و چه آنها که برچسب ندارند – مردم عادی بودهاند. اگر اطلاعات نادرست (اطلاعات کِذب یا گمراهکننده) به حوزههای علمی و تخصصی همچون امنیت سایبری، امنیت عمومی و پزشکی راه یابند، چه روی خواهد داد؟
نگرانی در مورد گسترش اطلاعات نادرست در حوزههای حیاتی رو به افزایش است. چنین اطلاعاتی در نتیجه سوگیریهای انتشاراتیِ مقالات عملی و حتی مقالات پژوهشی که به صورت تخصصی داوریشدهاند، گسترش مییابند. به تازگی پژوهشی در زمینه امنیت سایبری انجام شده است؛ نتایج این پژوهش نشان میدهد اطلاعات نادرست به شیوه دیگری هم میتوانند به جوامع علمی راه یابند. نتایج این پژوهش نشان میدهد سیستمهای هوش مصنوعی میتوانند اخباری جعلی با موضوع پزشکی، دفاع و غیره تولید کنند؛ این اطلاعات به اندازههای طبیعی جلوه میکنند و متقاعدکننده هستند که تشخیص آنها برای متخصصان نیز دشوار است.
اطلاعات کِذب اغلب با هدف خدشه وارد کردن به شهرت و اعتبار شرکتها و چهرههای مردمی منتشر میشوند. راهیابی چنین اطلاعاتی به حوزههای تخصصی میتواند نتایج زیانباری به بار آورد. برای نمونه میتواند توصیههای پزشکی نادرستی به پزشکان و بیماران ارائه دهد. در چنین شرایطی جان مردم به خطر خواهد افتاد.
به همین منظور، این گروه از محققان به مطالعه تاثیرات احتمالی اطلاعات نادرست بر حوزههای امنیت سایبری و پزشکی پرداختهاند. این پژوهشگران به کمک نوعی مدل AI که ترنسفورمر نامیده میشود، اخباری جعلی در زمینه امنیت سایبری و مقالات پزشکی با محوریت ویروس کرونا تولید کردند؛ سپس اخبار و گزارشات جعلی که با موضوع امنیت سایبری تولید کرده بودند را در اختیار متخصصان این حوزه قرار دادند تا ببیند آنها متوجه جعلی بودن این اخبار میشوند یا خیر. طبق نتایج این پژوهش، اخباری که این مدلها تولید کرده بودند به اندازهای مجابکننده بودند که متخصصان را نیز به اشتباه انداختند.
مدلهای ترنسفورمر
فنآوری هوش مصنوعی زیربنای بیشتر فنآوریهایی را تشکیل میدهد که برای تشخیص و مقابله با اخبار و گزارشات جعلی مورد استفاده قرار میگیرند. مهندسان کامپیوتر میتوانند با تکیه بر قابلیتهای هوش مصنوعی در کمترین زمان عملیات راستیآزمایی (fact checking) را بر روی حجم بالایی از اطلاعات نادرست انجام دهند. هرچند، فنآوری هوش مصنوعی به افراد در تشخیص اطلاعات کِذب کمک میکند، اما طی سالهای اخیر از این فنآوری برای تولید چنین اطلاعاتی نیز استفاده شده است.
مدلهای ترنسفورمر، همچون BERT (متعلق به شرکت گوگل) و GPT ( متعلق به شرکت OpenAI) برای درک متن، ترجمه، خلاصه کردن و تفسیر متن از پردازش زبان طبیعی (NLP) استفاده میکنند. از این مدلها در انجام کارهایی همچون قصهگویی و پاسخدهی به سؤالات نیز استفاده میشود. این مدلها توانستهاند متونی تولید کنند که به لحاظ کیفی با متونی که انسانها نوشتهاند، برابری میکنند.
ترنسفورمرها به گوگل و دیگر شرکتهای فنآوری کمک کردند موتورهای جستوجوی خود را ارتقا دهند. این مدلها به عموم مردم نیز در رفع مشکلاتی همچون غلبه بر ایست فکری نویسندگان کمک کردند.
برای رسیدن به مقاصد سوء نیز میتوان از ترنسفورمرها استفاده کرد. اخبار و گزارشات جعلی که هوش مصنوعی تولید میکند به شبکههای اجتماعی از قبیل فیسبوک و توئیتر راه یافتهاند.
اطلاعات نادرست مهم
نتایج این پژوهش نشان میدهد اطلاعات نادرستی که ترنسفورمرها تولید میکنند تهدیدی برای حوزه پزشکی و امنیت سایبری محسوب میشود. پژوهشگران برای اینکه نشان دهند این مشکل تا چه اندازه جدی است، مدل ترنسفورمر GPT-2 را بر روی تعدادی منبع آنلاین و عمومی به صورت دقیق تنظیم کردند؛ در این منابع، راجع به آسیبپذیریهای امنیت سایبری و حملات سایبری بحث میشود.
آسیبپذیری امنیت سایبری به ضعف سیستم کامپیوتری اطلاق میشود. از سوی دیگر، حمله سایبری به عملی گفته میشود که از ضعف و آسیبپذیری این سیستم سوء استفاده میکند. برای مثال، اگر رمزی ضعیف برای حساب کاربری فیسبوکتان انتخاب کنید، حمله سایبری به این صورت اتفاق میافتاد که هکر رمز شما را پیدا میکند و وارد حساب کاربریتان میشود.
محققان در گام بعدی، جمله و عبارتی از یک نمونه واقعی هوش تهدید سایبری (Cyberthreat intelligent) به مدل دادند و از او خواستند این جملات و عبارات را که در وصف تهدیدات سایبری بودند را تکمیل کند. سپس آن را به گروهی از شکارچیان امنیت سایبری، که اطلاعات زیادی در زمینه تهدیدات سایبری دارند، نشان دادند. متخصصان سایبری برای تشخیص حملات احتمالی شرح این تهدیدات را مطالعه کردند و به همان نسبت امنیت سیستمهایشان را افزایش دهند.
نتایج این آزمایش فوقالعاده جالب بود. اطلاعات نادرستی که این پژوهشگران با موضوع امنیت سایبری تولید کرده بودند، متخصصان امنیت سایبری را، که نسبت به انواع حملات سایبری و آسیبپذیریها آگاهی دارند، به اشتباه انداخت. فرض کنید چنین اطلاعاتی به بخش مهمی از هوش تهدید سایبری، برای مثال صنعت هوایی راه پیدا کند.
نوشته فوق شامل اطلاعات کِذب و گمراهکنندهای در زمینه حملات سایبری به شرکتهای هواپیمایی با استفاده از دادههای لحظهای و حساس پرواز است. این اطلاعات نادرست توجه تحلیلگران سایبری را به باگهای نرمافزای جعلی جلب میکند و مانع از این میشود که آنها آسیبپذیریهای واقعی سیستم را بررسی کنند. اگر در دنیای واقعی، توجه تحلیلگران از آسیبهای حقیقی به این اطلاعات نادرست جلب شود، شرکت هواپیمایی مورد بحث، در معرض حملات سایبری جدی قرار میگیرد.
مدلهای مبتنی بر ترنسفورمر میتوانند اطلاعات نادرستی در زمینه پزشکی تولید کنند و پزشکان را به اشتباه بیندازند. در طول دوره همهگیری ویروس کرونا، نسخه پیشچاپ مقالات پژوهشی که به صورت دقیق و تخصصی داوری نشدهاند در وبسایتهایی همچون medrXiv بارگذاری میشوند. نکته جالب این است که نه تنها در مطبوعات به این مقالات ارجاع داده میشود، بلکه برای تصمیمگیری در مورد بهداشت عمومی نیز از آنها استفاده میشود. به مثال مقابل توجه کنید؛ این نوشته واقعی نیست اما پس از اینکه پژوهشگران مدل GPT-2 را بر روی مقالات مرتبط با ویروس کرونا به صورت دقیق تنظیم کردند، مدل این متن را تولید کرد:
همانگونه که مشاهده میکنید، این مدل توانست جملات کاملی تولید کند و در قالب یک چکیده به بررسی عوارض جانبی واکسن کرونا و آزمایشات صورت گرفته بپردازد. چنین اطلاعاتی هم برای پژوهشگران حوزه پزشکی که باید با تکیه بر اطلاعات موثق تصمیمگیری کنند و هم برای عموم مردم که برای کسب اطلاعات مرتبط با سلامت و بهداشت به اخبار عمومی رجوع میکنند، مشکلآفرین است. اگر متخصصان نتوانند کِذب بودن این اطلاعات را تشخیص دهند، تلاش افرادی که در زمینه زیستپزشکی تحقیق میکند هدر میرود و جان افراد به خطر میافتد.
مسابقه تسلیحاتی بر سر اطلاعات نادرستی که هوش مصنوعی تولید میکند
هرچند عملیات راستی آزمایی را میتوان بر روی نمونههای مورد استفاده در این پژوهش انجام داد، اما اطلاعات نادرست و گزارشات جعلی که مدلهای ترنسفورمر تولید میکنند، مانع از این میشود که صنایعی همچون امنیت سایبری و بهداشت و درمان از فنآوری هوش مصنوعی برای استفاده و پردازش اضافه بار اطلاعاتی (information overload) استفاده کنند. برای مثال، مهندسان برای استخراج دادههای مرتبط با هوش تهدید سایبری سیستمهای خودکار توسعه میدهند؛ و در نهایت، برای تشخیص حملات احتمالی، این دادهها را به سیستمهای خودکار آموزش میدهند. اگر این سیستمهای خودکار متنی حاوی اطلاعات کِذب و نادرست پردازش کنند، نمیتوانند به خوبی حملات واقعی را تشخیص دهند.
به اعتقاد ما در نهایت میان منتشرکنندگان اطلاعات نادرست و تشخیصدهندهای آنها نزاع در میگیرد؛ بدین صورت که گروه اول به دنبال روشهای پیشرفتهتر برای تولید اطلاعات نادرست بهتر و گروه دوم به دنبال روشهای بهتر برای تشخیص این اطلاعات خواهند بود.
پژوهشگران امنیت سایبری به طور پیوسته روشهایی را که به تشخیص اطلاعات نادرست در حوزههای مختلف کمک میکنند مطالعه میکنند. اگر بدانیم چگونه میتوان به صورت خودکار اطلاعات نادرست تولید کرد، تشخیصشان کار دشواری نخواهد بود. برای مثال، اطلاعاتی که به صورت خودکار تولید میشوند حاوی اشتباهات گرامری کوچکی هستند و به سادگی میتوانیم سیستم را آموزش دهیم تا این اشتباهات را تشخیص دهد. علاوه بر این، سیستمها میتوانند عملیات همبستگی متقابل را بر روی اطلاعات به دست آمده از منابع مختلف اجرا کنند و آن بخش از اطلاعات را که کمتر در منابع دیگر بر آنها تأکید شده را شناسایی کند.
خلاصه اینکه، همه باید با حساسیت بیشتری اطلاعات و اخبار را (به ویژه اطلاعاتی که از منابع خبری معتبر و یا تألیفات علمی منتشرشده نیستن) دنبال کنند و نسبت به هکرهایی که از سادهلوحی افراد سوء استفاده میکنند، هوشیار باشند.