چرا کسی درباره یادگیری ماشین خصمانه صحبت نمی‌کند؟

تیم تحریریه
۱۶ فروردین ۱۴۰۴

زمان مطالعه: 5 دقیقه

در حالی که همه درباره حفاظت از داده‌ها و ایجاد مدل‌های شفاف هوش مصنوعی صحبت می‌کنند، یک چالش مهم اما کمتر شناخته‌شده به نام یادگیری ماشینی خصمانه (Adversarial Machine Learning) در حال ظهور است. این حوزه مربوط به روش‌هایی است که آسیب‌پذیری سیستم‌های هوش مصنوعی را آشکار می‌کند و نشان می‌دهد چگونه تغییرات کوچک و نامحسوس در داده‌ها می‌تواند پیامدهای جدی داشته باشد. در سال‌های اخیر، موارد متعددی نشان داده‌اند که این نوع حملات می‌توانند چقدر خطرناک باشند.

فهرست مقاله پنهان

1 یادگیری ماشینی خصمانه

2 آمادگی، احتیاط‌ها و کاهش حملات یادگیری ماشین خصمانه

2.1 مرحله جمع‌آوری و آماده‌سازی داده‌ها

2.2 مرحله ساخت مدل (با کمک مدل‌های از پیش آموزش‌دیده)

2.3 مرحله ساخت مدل (چارچوب‌های یادگیری ماشین)

2.4 مرحله استقرار مدل

3 پیامدهای واقعی حملات خصمانه

یادگیری ماشینی خصمانه

AML به تکنیک‌هایی اشاره دارد که برای سوءاستفاده از ضعف‌های مدل‌های یادگیری ماشینی طراحی شده‌اند. در این روش، مهاجمان تغییرات بسیار جزئی و نامحسوسی در داده‌های ورودی ایجاد می‌کنند تا سیستم‌های هوش مصنوعی را فریب دهند. به‌عنوان مثال، یک سیستم هوش مصنوعی که برای طبقه‌بندی تصاویر طراحی شده، ممکن است با تغییرات جزئی یک تابلوی ایست را به‌اشتباه به‌عنوان تابلوی محدودیت سرعت تشخیص دهد. چنین خطاهایی می‌توانند خطرات جدی برای خودروهای خودران ایجاد کنند.

سیستم‌های هوش مصنوعی می‌توانند به ابزاری برای حمله‌کنندگان تبدیل شوند و حملات پیچیده و خودکار مانند فیشینگ و تهدیدات بدافزار را تسهیل کنند، اما تشخیص یادگیری ماشینی خصمانه (AML) کمی سخت‌تر است. در این نوع حملات، مهاجمان از هوش مصنوعی برای مختل کردن مدل‌های یادگیری ماشینی استفاده می‌کنند. روش‌هایی مانند آلوده کردن مدل‌ها، سرقت مدل‌ها و ورودی‌های مهاجمی از جمله تکنیک‌های رایج هستند.

این تهدیدات اهمیت تأمین امنیت سیستم‌های هوش مصنوعی را در تمام مراحل چرخه عمر آن‌ها، از جمع‌آوری داده‌ها گرفته تا ساخت مدل‌ها و استقرار آن‌ها، روشن می‌کنند. یکی از روش‌های حمله، آلوده کردن داده‌ها است که در آن مهاجمان داده‌های مخرب را به مجموعه داده‌های آموزشی وارد کرده و بر تصمیمات مدل تأثیر می‌گذارند.

آمادگی، احتیاط‌ها و کاهش حملات یادگیری ماشین خصمانه

برای ایجاد سیستم‌های هوش مصنوعی ایمن، استراتژی‌های مختلفی برای کاهش خطر حملات وجود دارد. این استراتژی‌ها شامل اجتناب از استفاده از داده‌های ناشناخته یا غیرمطمئن، اعمال تکنیک‌های پاک‌سازی داده‌ها مانند خوشه‌بندی فعال‌سازی و استفاده از اختلال عمدی قوی (STRIP) برای شناسایی الگوهای محرک است.

با این حال، برخی حملات می‌توانند مدل‌های هوش مصنوعی را دستکاری کنند. برای مثال، مهاجمان ممکن است از مدل‌های از پیش آموزش‌دیده استفاده کنند که احتمالا در معرض خطر حملات از طریق نقاط ضعف پنهان (backdoors) یا کدهای مخرب (Trojan nodes) قرار داشته باشند.

برای کاهش این خطرات، بهتر است تنها از مدل‌های از پیش آموزش‌دیده‌ای استفاده کنیم که از منابع معتبر به دست آمده‌اند. همچنین با استفاده از تکنیک‌هایی مانند حذف دقیق (fine pruning)، بخش‌های مخرب موجود در مدل‌ها را شناسایی و حذف کنیم. در ادامه، استراتژی‌های کاهش خطر بر اساس مراحل مختلف اکوسیستم یادگیری ماشین آورده شده است:

مرحله جمع‌آوری و آماده‌سازی داده‌ها

در این مرحله، سوالات امنیتی مطرح می‌شود که آیا منبع داده معتبر و تأیید شده است؟ آیا داده‌ها به اشتباه برچسب‌گذاری شده‌اند؟ و آیا داده‌ها به درستی آماده‌سازی شده‌اند؟

حمله مسموم کردن داده‌ها (data poisoning)، یکی از تهدیدات این مرحله است، جایی که یک مهاجم داده‌های مخرب را به داده‌های آموزشی وارد کرده تا تصمیمات مدل را در مورد یک کلاس خاص یا هدفمند تحت تاثیر قرار دهد.

برای کاهش این تهدیدات، توصیه می‌شود از داده‌های آموزشی که از دامنه‌های غیرمطمئن به دست می‌آید استفاده نشود و به جای آن از تکنیک‌های پاک‌سازی داده‌ها مانند خوشه‌بندی فعال‌سازی و STRIP استفاده شود.

مرحله ساخت مدل (با کمک مدل‌های از پیش آموزش‌دیده)

در این مرحله، سوالات امنیتی مطرح می‌شود که آیا منبع مدل از پیش آموزش‌دیده شناخته شده است؟ آیا مدل از پیش آموزش‌دیده به درستی طراحی شده است؟

تهدیدهای ممکن در این مرحله شامل استفاده از مدل از پیش آموزش‌دیده‌ای است که ممکن است حاوی گره‌های تروجان (Trojan node) یا متغیرهای پنهان باشد. در این حملات، مهاجم ممکن است یک گره مخرب را به مدل از پیش آموزش‌داده شده وارد کند یا با تنظیم دقیق مدل (fine-tuning) مدل هوش مصنوعی را با دسترسی‌های پنهان (backdoor) همراه سازد تا خروجی مورد نظر را تولید کند.

استراتژی‌های ممکن برای کاهش این تهدیدات شامل استفاده نکردن از مدل‌های از پیش آموزش‌داده شده از منابع غیرمعتبر، تنظیم دقیق (fine-pruning) برای حذف گره‌های مخرب و استفاده از STRIP می‌شود.

مرحله ساخت مدل (چارچوب‌های یادگیری ماشین)

در این مرحله، سوالات امنیتی که پیش می‌آید عبارتند از:

آیا از چارچوب یادگیری ماشین به درستی استفاده می‌شود؟
آیا چارچوب یادگیری ماشین به‌روز است؟
آیا تمام به‌روزرسانی‌های امنیتی اعمال شده‌اند؟

تهدیدهای ممکن در این مرحله شامل استفاده از مدل‌های از پیش آموزش‌داده شده است که ممکن است از چارچوب‌های یادگیری ماشین مخرب بهره ببرند یا لایه‌های مخربی در هوش مصنوعی جاسازی شده باشد، به‌ویژه زمانی که افراد برای تنظیم دقیق مدل، از مدل‌های از پیش آموزش‌داده شده استفاده می‌کنند و این لایه‌های مخرب فعال می‌شوند. برای مقابله با این تهدیدات، بهترین راه استفاده از جدیدترین نسخه‌های چارچوب یادگیری ماشین است.

مرحله استقرار مدل

در این مرحله، سوالات امنیتی شامل موارد زیر است:

آیا دسترسی به هوش مصنوعی به‌طور مناسب طراحی شده است؟

آیا هوش مصنوعی به اطلاعات غیرضروری پاسخ می‌دهد؟

در این مرحله چندین تهدید مختلف وجود دارد که می‌تواند بر امنیت سیستم تاثیر بگذارد. این تهدیدات عبارت‌اند از:

حملات فرار (Evasion Attacks): این حملات داده‌های ورودی را تغییر می‌دهند تا از شناسایی یا طبقه‌بندی توسط سیستم‌ها عبور کنند. به عنوان مثال، حمله‌کنندگان ممکن است بدافزاری طراحی کنند که نتواند توسط سیستم‌های امنیتی مبتنی بر هوش مصنوعی شناسایی شود. همچنین حتی یک تفاوت جزئی در پروفایل یکی از مشتری معمولی، می‌تواند باعث شود که مدل او را به‌عنوان یک مشتری پرخطر شناسایی کند.
حملات مسموم‌سازی (Poisoning Attacks): در این نوع حملات، مهاجمان با وارد کردن داده‌های مخرب در مرحله آموزش، یکپارچگی مدل را به خطر می‌اندازند. این کار می‌تواند منجر به مدل‌هایی شود که عملکرد ضعیفی دارند یا به طور غیرقابل پیش‌بینی رفتار می‌کنند. برای مثال، ممکن است با وارد کردن تغییرات بسیار کوچک و غیرقابل تشخیص در ویژگی‌های برخی مشتریان که در داده‌های آموزشی یا هنگام بازآموزی مدل استفاده می‌شود، عملکرد یک مدل اعطای وام مختل شود.
حملات استخراج مدل (Model Extraction Attacks): در این نوع حملات، مهاجمان از دسترسی به درخواست‌های سیستم برای دزدیدن پارامترهای مدل یا مالکیت معنوی آن استفاده می‌کنند که این کار می‌تواند به تکثیر مدل یا انجام حملات بیشتر منجر شود. برای مثال، مهاجمان می‌توانند با ارسال داده‌های مخرب به یک مدل اعطای وام که قبلاً راه‌اندازی شده است، مدل مشابهی بسازند و برای دست‌یابی به اهداف مخرب خود، کنترل کامل روی آن داشته باشند.
حملات استنتاج (Inference Attacks): در این نوع حملات، مهاجمان با تحلیل پیش‌بینی‌های مدل تلاش می‌کنند اطلاعات حساس مربوط به داده‌های آموزشی را استخراج کنند که این امر می‌تواند نقض حریم خصوصی را به همراه داشته باشد. به عنوان مثال، این حملات ممکن است برای کشف ویژگی‌های مربوط به مشتریان پرخطر یا مشتریان قابل‌اعتماد استفاده شود.

پیامدهای واقعی حملات خصمانه

حملات خصمانه یادآوری می‌کنند که هیچ سیستم هوش مصنوعی بدون خطا نیست. بنابراین، امنیت باید در تمام مراحل توسعه هوش مصنوعی در نظر گرفته شود.

برای مقابله با این حملات، استراتژی‌هایی وجود دارد که توسعه‌دهندگان، استقراردهندگان و کاربران مدل باید به آن‌ها توجه کنند. این استراتژی‌ها شامل تقویت داده‌ها (Data Augmentation)، آموزش مقاوم در برابر حملات (Adversarial Training)، استفاده از روش‌های ترکیبی (Ensemble Method)، و تقطیر دفاعی (Defensive Distillation) می‌شود.

آموزش مقاوم: استفاده از نمونه‌های خصمانه در مرحله آموزش می‌تواند به مدل‌ها کمک کند تا در برابر حملات مقاوم شوند. این فرآیند که به آن آموزش مقاوم در برابر حملات (Adversarial Training) گفته می‌شود، توانایی مدل برای مقابله با تهدیدها را افزایش می‌دهد.
بررسی‌های منظم: ارزیابی مستمر آسیب‌پذیری‌ها و انجام آزمایش‌های نفوذپذیری می‌تواند نقاط ضعف احتمالی در سیستم‌های هوش مصنوعی را شناسایی کند و امنیت آن‌ها را بهبود بخشد.
الگوریتم‌های دفاعی: تکنیک‌هایی مانند تقطیر دفاعی (Defensive Distillation) و محو کردن گرادیان (Gradient Masking) می‌توانند فرآیند تصمیم‌گیری مدل‌ها را مبهم کنند و بهره‌برداری از آن‌ها را برای مهاجمان دشوارتر سازند.
هوش مصنوعی قابل توضیح (Explainable AI): ایجاد مدل‌های قابل تفسیر به توسعه‌دهندگان این امکان را می‌دهد که رفتارهای غیرمنتظره را بهتر شناسایی و اصلاح کنند. به این ترتیب امنیت و اعتماد به مدل‌ها افزایش پیدا می‌کند.

با گسترش نقش هوش مصنوعی در زندگی ما، تأمین امنیت آن در برابر تهدیدهای خصمانه به یک ضرورت اساسی تبدیل می‌شود. با پرداختن پیشگیرانه به این چالش‌ها، می‌توان اطمینان حاصل کرد که سیستم‌های هوش مصنوعی همچنان قابل اعتماد و مطمئن باقی بمانند.

چشم‌انداز تهدیدهای خصمانه همواره در حال تکامل است و دفاع ما نیز باید متناسب با آن پیشرفت کند. در واقع سازمان‌ها باید امنیت را به‌عنوان یک رکن اساسی در توسعه هوش مصنوعی در نظر بگیرند و آن را به مرحله‌ای پس از طراحی محدود نکنند. به‌طورکلی تنها با هوشیاری و نوآوری می‌توانیم از پتانسیل تحول‌آفرین هوش مصنوعی محافظت کنیم.