
چرا کسی درباره یادگیری ماشین خصمانه صحبت نمیکند؟
در حالی که همه درباره حفاظت از دادهها و ایجاد مدلهای شفاف هوش مصنوعی صحبت میکنند، یک چالش مهم اما کمتر شناختهشده به نام یادگیری ماشینی خصمانه (Adversarial Machine Learning) در حال ظهور است. این حوزه مربوط به روشهایی است که آسیبپذیری سیستمهای هوش مصنوعی را آشکار میکند و نشان میدهد چگونه تغییرات کوچک و نامحسوس در دادهها میتواند پیامدهای جدی داشته باشد. در سالهای اخیر، موارد متعددی نشان دادهاند که این نوع حملات میتوانند چقدر خطرناک باشند.
یادگیری ماشینی خصمانه
AML به تکنیکهایی اشاره دارد که برای سوءاستفاده از ضعفهای مدلهای یادگیری ماشینی طراحی شدهاند. در این روش، مهاجمان تغییرات بسیار جزئی و نامحسوسی در دادههای ورودی ایجاد میکنند تا سیستمهای هوش مصنوعی را فریب دهند. بهعنوان مثال، یک سیستم هوش مصنوعی که برای طبقهبندی تصاویر طراحی شده، ممکن است با تغییرات جزئی یک تابلوی ایست را بهاشتباه بهعنوان تابلوی محدودیت سرعت تشخیص دهد. چنین خطاهایی میتوانند خطرات جدی برای خودروهای خودران ایجاد کنند.
سیستمهای هوش مصنوعی میتوانند به ابزاری برای حملهکنندگان تبدیل شوند و حملات پیچیده و خودکار مانند فیشینگ و تهدیدات بدافزار را تسهیل کنند، اما تشخیص یادگیری ماشینی خصمانه (AML) کمی سختتر است. در این نوع حملات، مهاجمان از هوش مصنوعی برای مختل کردن مدلهای یادگیری ماشینی استفاده میکنند. روشهایی مانند آلوده کردن مدلها، سرقت مدلها و ورودیهای مهاجمی از جمله تکنیکهای رایج هستند.
این تهدیدات اهمیت تأمین امنیت سیستمهای هوش مصنوعی را در تمام مراحل چرخه عمر آنها، از جمعآوری دادهها گرفته تا ساخت مدلها و استقرار آنها، روشن میکنند. یکی از روشهای حمله، آلوده کردن دادهها است که در آن مهاجمان دادههای مخرب را به مجموعه دادههای آموزشی وارد کرده و بر تصمیمات مدل تأثیر میگذارند.
آمادگی، احتیاطها و کاهش حملات یادگیری ماشین خصمانه
برای ایجاد سیستمهای هوش مصنوعی ایمن، استراتژیهای مختلفی برای کاهش خطر حملات وجود دارد. این استراتژیها شامل اجتناب از استفاده از دادههای ناشناخته یا غیرمطمئن، اعمال تکنیکهای پاکسازی دادهها مانند خوشهبندی فعالسازی و استفاده از اختلال عمدی قوی (STRIP) برای شناسایی الگوهای محرک است.
با این حال، برخی حملات میتوانند مدلهای هوش مصنوعی را دستکاری کنند. برای مثال، مهاجمان ممکن است از مدلهای از پیش آموزشدیده استفاده کنند که احتمالا در معرض خطر حملات از طریق نقاط ضعف پنهان (backdoors) یا کدهای مخرب (Trojan nodes) قرار داشته باشند.
برای کاهش این خطرات، بهتر است تنها از مدلهای از پیش آموزشدیدهای استفاده کنیم که از منابع معتبر به دست آمدهاند. همچنین با استفاده از تکنیکهایی مانند حذف دقیق (fine pruning)، بخشهای مخرب موجود در مدلها را شناسایی و حذف کنیم. در ادامه، استراتژیهای کاهش خطر بر اساس مراحل مختلف اکوسیستم یادگیری ماشین آورده شده است:
مرحله جمعآوری و آمادهسازی دادهها
در این مرحله، سوالات امنیتی مطرح میشود که آیا منبع داده معتبر و تأیید شده است؟ آیا دادهها به اشتباه برچسبگذاری شدهاند؟ و آیا دادهها به درستی آمادهسازی شدهاند؟
حمله مسموم کردن دادهها (data poisoning)، یکی از تهدیدات این مرحله است، جایی که یک مهاجم دادههای مخرب را به دادههای آموزشی وارد کرده تا تصمیمات مدل را در مورد یک کلاس خاص یا هدفمند تحت تاثیر قرار دهد.
برای کاهش این تهدیدات، توصیه میشود از دادههای آموزشی که از دامنههای غیرمطمئن به دست میآید استفاده نشود و به جای آن از تکنیکهای پاکسازی دادهها مانند خوشهبندی فعالسازی و STRIP استفاده شود.
مرحله ساخت مدل (با کمک مدلهای از پیش آموزشدیده)
در این مرحله، سوالات امنیتی مطرح میشود که آیا منبع مدل از پیش آموزشدیده شناخته شده است؟ آیا مدل از پیش آموزشدیده به درستی طراحی شده است؟
تهدیدهای ممکن در این مرحله شامل استفاده از مدل از پیش آموزشدیدهای است که ممکن است حاوی گرههای تروجان (Trojan node) یا متغیرهای پنهان باشد. در این حملات، مهاجم ممکن است یک گره مخرب را به مدل از پیش آموزشداده شده وارد کند یا با تنظیم دقیق مدل (fine-tuning) مدل هوش مصنوعی را با دسترسیهای پنهان (backdoor) همراه سازد تا خروجی مورد نظر را تولید کند.
استراتژیهای ممکن برای کاهش این تهدیدات شامل استفاده نکردن از مدلهای از پیش آموزشداده شده از منابع غیرمعتبر، تنظیم دقیق (fine-pruning) برای حذف گرههای مخرب و استفاده از STRIP میشود.
مرحله ساخت مدل (چارچوبهای یادگیری ماشین)
در این مرحله، سوالات امنیتی که پیش میآید عبارتند از:
- آیا از چارچوب یادگیری ماشین به درستی استفاده میشود؟
- آیا چارچوب یادگیری ماشین بهروز است؟
- آیا تمام بهروزرسانیهای امنیتی اعمال شدهاند؟
تهدیدهای ممکن در این مرحله شامل استفاده از مدلهای از پیش آموزشداده شده است که ممکن است از چارچوبهای یادگیری ماشین مخرب بهره ببرند یا لایههای مخربی در هوش مصنوعی جاسازی شده باشد، بهویژه زمانی که افراد برای تنظیم دقیق مدل، از مدلهای از پیش آموزشداده شده استفاده میکنند و این لایههای مخرب فعال میشوند. برای مقابله با این تهدیدات، بهترین راه استفاده از جدیدترین نسخههای چارچوب یادگیری ماشین است.
مرحله استقرار مدل
در این مرحله، سوالات امنیتی شامل موارد زیر است:
آیا دسترسی به هوش مصنوعی بهطور مناسب طراحی شده است؟
آیا هوش مصنوعی به اطلاعات غیرضروری پاسخ میدهد؟
در این مرحله چندین تهدید مختلف وجود دارد که میتواند بر امنیت سیستم تاثیر بگذارد. این تهدیدات عبارتاند از:
- حملات فرار (Evasion Attacks): این حملات دادههای ورودی را تغییر میدهند تا از شناسایی یا طبقهبندی توسط سیستمها عبور کنند. به عنوان مثال، حملهکنندگان ممکن است بدافزاری طراحی کنند که نتواند توسط سیستمهای امنیتی مبتنی بر هوش مصنوعی شناسایی شود. همچنین حتی یک تفاوت جزئی در پروفایل یکی از مشتری معمولی، میتواند باعث شود که مدل او را بهعنوان یک مشتری پرخطر شناسایی کند.
- حملات مسمومسازی (Poisoning Attacks): در این نوع حملات، مهاجمان با وارد کردن دادههای مخرب در مرحله آموزش، یکپارچگی مدل را به خطر میاندازند. این کار میتواند منجر به مدلهایی شود که عملکرد ضعیفی دارند یا به طور غیرقابل پیشبینی رفتار میکنند. برای مثال، ممکن است با وارد کردن تغییرات بسیار کوچک و غیرقابل تشخیص در ویژگیهای برخی مشتریان که در دادههای آموزشی یا هنگام بازآموزی مدل استفاده میشود، عملکرد یک مدل اعطای وام مختل شود.
- حملات استخراج مدل (Model Extraction Attacks): در این نوع حملات، مهاجمان از دسترسی به درخواستهای سیستم برای دزدیدن پارامترهای مدل یا مالکیت معنوی آن استفاده میکنند که این کار میتواند به تکثیر مدل یا انجام حملات بیشتر منجر شود. برای مثال، مهاجمان میتوانند با ارسال دادههای مخرب به یک مدل اعطای وام که قبلاً راهاندازی شده است، مدل مشابهی بسازند و برای دستیابی به اهداف مخرب خود، کنترل کامل روی آن داشته باشند.
- حملات استنتاج (Inference Attacks): در این نوع حملات، مهاجمان با تحلیل پیشبینیهای مدل تلاش میکنند اطلاعات حساس مربوط به دادههای آموزشی را استخراج کنند که این امر میتواند نقض حریم خصوصی را به همراه داشته باشد. به عنوان مثال، این حملات ممکن است برای کشف ویژگیهای مربوط به مشتریان پرخطر یا مشتریان قابلاعتماد استفاده شود.
پیامدهای واقعی حملات خصمانه
حملات خصمانه یادآوری میکنند که هیچ سیستم هوش مصنوعی بدون خطا نیست. بنابراین، امنیت باید در تمام مراحل توسعه هوش مصنوعی در نظر گرفته شود.
برای مقابله با این حملات، استراتژیهایی وجود دارد که توسعهدهندگان، استقراردهندگان و کاربران مدل باید به آنها توجه کنند. این استراتژیها شامل تقویت دادهها (Data Augmentation)، آموزش مقاوم در برابر حملات (Adversarial Training)، استفاده از روشهای ترکیبی (Ensemble Method)، و تقطیر دفاعی (Defensive Distillation) میشود.
- آموزش مقاوم: استفاده از نمونههای خصمانه در مرحله آموزش میتواند به مدلها کمک کند تا در برابر حملات مقاوم شوند. این فرآیند که به آن آموزش مقاوم در برابر حملات (Adversarial Training) گفته میشود، توانایی مدل برای مقابله با تهدیدها را افزایش میدهد.
- بررسیهای منظم: ارزیابی مستمر آسیبپذیریها و انجام آزمایشهای نفوذپذیری میتواند نقاط ضعف احتمالی در سیستمهای هوش مصنوعی را شناسایی کند و امنیت آنها را بهبود بخشد.
- الگوریتمهای دفاعی: تکنیکهایی مانند تقطیر دفاعی (Defensive Distillation) و محو کردن گرادیان (Gradient Masking) میتوانند فرآیند تصمیمگیری مدلها را مبهم کنند و بهرهبرداری از آنها را برای مهاجمان دشوارتر سازند.
- هوش مصنوعی قابل توضیح (Explainable AI): ایجاد مدلهای قابل تفسیر به توسعهدهندگان این امکان را میدهد که رفتارهای غیرمنتظره را بهتر شناسایی و اصلاح کنند. به این ترتیب امنیت و اعتماد به مدلها افزایش پیدا میکند.
با گسترش نقش هوش مصنوعی در زندگی ما، تأمین امنیت آن در برابر تهدیدهای خصمانه به یک ضرورت اساسی تبدیل میشود. با پرداختن پیشگیرانه به این چالشها، میتوان اطمینان حاصل کرد که سیستمهای هوش مصنوعی همچنان قابل اعتماد و مطمئن باقی بمانند.
چشمانداز تهدیدهای خصمانه همواره در حال تکامل است و دفاع ما نیز باید متناسب با آن پیشرفت کند. در واقع سازمانها باید امنیت را بهعنوان یک رکن اساسی در توسعه هوش مصنوعی در نظر بگیرند و آن را به مرحلهای پس از طراحی محدود نکنند. بهطورکلی تنها با هوشیاری و نوآوری میتوانیم از پتانسیل تحولآفرین هوش مصنوعی محافظت کنیم.