مسمومیت هوش مصنوعی؛ روشی برای مقابله با ربات‌های خزشگر که بدون اجازه داده‌ها را استخراج می‌کنند

هنر پنهان‌شدن از هوش مصنوعی

سید محمدجواد فیاض
۳ شهریور ۱۴۰۴

زمان مطالعه: 7 دقیقه

روزهایی که وب تحت سلطه انسان‌هایی بود که در شبکه‌های اجتماعی پست می‌گذاشتند گذشته است. اوایل سال جاری میلادی، برای اولین‌بار از زمانی که داده‌ها ردیابی شده‌اند، ربات‌های خزشگر به‌جای انسان‌ها بخش عمده ترافیک وب را به خود اختصاص دادند.

«ربات‌ها در حال تسخیر وب هستند و بدون اجازه، داده‌ها را جمع‌آوری می‌کنند تا ابزارهای هوش مصنوعی را آموزش دهند. اما مردم راه‌های خلاقانه‌ای برای فریب‌دادن این ربات‌ها پیدا کرده‌اند و حتی در حال مبارزه با آن‌ها هستند» این جمله نقل‌قولی از «کریس استوکل-واکر»، روزنامه‌نگار برجسته و یوتیوبر بریتانیایی است در گزارشی در همین رابطه در جدیدترین نسخه نشریه معتبر New Scientist (16 August 2025) آورده شده است.

فهرست مقاله پنهان

1 سلطه بر وب

2 رویارویی‌های کپی‌رایت

سلطه بر وب

اما نکته نگران‌کننده اینجاست که بیش از نیمی از این ترافیک رباتی از ربات‌های مخربی ناشی می‌شود که داده‌های شخصی محافظت‌نشده در اینترنت را جمع‌آوری می‌کنند. اما بخش روبه‌رشدی از این ترافیک نیز ناشی از ربات‌هایی است که شرکت‌های هوش مصنوعی برای جمع‌آوری داده‌ها برای مدل‌هایشان یا پاسخ به درخواست‌های کاربران طراحی کرده‌اند. در واقع، ChatGPT-User، رباتی که چت‌جی‌پی‌تی را پشتیبانی می‌کند، اکنون ۶ درصد از کل ترافیک وب را به خود اختصاص داده است درحالی‌که ClaudeBot توسعه‌یافته توسط Anthropic، ۱۳ درصد را به دست گرفته است.

شرکت‌های هوش مصنوعی می‌گویند چنین جمع‌آوری داده‌هایی برای به‌روز نگه‌داشتن مدل‌هایشان ضروری است. اما تولیدکنندگان محتوا نظر متفاوتی دارند و ربات‌های هوش مصنوعی را ابزاری برای نقض گسترده کپی‌رایت می‌دانند. برای مثال، اوایل امسال، دیزنی و یونیورسال از شرکت هوش مصنوعی Midjourney شکایت کردند و استدلال کردند که ابزار تولید تصویر این شرکت، شخصیت‌هایی از مجموعه‌های محبوب مانند جنگ ستارگان و من نفرت‌انگیز را سرقت می‌کند.

تعداد کمی از تولیدکنندگان محتوا پول کافی برای پیگیری دعاوی قضایی دارند، بنابراین برخی روش‌های رادیکال‌تری را برای مبارزه انتخاب کرده‌اند. آن‌ها از ابزارهای آنلاینی استفاده می‌کنند که پیداکردن محتوای آن‌ها را برای ربات‌های هوش مصنوعی سخت‌تر می‌کند یا محتوا را به‌گونه‌ای دست‌کاری می‌کنند که ربات‌ها را فریب دهد تا آن را اشتباه بخوانند، به‌طوری‌که هوش مصنوعی ممکن است تصاویر ماشین‌ها را با تصاویر گاوها اشتباه بگیرد. اما درحالی‌که این «مسموم‌سازی هوش مصنوعی» (AI poisoning) می‌تواند به تولیدکنندگان محتوا کمک کند تا از آثارشان محافظت کنند، ممکن است به طور ناخواسته وب را به مکانی خطرناک‌تر تبدیل کند.

یکی از دلایلی که قوانین مالکیت فکری و حق نشر به وجود آمدند این بود که برای قرن‌ها، کپی‌برداران با تقلید از آثار هنرمندان به‌سرعت به سودهای آن‌چنانی می‌رسیدند. اما ظهور ابزارهای تولید تصویر هوش مصنوعی مانند Midjourney یا DALL-E شرکت OpenAI در چند سال گذشته این مشکل را به‌نوعی تشدید کرده است. یکی از نگرانی‌های اصلی در آمریکا، اصول استفاده منصفانه (the fair use doctrine) است. این اصول اجازه می‌دهند تحت شرایط خاصی از نمونه‌های محتوای دارای کپی‌رایت بدون نیاز به کسب اجازه از صاحب اثر استفاده شود. قانون استفاده منصفانه عمداً انعطاف‌پذیر است؛ اما در هسته آن این ایده قرار دارد که می‌توانید از یک اثر برای خلق چیزی جدید استفاده کنید، به شرطی که به‌اندازه کافی تغییر کرده باشد و تأثیر منفی بر بازار اثر اصلی نداشته باشد.

رویارویی‌های کپی‌رایت

بسیاری از هنرمندان، موسیقی‌دانان و دیگر فعالان معتقدند که ابزارهای هوش مصنوعی مرز بین استفاده منصفانه و نقض کپی‌رایت را به ضرر تولیدکنندگان محتوا مخدوش کرده‌اند. برای مثال، کشیدن تصویر میکی‌ماوس در دنیای سیمپسون‌ها برای سرگرمی شخصی لزوماً ضرری ندارد؛ اما با استفاده از هوش مصنوعی، اکنون هر کسی می‌تواند به‌سرعت تعداد زیادی از این تصاویر را تولید کند، آن هم به‌گونه‌ای که ماهیت تحول‌آفرین کارشان قابل‌تردید است. پس از تولید این تصاویر، به‌راحتی می‌توان تیشرت‌هایی بر اساس آن‌ها تولید کرد که از استفاده شخصی به استفاده تجاری تغییر می‌کند و اصول استفاده منصفانه را نقض می‌کند.

برخی از تولیدکنندگان محتوا در آمریکا که مشتاق حفاظت از منافع تجاری خود هستند، دست به اقدام قانونی زده‌اند. شکایت دیزنی و یونیورسال علیه Midjourney که در ژوئن سال جاری به جریان افتاد، آخرین نمونه از این دعاوی قانونی است. موارد دیگر شامل دعوای حقوقی جاری بین نیویورک‌تایمز و OpenAI بر سر ادعای استفاده غیرمجاز از مقالات این روزنامه است. شرکت‌های هوش مصنوعی به‌شدت هرگونه تخلف را رد می‌کنند و اصرار دارند که جمع‌آوری داده‌ها تحت اصول استفاده منصفانه مجاز است.

«کریس لهان» (Chris Lehane)، مدیر ارشد امور جهانی OpenAI در نامه‌ای سرگشاده به دفتر سیاست علم‌وفناوری آمریکا در ماه مارس سال جاری میلادی، هشدار داد که قوانین سخت‌گیرانه کپی‌رایت در سایر نقاط جهان که در راستای اجرای اقداماتی برای ارائه سازوکارهای حفاظتی حق نشر برای تولیدکنندگان محتوا صورت گرفته است؛ «نوآوری و سرمایه‌گذاری را سرکوب می‌کنند.» OpenAI نیز پیش‌تر گفته بود که توسعه مدل‌های هوش مصنوعی که نیازهای مردم را برآورده کند، بدون استفاده از آثار دارای کپی‌رایت غیرممکن است. گوگل نیز دیدگاه مشابهی دارد و در نامه‌ای سرگشاده که در ماه مارس سال جاری میلادی منتشر شد، اظهار داشت: «سه حوزه قانونی می‌توانند مانع دسترسی مناسب به داده‌های لازم برای آموزش مدل‌های پیشرو شوند: کپی‌رایت، حریم خصوصی و پتنت‌ها.»

بااین‌حال، در حال حاضر به نظر می‌رسد که فعالان حق نشر افکار عمومی را به نفع خود می‌بینند. زمانی که وب‌سایت IPWatchdog پاسخ‌های عمومی به پرس‌وجوی دفتر کپی‌رایت آمریکا درباره کپی‌رایت و هوش مصنوعی را تحلیل کرد، متوجه شد که ۹۱ درصد از نظرات حاوی احساسات منفی نسبت به هوش مصنوعی بودند. آنچه ممکن است به شرکت‌های هوش مصنوعی در جلب همدلی عمومی کمک نکند، این سوءظن است که ربات‌هایشان آن‌قدر ترافیک به برخی وب‌سایت‌ها ارسال می‌کنند که منابع را تحت‌فشار قرار می‌دهند و شاید حتی برخی وب‌سایت‌ها را مجبور به قطعی موقت کنند و تولیدکنندگان محتوا در برابر آن‌ها ناتوان هستند. برای مثال، ترفندهایی وجود دارد که تولیدکنندگان محتوا می‌توانند برای جلوگیری از ورود ربات‌های خزشگر در وب‌سایت‌هایشان استفاده کنند؛ از جمله پیکربندی مجدد یک فایل کوچک در هسته وب‌سایت که از ورود ربات‌ها جلوگیری می‌کند. اما نشانه‌هایی وجود دارد که ربات‌ها گاهی اوقات این تنظیمات را نادیده می‌گیرند و به خزیدن ادامه می‌دهند.

ربات علیه ربات

جای تعجب نیست که ابزارهای جدیدی برای تولیدکنندگان محتوا در دسترس قرار گرفته‌اند که سازوکارهای حفاظتی قوی‌تری را در برابر ربات‌های هوش مصنوعی ارائه می‌دهند. یکی از این ابزارها امسال توسط Cloudflare، یک شرکت زیرساخت اینترنتی که از کاربران خود در برابر «حملات توزیع‌شده محروم‌سازی از سرویس» (Distributed Denial of Service attack – DDoS) محافظت می‌کند، راه‌اندازی شد. در این حملات، مهاجم وب‌سرور را در چنان ترافیکی غرق می‌کند که سایت را از کار می‌اندازد. برای مقابله با ربات‌های هوش مصنوعی که ممکن است خطر مشابهی ایجاد کنند، Cloudflare به‌قول‌معروف با آتش به جنگ آتش می‌رود: این برنامه اختصاصی صفحاتی تولیدشده توسط هوش مصنوعی پر از محتوای بی‌معنی ایجاد می‌کند تا ربات‌های هوش مصنوعی تمام زمان و انرژی خود را به‌جای اطلاعات واقعی که به دنبال آن هستند صرف بررسی این محتوای بی‌معنی کنند.

این ابزار که به نام AI Labyrinth شناخته می‌شود، برای به دام انداختن ۵۰ میلیارد درخواست روزانه از خزشگرهای هوش مصنوعی طراحی شده است که Cloudflare می‌گوید در وب‌سایت‌های شبکه‌اش با آن‌ها مواجه است. به گفته Cloudflare، ابزار AI Labyrinth ابزارهای خزشگر هوش مصنوعی و دیگر ربات‌هایی که دستورات «عدم‌خزیدن» (no crawl) را رعایت نمی‌کنند، کند، گیج و منابعشان را هدر می‌دهد. Cloudflare از آن زمان ابزار دیگری منتشر کرده است که از شرکت‌های هوش مصنوعی می‌خواهد برای دسترسی به وب‌سایت‌ها هزینه پرداخت کنند و در غیر این صورت از خزیدن در میان محتوای آن‌ها مسدود می‌شوند.

جایگزین ربات‌ها

یکی از گزینه‌های جایگزین این است که به ربات‌های هوش مصنوعی اجازه دسترسی به محتوای آنلاین داده شود، اما این محتوا به‌گونه‌ای ظریف «مسموم» شود که برای اهداف موردنظر ربات‌ها فایده چندانی نداشته باشد. ابزارهای Glaze و Nightshade که در دانشگاه شیکاگو توسعه یافته‌اند، به پیشرو این نوع مقاومت تبدیل شده‌اند. هر دو ابزار به‌صورت رایگان از وب‌سایت دانشگاه قابل‌دانلود هستند و می‌توانند روی کامپیوتر کاربران اجرا شوند که تاکنون هر دو این ابزارها بیش از ۱۰ میلیون بار دانلود شده‌اند.

ابزار Glaze که در سال ۲۰۲۲ منتشر شد، به‌صورت دفاعی عمل می‌کند و تغییراتی نامحسوس در سطح پیکسلی را روی آثار هنرمندان اعمال می‌کند. این تغییرات که برای انسان‌ها نامرئی هستند، باعث می‌شوند مدل‌های هوش مصنوعی سبک اثر را اشتباه تفسیر کنند و مثلاً یک نقاشی آبرنگ ممکن است به‌عنوان نقاشی رنگ‌روغن شناسایی شود. ابزار Nightshade نیز که در سال ۲۰۲۳ منتشر شد، ابزار تهاجمی‌تری است که داده‌های تصویری را به‌گونه‌ای که برای انسان‌ها نامحسوس است مسموم می‌کند تا مدل‌های هوش مصنوعی ارتباط نادرستی با آن برقرار کنند، مانند یادگیری ارتباط‌دادن کلمه «گربه» با تصاویر سگ‌ها. «بن ژائو» (Ben Zhao)، پژوهشگر ارشد پروژه‌های Glaze و Nightshade در دانشگاه شیکاگو، اعتقاد دارد ابزارهای مسموم‌سازی هوش مصنوعی قدرت را به دست هنرمندان بازمی‌گردانند. استفاده از ابزارهایی مانند Glaze و Nightshade راهی است برای هنرمندان تا همان قدرت اندکی که بر استفاده از آثارشان دارند را اعمال کنند.

خودتخریبی

اما ایده خودتخریبی محتوا برای دفع خطر کپی‌برداران چیز جدیدی نیست و «النورا روزاتی» (Eleonora Rosati) استاد حقوق مالکیت معنوی دانشگاه استکهلم دراین‌رابطه می‌گوید: «در گذشته، زمانی که استفاده غیرمجاز از پایگاه‌های داده؛ از فهرست‌های تلفن تا لیست‌های پتنت رایج بود، توصیه می‌شد که برخی خطاها به طور عمدی وارد شود تا در جمع‌آوری شواهد به شما کمک کند.» برای مثال، یک نقشه‌نگار ممکن بود به طور عمدی نام‌های جعلی برای مکان‌ها را در نقشه‌هایش وارد کند. اگر این نام‌های جعلی بعداً در نقشه‌ای که توسط رقیب تولید شده ظاهر می‌شد، شواهد روشنی از سرقت علمی را ارائه می‌داد. این روش هنوز هم خبرساز است و وب‌سایت ارائه‌دهنده متن موسیقی Genius ادعا کرد که انواع مختلفی از علامت نقل‌قول را در محتوای خود وارد کرده بود که نشان می‌داد گوگل بدون اجازه از محتوای آن‌ها استفاده کرده است. گوگل این اتهامات را رد کرد و پرونده قضایی که Genius علیه گوگل مطرح کرده بود، رد شد. حتی استفاده از واژه «خرابکاری» (sabotage) هم مورد بحث است زیرا خود هنرمند ویرایش‌هایی را روی تصاویر خود اعمال می‌کند و آن‌ها کاملاً آزاد است که با داده‌های خود هر کاری که می‌خواهند انجام دهد.

مشخص نیست که شرکت‌های هوش مصنوعی تا چه حد در حال اتخاذ اقدامات متقابل برای مقابله با این مسموم‌سازی داده‌ها هستند؛ چه با نادیده‌گرفتن محتوای علامت‌گذاری‌شده به‌عنوان مسموم و چه با تلاش برای حذف آن از داده‌ها. اما تلاش‌های ژائو برای شکستن سیستم خودش نشان داد که Glaze همچنان در برابر تمام اقدامات متقابلی که او به آن فکر کرده بود، ۸۵ درصد مؤثر است که نشان می‌دهد شرکت‌های هوش مصنوعی ممکن است به این نتیجه برسند که برخورد با داده‌های مسموم دردسری بیش از ارزشش دارد.

بااین‌حال، تنها هنرمندانی که محتوایی برای محافظت دارند در حال آزمایش مسموم‌سازی علیه هوش مصنوعی نیستند. برخی دولت‌ها نیز ممکن است از اصول مشابهی برای پیشبرد روایت‌های جعلی استفاده کنند. برای مثال، اندیشکده Atlantic Council در اوایل سال جاری میلادی ادعا کرد که شبکه خبری پراودا (Pravda) روسیه از مسموم‌سازی برای فریب‌دادن ربات‌های هوش مصنوعی در مقابله با انتشار اخبار جعلی استفاده کرده است. بر اساس ادعای این اندیشکده، روش پراودا شامل انتشار میلیون‌ها صفحه وب، مشابه روش AI Labyrinth شرکت Cloudflare است. اما در این مورد می‌گوید این صفحات به‌گونه‌ای طراحی شده‌اند که شبیه مقالات خبری واقعی به نظر برسند و برای تبلیغ روایت کرملین درباره جنگ روسیه در اوکراین استفاده می‌شوند. حجم عظیم این داستان‌ها می‌تواند باعث شود خزشگرهای هوش مصنوعی هنگام پاسخ به کاربران، برخی روایت‌ها را بیش از حد برجسته کنند. تحلیلی که امسال توسط شرکت فناوری آمریکایی NewsGuard منتشر شد و فعالیت‌های پراودا را رصد می‌کرد، نشان داد که ۱۰ چت‌بات بزرگ هوش مصنوعی در یک‌سوم موارد متنی مطابق با دیدگاه‌های پراودا تولید کرده‌اند.

ریشه مشکل

موفقیت نسبی در تغییر گفت‌وگوها نشان‌دهنده مشکل ذاتی همه چیز در هوش مصنوعی است؛ یعنی ترفندهای فناوری که توسط بازیگران خوب با نیت خیر استفاده می‌شوند، همیشه می‌توانند توسط بازیگران بد با اهداف شوم نیز مورد سوءاستفاده قرار گیرند.

بااین‌حال، ژائو می‌گوید راه‌حلی برای این مشکلات وجود دارد هرچند که ممکن است شرکت‌های هوش مصنوعی مایل به بررسی آن نباشند. به‌جای جمع‌آوری بی‌رویه هر داده‌ای که در اینترنت پیدا می‌شود، شرکت‌های هوش مصنوعی می‌توانند با ارائه‌دهندگان محتوای معتبر قراردادهای رسمی منعقد کنند و اطمینان حاصل کنند که محصولاتشان تنها با استفاده از داده‌های قابل‌اعتماد آموزش داده می‌شوند. اما این رویکرد هزینه‌بر است؛ زیرا قراردادهای مجوز می‌توانند بسیار گران باشند. ژائو می‌گوید: «این شرکت‌ها تمایلی به مجوز دادن به آثار این هنرمندان ندارند و ریشه همه این‌ها پول است.»

https://hooshio.com/?p=75100

دوبی | 21 تا 25 مهر 1404

DUBAI |13-17 OCT 2025

پوشش رسانه‌ای هوشیو از جیتکس 2025

هنر پنهان‌شدن از هوش مصنوعی

سلطه بر وب

رویارویی‌های کپی‌رایت

ربات علیه ربات

جایگزین ربات‌ها

خودتخریبی

ریشه مشکل

هکرها در کمین شما؛ ۱۰ فرمان امنیتی برای اینکه قربانی بعدی نباشید

استانبول رقیب جدید دبی در جذب غول‌های فناوری

پای استارلینک رسماً به خاورمیانه باز شد

«هانی‌ول» با هوش مصنوعی خط مقدم کارگران را دگرگون می‌کند

هوش مصنوعی در پی کشف اسرار کیهان

آیا ما در «عصر طلایی حماقت» زندگی می‌کنیم؟

کاربرد هوش مصنوعی در صنعت معدن

تبدیل صوت به متن فارسی

روایتی از تلاقی علم و صنعت در مسیر خلق ارزش

رونمایی از «یکتابات»؛ نخستین پلتفرم ایرانی فروش هوشمند در دایرکت اینستاگرام

آینده هوش مصنوعی در ایران از نگاه سیاست‌گذاری

هوشمند آرنا چگونه GPUهای کمیاب AI را به ایران می‌آورد؟

هکرها در کمین شما؛ ۱۰ فرمان امنیتی برای اینکه قربانی بعدی نباشید

استانبول رقیب جدید دبی در جذب غول‌های فناوری

پای استارلینک رسماً به خاورمیانه باز شد

«هانی‌ول» با هوش مصنوعی خط مقدم کارگران را دگرگون می‌کند

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

هوش مصنوعی در پی کشف اسرار کیهان

آیا ما در «عصر طلایی حماقت» زندگی می‌کنیم؟

کاربرد هوش مصنوعی در صنعت معدن

تبدیل صوت به متن فارسی

هکرها در کمین شما؛ ۱۰ فرمان امنیتی برای اینکه قربانی بعدی نباشید

سلطه بر وب

رویارویی‌های کپی‌رایت

ربات علیه ربات

جایگزین ربات‌ها

خودتخریبی

ریشه مشکل

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید