
مسمومیت هوش مصنوعی؛ روشی برای مقابله با رباتهای خزشگر که بدون اجازه دادهها را استخراج میکنند
هنر پنهانشدن از هوش مصنوعی
روزهایی که وب تحت سلطه انسانهایی بود که در شبکههای اجتماعی پست میگذاشتند گذشته است. اوایل سال جاری میلادی، برای اولینبار از زمانی که دادهها ردیابی شدهاند، رباتهای خزشگر بهجای انسانها بخش عمده ترافیک وب را به خود اختصاص دادند.
«رباتها در حال تسخیر وب هستند و بدون اجازه، دادهها را جمعآوری میکنند تا ابزارهای هوش مصنوعی را آموزش دهند. اما مردم راههای خلاقانهای برای فریبدادن این رباتها پیدا کردهاند و حتی در حال مبارزه با آنها هستند» این جمله نقلقولی از «کریس استوکل-واکر»، روزنامهنگار برجسته و یوتیوبر بریتانیایی است در گزارشی در همین رابطه در جدیدترین نسخه نشریه معتبر New Scientist (16 August 2025) آورده شده است.
سلطه بر وب
اما نکته نگرانکننده اینجاست که بیش از نیمی از این ترافیک رباتی از رباتهای مخربی ناشی میشود که دادههای شخصی محافظتنشده در اینترنت را جمعآوری میکنند. اما بخش روبهرشدی از این ترافیک نیز ناشی از رباتهایی است که شرکتهای هوش مصنوعی برای جمعآوری دادهها برای مدلهایشان یا پاسخ به درخواستهای کاربران طراحی کردهاند. در واقع، ChatGPT-User، رباتی که چتجیپیتی را پشتیبانی میکند، اکنون ۶ درصد از کل ترافیک وب را به خود اختصاص داده است درحالیکه ClaudeBot توسعهیافته توسط Anthropic، ۱۳ درصد را به دست گرفته است.
شرکتهای هوش مصنوعی میگویند چنین جمعآوری دادههایی برای بهروز نگهداشتن مدلهایشان ضروری است. اما تولیدکنندگان محتوا نظر متفاوتی دارند و رباتهای هوش مصنوعی را ابزاری برای نقض گسترده کپیرایت میدانند. برای مثال، اوایل امسال، دیزنی و یونیورسال از شرکت هوش مصنوعی Midjourney شکایت کردند و استدلال کردند که ابزار تولید تصویر این شرکت، شخصیتهایی از مجموعههای محبوب مانند جنگ ستارگان و من نفرتانگیز را سرقت میکند.

تعداد کمی از تولیدکنندگان محتوا پول کافی برای پیگیری دعاوی قضایی دارند، بنابراین برخی روشهای رادیکالتری را برای مبارزه انتخاب کردهاند. آنها از ابزارهای آنلاینی استفاده میکنند که پیداکردن محتوای آنها را برای رباتهای هوش مصنوعی سختتر میکند یا محتوا را بهگونهای دستکاری میکنند که رباتها را فریب دهد تا آن را اشتباه بخوانند، بهطوریکه هوش مصنوعی ممکن است تصاویر ماشینها را با تصاویر گاوها اشتباه بگیرد. اما درحالیکه این «مسمومسازی هوش مصنوعی» (AI poisoning) میتواند به تولیدکنندگان محتوا کمک کند تا از آثارشان محافظت کنند، ممکن است به طور ناخواسته وب را به مکانی خطرناکتر تبدیل کند.
یکی از دلایلی که قوانین مالکیت فکری و حق نشر به وجود آمدند این بود که برای قرنها، کپیبرداران با تقلید از آثار هنرمندان بهسرعت به سودهای آنچنانی میرسیدند. اما ظهور ابزارهای تولید تصویر هوش مصنوعی مانند Midjourney یا DALL-E شرکت OpenAI در چند سال گذشته این مشکل را بهنوعی تشدید کرده است. یکی از نگرانیهای اصلی در آمریکا، اصول استفاده منصفانه (the fair use doctrine) است. این اصول اجازه میدهند تحت شرایط خاصی از نمونههای محتوای دارای کپیرایت بدون نیاز به کسب اجازه از صاحب اثر استفاده شود. قانون استفاده منصفانه عمداً انعطافپذیر است؛ اما در هسته آن این ایده قرار دارد که میتوانید از یک اثر برای خلق چیزی جدید استفاده کنید، به شرطی که بهاندازه کافی تغییر کرده باشد و تأثیر منفی بر بازار اثر اصلی نداشته باشد.
رویاروییهای کپیرایت
بسیاری از هنرمندان، موسیقیدانان و دیگر فعالان معتقدند که ابزارهای هوش مصنوعی مرز بین استفاده منصفانه و نقض کپیرایت را به ضرر تولیدکنندگان محتوا مخدوش کردهاند. برای مثال، کشیدن تصویر میکیماوس در دنیای سیمپسونها برای سرگرمی شخصی لزوماً ضرری ندارد؛ اما با استفاده از هوش مصنوعی، اکنون هر کسی میتواند بهسرعت تعداد زیادی از این تصاویر را تولید کند، آن هم بهگونهای که ماهیت تحولآفرین کارشان قابلتردید است. پس از تولید این تصاویر، بهراحتی میتوان تیشرتهایی بر اساس آنها تولید کرد که از استفاده شخصی به استفاده تجاری تغییر میکند و اصول استفاده منصفانه را نقض میکند.
برخی از تولیدکنندگان محتوا در آمریکا که مشتاق حفاظت از منافع تجاری خود هستند، دست به اقدام قانونی زدهاند. شکایت دیزنی و یونیورسال علیه Midjourney که در ژوئن سال جاری به جریان افتاد، آخرین نمونه از این دعاوی قانونی است. موارد دیگر شامل دعوای حقوقی جاری بین نیویورکتایمز و OpenAI بر سر ادعای استفاده غیرمجاز از مقالات این روزنامه است. شرکتهای هوش مصنوعی بهشدت هرگونه تخلف را رد میکنند و اصرار دارند که جمعآوری دادهها تحت اصول استفاده منصفانه مجاز است.

«کریس لهان» (Chris Lehane)، مدیر ارشد امور جهانی OpenAI در نامهای سرگشاده به دفتر سیاست علموفناوری آمریکا در ماه مارس سال جاری میلادی، هشدار داد که قوانین سختگیرانه کپیرایت در سایر نقاط جهان که در راستای اجرای اقداماتی برای ارائه سازوکارهای حفاظتی حق نشر برای تولیدکنندگان محتوا صورت گرفته است؛ «نوآوری و سرمایهگذاری را سرکوب میکنند.» OpenAI نیز پیشتر گفته بود که توسعه مدلهای هوش مصنوعی که نیازهای مردم را برآورده کند، بدون استفاده از آثار دارای کپیرایت غیرممکن است. گوگل نیز دیدگاه مشابهی دارد و در نامهای سرگشاده که در ماه مارس سال جاری میلادی منتشر شد، اظهار داشت: «سه حوزه قانونی میتوانند مانع دسترسی مناسب به دادههای لازم برای آموزش مدلهای پیشرو شوند: کپیرایت، حریم خصوصی و پتنتها.»
بااینحال، در حال حاضر به نظر میرسد که فعالان حق نشر افکار عمومی را به نفع خود میبینند. زمانی که وبسایت IPWatchdog پاسخهای عمومی به پرسوجوی دفتر کپیرایت آمریکا درباره کپیرایت و هوش مصنوعی را تحلیل کرد، متوجه شد که ۹۱ درصد از نظرات حاوی احساسات منفی نسبت به هوش مصنوعی بودند. آنچه ممکن است به شرکتهای هوش مصنوعی در جلب همدلی عمومی کمک نکند، این سوءظن است که رباتهایشان آنقدر ترافیک به برخی وبسایتها ارسال میکنند که منابع را تحتفشار قرار میدهند و شاید حتی برخی وبسایتها را مجبور به قطعی موقت کنند و تولیدکنندگان محتوا در برابر آنها ناتوان هستند. برای مثال، ترفندهایی وجود دارد که تولیدکنندگان محتوا میتوانند برای جلوگیری از ورود رباتهای خزشگر در وبسایتهایشان استفاده کنند؛ از جمله پیکربندی مجدد یک فایل کوچک در هسته وبسایت که از ورود رباتها جلوگیری میکند. اما نشانههایی وجود دارد که رباتها گاهی اوقات این تنظیمات را نادیده میگیرند و به خزیدن ادامه میدهند.
ربات علیه ربات
جای تعجب نیست که ابزارهای جدیدی برای تولیدکنندگان محتوا در دسترس قرار گرفتهاند که سازوکارهای حفاظتی قویتری را در برابر رباتهای هوش مصنوعی ارائه میدهند. یکی از این ابزارها امسال توسط Cloudflare، یک شرکت زیرساخت اینترنتی که از کاربران خود در برابر «حملات توزیعشده محرومسازی از سرویس» (Distributed Denial of Service attack – DDoS) محافظت میکند، راهاندازی شد. در این حملات، مهاجم وبسرور را در چنان ترافیکی غرق میکند که سایت را از کار میاندازد. برای مقابله با رباتهای هوش مصنوعی که ممکن است خطر مشابهی ایجاد کنند، Cloudflare بهقولمعروف با آتش به جنگ آتش میرود: این برنامه اختصاصی صفحاتی تولیدشده توسط هوش مصنوعی پر از محتوای بیمعنی ایجاد میکند تا رباتهای هوش مصنوعی تمام زمان و انرژی خود را بهجای اطلاعات واقعی که به دنبال آن هستند صرف بررسی این محتوای بیمعنی کنند.
این ابزار که به نام AI Labyrinth شناخته میشود، برای به دام انداختن ۵۰ میلیارد درخواست روزانه از خزشگرهای هوش مصنوعی طراحی شده است که Cloudflare میگوید در وبسایتهای شبکهاش با آنها مواجه است. به گفته Cloudflare، ابزار AI Labyrinth ابزارهای خزشگر هوش مصنوعی و دیگر رباتهایی که دستورات «عدمخزیدن» (no crawl) را رعایت نمیکنند، کند، گیج و منابعشان را هدر میدهد. Cloudflare از آن زمان ابزار دیگری منتشر کرده است که از شرکتهای هوش مصنوعی میخواهد برای دسترسی به وبسایتها هزینه پرداخت کنند و در غیر این صورت از خزیدن در میان محتوای آنها مسدود میشوند.
جایگزین رباتها
یکی از گزینههای جایگزین این است که به رباتهای هوش مصنوعی اجازه دسترسی به محتوای آنلاین داده شود، اما این محتوا بهگونهای ظریف «مسموم» شود که برای اهداف موردنظر رباتها فایده چندانی نداشته باشد. ابزارهای Glaze و Nightshade که در دانشگاه شیکاگو توسعه یافتهاند، به پیشرو این نوع مقاومت تبدیل شدهاند. هر دو ابزار بهصورت رایگان از وبسایت دانشگاه قابلدانلود هستند و میتوانند روی کامپیوتر کاربران اجرا شوند که تاکنون هر دو این ابزارها بیش از ۱۰ میلیون بار دانلود شدهاند.
ابزار Glaze که در سال ۲۰۲۲ منتشر شد، بهصورت دفاعی عمل میکند و تغییراتی نامحسوس در سطح پیکسلی را روی آثار هنرمندان اعمال میکند. این تغییرات که برای انسانها نامرئی هستند، باعث میشوند مدلهای هوش مصنوعی سبک اثر را اشتباه تفسیر کنند و مثلاً یک نقاشی آبرنگ ممکن است بهعنوان نقاشی رنگروغن شناسایی شود. ابزار Nightshade نیز که در سال ۲۰۲۳ منتشر شد، ابزار تهاجمیتری است که دادههای تصویری را بهگونهای که برای انسانها نامحسوس است مسموم میکند تا مدلهای هوش مصنوعی ارتباط نادرستی با آن برقرار کنند، مانند یادگیری ارتباطدادن کلمه «گربه» با تصاویر سگها. «بن ژائو» (Ben Zhao)، پژوهشگر ارشد پروژههای Glaze و Nightshade در دانشگاه شیکاگو، اعتقاد دارد ابزارهای مسمومسازی هوش مصنوعی قدرت را به دست هنرمندان بازمیگردانند. استفاده از ابزارهایی مانند Glaze و Nightshade راهی است برای هنرمندان تا همان قدرت اندکی که بر استفاده از آثارشان دارند را اعمال کنند.

خودتخریبی
اما ایده خودتخریبی محتوا برای دفع خطر کپیبرداران چیز جدیدی نیست و «النورا روزاتی» (Eleonora Rosati) استاد حقوق مالکیت معنوی دانشگاه استکهلم دراینرابطه میگوید: «در گذشته، زمانی که استفاده غیرمجاز از پایگاههای داده؛ از فهرستهای تلفن تا لیستهای پتنت رایج بود، توصیه میشد که برخی خطاها به طور عمدی وارد شود تا در جمعآوری شواهد به شما کمک کند.» برای مثال، یک نقشهنگار ممکن بود به طور عمدی نامهای جعلی برای مکانها را در نقشههایش وارد کند. اگر این نامهای جعلی بعداً در نقشهای که توسط رقیب تولید شده ظاهر میشد، شواهد روشنی از سرقت علمی را ارائه میداد. این روش هنوز هم خبرساز است و وبسایت ارائهدهنده متن موسیقی Genius ادعا کرد که انواع مختلفی از علامت نقلقول را در محتوای خود وارد کرده بود که نشان میداد گوگل بدون اجازه از محتوای آنها استفاده کرده است. گوگل این اتهامات را رد کرد و پرونده قضایی که Genius علیه گوگل مطرح کرده بود، رد شد. حتی استفاده از واژه «خرابکاری» (sabotage) هم مورد بحث است زیرا خود هنرمند ویرایشهایی را روی تصاویر خود اعمال میکند و آنها کاملاً آزاد است که با دادههای خود هر کاری که میخواهند انجام دهد.
مشخص نیست که شرکتهای هوش مصنوعی تا چه حد در حال اتخاذ اقدامات متقابل برای مقابله با این مسمومسازی دادهها هستند؛ چه با نادیدهگرفتن محتوای علامتگذاریشده بهعنوان مسموم و چه با تلاش برای حذف آن از دادهها. اما تلاشهای ژائو برای شکستن سیستم خودش نشان داد که Glaze همچنان در برابر تمام اقدامات متقابلی که او به آن فکر کرده بود، ۸۵ درصد مؤثر است که نشان میدهد شرکتهای هوش مصنوعی ممکن است به این نتیجه برسند که برخورد با دادههای مسموم دردسری بیش از ارزشش دارد.

بااینحال، تنها هنرمندانی که محتوایی برای محافظت دارند در حال آزمایش مسمومسازی علیه هوش مصنوعی نیستند. برخی دولتها نیز ممکن است از اصول مشابهی برای پیشبرد روایتهای جعلی استفاده کنند. برای مثال، اندیشکده Atlantic Council در اوایل سال جاری میلادی ادعا کرد که شبکه خبری پراودا (Pravda) روسیه از مسمومسازی برای فریبدادن رباتهای هوش مصنوعی در مقابله با انتشار اخبار جعلی استفاده کرده است. بر اساس ادعای این اندیشکده، روش پراودا شامل انتشار میلیونها صفحه وب، مشابه روش AI Labyrinth شرکت Cloudflare است. اما در این مورد میگوید این صفحات بهگونهای طراحی شدهاند که شبیه مقالات خبری واقعی به نظر برسند و برای تبلیغ روایت کرملین درباره جنگ روسیه در اوکراین استفاده میشوند. حجم عظیم این داستانها میتواند باعث شود خزشگرهای هوش مصنوعی هنگام پاسخ به کاربران، برخی روایتها را بیش از حد برجسته کنند. تحلیلی که امسال توسط شرکت فناوری آمریکایی NewsGuard منتشر شد و فعالیتهای پراودا را رصد میکرد، نشان داد که ۱۰ چتبات بزرگ هوش مصنوعی در یکسوم موارد متنی مطابق با دیدگاههای پراودا تولید کردهاند.
ریشه مشکل
موفقیت نسبی در تغییر گفتوگوها نشاندهنده مشکل ذاتی همه چیز در هوش مصنوعی است؛ یعنی ترفندهای فناوری که توسط بازیگران خوب با نیت خیر استفاده میشوند، همیشه میتوانند توسط بازیگران بد با اهداف شوم نیز مورد سوءاستفاده قرار گیرند.
بااینحال، ژائو میگوید راهحلی برای این مشکلات وجود دارد هرچند که ممکن است شرکتهای هوش مصنوعی مایل به بررسی آن نباشند. بهجای جمعآوری بیرویه هر دادهای که در اینترنت پیدا میشود، شرکتهای هوش مصنوعی میتوانند با ارائهدهندگان محتوای معتبر قراردادهای رسمی منعقد کنند و اطمینان حاصل کنند که محصولاتشان تنها با استفاده از دادههای قابلاعتماد آموزش داده میشوند. اما این رویکرد هزینهبر است؛ زیرا قراردادهای مجوز میتوانند بسیار گران باشند. ژائو میگوید: «این شرکتها تمایلی به مجوز دادن به آثار این هنرمندان ندارند و ریشه همه اینها پول است.»