
نبرد هوش مصنوعی برای استخراج دادهها؛ آیندهای پرچالش برای وب
در عصر هوش مصنوعی، ناشران خبری و وبسایتها با چالشی جدی روبهرو شدهاند، رباتهایی که بدون اجازه به محتوای آنها دسترسی پیدا میکنند تا دادهها را برای آموزش مدلهای هوش مصنوعی استخراج کنند. این پدیده که بهعنوان استخراج محتوا یا Scraping شناخته میشود، نهتنها درآمد ناشران را تهدید میکند، بلکه زیرساختهای وب را نیز تحت فشار قرار داده است. این نبرد میان شرکتهای رسانهای و شرکتهای فناوری، آینده وب را به سمت تغییرات عمدهای سوق داده است.
چالش ناشران در برابر رباتهای هوش مصنوعی
چتباتهای هوش مصنوعی مانند ChatGPT و Gemini گوگل که قادر به ارائه پاسخهای دقیق و مختصر از دادههای وب هستند، به کاهش بازدید سایتها منجر شدهاند. این موضوع درآمد ناشران را تهدید میکند، بهویژه پس از راهاندازی حالت AI Mode توسط گوگل که لینکهای کمتری نسبت به جستجوی سنتی نمایش میدهد.
ناشران برای مقابله با این روند، به اقدامات حقوقی و تکنولوژیکی روی آوردهاند. برخی از آنها، مانند Dotdash Meredith، قراردادهایی با شرکتهای فناوری برای مجوز محتوایی امضا کردهاند و با شرکتهایی مثل Cloudflare همکاری میکنند تا دسترسی رباتهای غیرمجاز را محدود کنند. «نیکلاس تامپسون»، مدیرعامل مجله Atlantic، میگوید: «ما میخواهیم انسانها سایت ما را بخوانند، نه رباتهایی که هیچ ارزشی برای ما ایجاد نمیکنند.»
افزایش فعالیت رباتهای استخراجکننده
طبق گزارش شرکت Cloudflare، فعالیتهای استخراج محتوا در سال گذشته ۱۸٪ افزایش یافته است. این شرکت اخیراً ابزاری معرفی کرده که به ناشران اجازه میدهد مشخص کنند کدام رباتها میتوانند به محتوای آنها دسترسی داشته باشند. با این حال، رباتهایی با قابلیت نادیده گرفتن دستورات Robots.txt همچنان به فعالیت خود ادامه میدهند.
برای مثال، شرکت Reddit ماه گذشته از استارتآپ هوش مصنوعی Anthropic شکایت کرد و ادعا کرد که این شرکت بدون اجازه، بیش از ۱۰۰ هزار بار به سایت آنها دسترسی داشته است. iFixit نیز اعلام کرد که ربات Anthropic در ۲۴ ساعت یک میلیون بار به سرورهایش حمله کرده است. مدیرعامل iFixit، «کایل ویینز»، در واکنشی تند گفت: «نه تنها محتوای ما را بدون پرداخت برداشتی، بلکه منابع ما را هم مشغول کردهاید.»
نبرد حقوقی میان ناشران و شرکتهای فناوری
شکایتهای حقوقی میان ناشران و شرکتهای هوش مصنوعی در دادگاهها افزایش یافته است. نیویورک تایمز که قرارداد مجوز با آمازون دارد، علیه مایکروسافت و OpenAI شکایت کرده است. در همین حال، شرکت مادر والاستریت ژورنال یعنی News Corp نیز علیه شرکتهای هوش مصنوعی مانند Perplexity اقدام قانونی کرده است.
با این حال، برخی پروندهها به نفع شرکتهای هوش مصنوعی پایان یافتهاند. در ژوئن امسال، قاضی پرونده Anthropic اعلام کرد که استفاده از محتوای دارای حق چاپ برای آموزش مدلهای هوش مصنوعی، تحت شرایط خاصی مصداق استفاده منصفانه (Fair Use) است.
پیامدهای گسترده برای وب
اقدامات ناشران برای محدود کردن دسترسی رباتها، پرسشهایی جدی درباره آینده وب ایجاد کرده است. برخی کارشناسان نگراناند که محدودیتهای سختگیرانه، دسترسی پژوهشهای دانشگاهی و اسکنهای امنیتی مفید را نیز تحت تأثیر قرار دهد. شین لانگپر، رهبر پروژه Data Provenance، هشدار میدهد: «وب در حال تقسیمبندی به نفع بالاترین پیشنهاددهنده است که این امر برای تمرکز بازار و شفافیت بسیار زیانآور است.»
علاوه بر این، شرکتهایی مانند Internet Archive که بهعنوان بایگانی اینترنت شناخته میشوند، با ابهامات حقوقی روبهرو شدهاند. بروستر کال، بنیانگذار این سایت، میگوید که شکایتها و خطوط نامشخص قانونی میتواند توسعه شرکتهای هوش مصنوعی را در آمریکا به عقب براند.
راهحل چیست؟
در حالی که ناشران مصمم به دفاع از حقوق خود هستند، شرکتهای هوش مصنوعی نیز برای دسترسی به دادهها به استراتژیهای جدیدی روی آوردهاند. راهحل پایدار ممکن است در مذاکرات میان دو طرف و ایجاد چارچوبهای قانونی مشخص برای استخراج محتوا باشد.
در نهایت، این نبرد نهتنها شکل آینده وب را تعیین خواهد کرد، بلکه پیامدهای گستردهای برای دسترسی به اطلاعات، تمرکز بازار و توسعه فناوری هوش مصنوعی خواهد داشت. همانطور که مدیرعامل Atlantic اشاره میکند: «این تنها درباره حفاظت از محتوا نیست؛ بلکه درباره تعادل میان نوآوری و احترام به حقوق ناشران است.»
منبع: wsj