
آیا هوش مصنوعی به آرامی خود و اینترنت را میکشد؟
علاقه به هوش مصنوعی همچنان در حال افزایش است، جستجوهای گوگل مرتبط با هوش مصنوعی به شدت افزایش داشته، اما تحقیقات اخیر نشان میدهد که موفقیت هوش مصنوعی میتواند باعث سقوط آن شود. در میان رشد محتوای هوش مصنوعی آنلاین، گروهی از محققان دانشگاههای کمبریج و آکسفورد برای بررسی اینکه چه اتفاقی میافتد زمانی که ابزارهای تولید محتوای هوش مصنوعی محتوای تولید شده توسط هوش مصنوعی را جستجو میکنند، شروع به کار کردند. آنچه آنها یافتند نگرانکننده بود.
خود گویی و خود خندی
دکتر «ایلیا شومائیلو» از دانشگاه آکسفورد و تیم محققان کشف کردند زمانی که نرمافزار تولید محتوای هوش مصنوعی صرفاً به محتوای تولید شده توسط genAI متکی است، کیفیت پاسخها کم میشود، همانطور که در مطالعه منتشر شده در Nature ماه گذشته ذکر شده است.
پس از دو درخواست اول، پاسخها به طور پیوسته هدف را از دست میدهند، به دنبال آن کیفیت به طور قابلتوجهی تا تلاش پنجم کاهش مییابد و تا درخواست نهم به طور کامل به الگویی بیمعنی تنزل مییابد. محققان این مصرف بیش از حد چرخهای محتوای تولید شده توسط هوش مصنوعی را فروپاشی مدل نامیدند – کاهش مداوم در پاسخهای یاد گرفته شده هوش مصنوعی که مجموعههای آموزشی چرخههای تکرارشونده را آلوده میکند تا خروجی یک تحریف بیارزش از واقعیت باشد.
شومائیلو توضیح میدهد: «شگفتانگیز است که فروپاشی مدل چقدر سریع اتفاق میافتد و چقدر گریزان میتواند باشد. در ابتدا، دادههای اقلیت را تحت تأثیر قرار میدهد؛ دادههایی که با شدت زیاد نشان داده میشوند. سپس تنوع خروجیها و واریانس را تحت تأثیر قرار میدهد. گاهی اوقات، بهبود کوچکی برای دادههای اکثریت مشاهده میکنید که کاهش عملکرد در دادههای اقلیت را پنهان میکند. فروپاشی مدل میتواند عواقب جدی داشته باشد.»
این موضوع مهم است؛ زیرا طبق مطالعه جداگانهای از یک تیم از محققان Amazon Web Services که در ماه ژوئن منتشر شد، حدود ۵۷٪ از تمام متنهای مبتنی بر وب توسط هوش مصنوعی تولید یا از طریق یک الگوریتم هوش مصنوعی ترجمه شده است. اگر دادههای تولید شده توسط انسان در اینترنت به سرعت با محتوای تولید شده توسط هوش مصنوعی پوشانده شود و یافتههای مطالعه شومائیلو درست باشد، ممکن است هوش مصنوعی خود و اینترنت را بکشد.

محققان دریافتند که هوش مصنوعی خود را گول میزند
در اینجا نحوه تأیید فروپاشی مدل توسط تیم آمده است. آنها با یک ویکی (wiki) با توانایی هوش مصنوعی از پیش آموزشداده شده آغاز کردند که سپس بر اساس خروجیهای تولید شده خود به طور پیشرو بهروز میشد. با آلوده شدن مجموعه آموزشی اصلی حقایق توسط دادههای آلوده، اطلاعات به طور پیوسته به بیمعنایی فرسوده میشد. بهعنوان مثال، پس از نهمین چرخه پرسش، یک گزیده از مقاله ویک مطالعه در مورد برجهای کلیسای انگلیسی قرن چهاردهم به طرز مضحکی به یک پایاننامه نامرتب در مورد رنگهای مختلف خرگوشهای دمدار تبدیل شده بود.
مثال دیگری که در گزارش Nature برای نشاندادن این نکته ذکر شده، یک مثال نظری در مورد هوش مصنوعی آموزشداده شده در مورد انواع سگها بود. بر اساس یافتههای مطالعه، نژادهای کمتر شناخته شده از مجموعه دادههای تکراری که نژادهای محبوبتر مانند گلدن ریتریورها را ترجیح میدهند، حذف خواهند شد. هوش مصنوعی روش غربالگری «استفاده کن یا حذف کن» خود را ایجاد میکند که نژادهای کمتر محبوب را از حافظه دادههای خود حذف میکند. اما با چرخههای کافی از ورودیهای صرفاً هوش مصنوعی، هوش مصنوعی تنها قادر به رسیدن به نتایج بیمعنی است.
«در عمل، تصور کنید که میخواهید یک مدل هوش مصنوعی بسازید که تصاویر حیوانات را تولید کند. اگر قبلاً از مدلهای یادگیری ماشین استفاده کرده باشید بهسادگی میتوانید تصاویر حیوانات را بهصورت آنلاین پیدا کنید و یک مدل از آنها بسازید، اما امروز پیچیدهتر میشود. شومائیلو توضیح میدهد که بسیاری از تصاویر آنلاین واقعی نیستند و شامل اشتباهاتی هستند که توسط مدلهای دیگر معرفی شدهاند.»
فروپاشی مدل چگونه اتفاق میافتد؟
به دلایلی که محققان کاملاً نمیدانند چرا زمانی که هوش مصنوعی فقط از یک رژیم غذایی ثابت از دادههای مصنوعی خود تغذیه میکند، ارتباط خود را با رشتههای اصلی واقعیت از دست میدهد و تمایل دارد بهترین پاسخ خود را بر اساس بهترین نقاط داده بازیافت شده ایجاد کند.
اما چیزی در ترجمه هوش مصنوعی و بازگرداندن حقایق از بین میرود.
مطالعه نتیجه میگیرد تنها راهی که هوش مصنوعی میتواند پایداری بلندمدت را به دست آورد، اطمینان از دسترسی آن به مجموعه محتوای غیر هوش مصنوعی، تولید شده توسط انسان و همچنین فراهم کردن یک جریان مداوم از محتوای جدید تولید شده توسط انسان در آینده است.

جریان محتوای تولید شده توسط هوش مصنوعی آنلاین به سرعت در حال افزایش است
با این حال، امروزه نمیتوانید محتوایی را به کار ببرید بدون اینکه به یک قطعه محتوای تولید شده توسط هوش مصنوعی در اینترنت برخورد نکنید و ممکن است بدتر از آنچه فکر میکنید باشد.
در واقع، یک متخصص هوش مصنوعی و مشاور سیاست پیشبینی کرده که به دلیل رشد نمایی پذیرش هوش مصنوعی، احتمالاً ۹۰٪ از کل محتوای اینترنت تا سال ۲۰۲۵ توسط هوش مصنوعی تولید خواهد شد.
حتی اگر درصد مواد تولید شده توسط هوش مصنوعی تا سال آینده ۹۰٪ نباشد، همچنان درصد نامتناسبی از محتوای آموزشی موجود برای هر هوش مصنوعی آینده خواهد بود. این وضعیت بر اساس یافتههای شومائیلو و نبود یک راهحل واضح برای چنین مشکلی، چشمانداز دلگرمکنندهای ندارد.
هیوستون، ما مشکل داریم
هیچکس نمیداند چه محدودیتهای قانونی یا نظارتی ممکن است در ماهها و سالهای آینده اعمال شود که بتواند دسترسی به حجم موجود یا بخشهای قابلتوجهی از محتوای دارای حق چاپ تولید شده توسط انسان را محدود کند.
علاوه بر این، با توجه به اینکه بخش زیادی از محتوای فعلی اینترنت با استفاده از هوش مصنوعی تولید میشود، بدون هیچ راهی برای کاهش واقعگرایانه این روند انفجاری، برای توسعهدهندگان الگوریتمهای هوش مصنوعی نسل بعدی چالش خواهد بود تا از این وضعیت کاملاً اجتناب کنند؛ زیرا نسبت محتوای اصلی انسان کاهش مییابد.
شومائیلو میگوید پیچیدگی بیشتر این موضوع، این است که برای توسعهدهندگان انسانی چالشبرانگیزتر میشود تا محتوای ایجاد شده توسط سیستمهای هوش مصنوعی مدل زبان بزرگ را در مقیاس بزرگ فیلتر کنند.
شومائیلو میگوید: «تا کنون چنین نبوده. یک بحث فعال آکادمیک وجود دارد و امیدواریم در مورد چگونگی رسیدگی به فروپاشی مدل در حالی که هزینههای مرتبط را به حداقل میرسانیم، پیشرفت کنیم»
شومائیلو اضافه میکند: «یک گزینه برای هماهنگی در سطح جامعه است تا اطمینان حاصل شود که طرفهای مختلف درگیر در ایجاد و استقرار LLM اطلاعات موردنیاز برای حل مسائل مربوط به منشأ را به اشتراک میگذارند. در غیر این صورت، ممکن است آموزش نسخههای جدیدتر از LLM بدون دسترسی به دادههایی که قبل از پذیرش گسترده فناوری یا دسترسی مستقیم به دادههای تولید شده توسط انسان در مقیاس از اینترنت دانلود شدهاند، دشوارتر شود.»
شومائیلو میگوید مهمترین پیامد فروپاشی مدل، فساد مجموعههای آموزشی قبلاً بیطرف است که اکنون به سمت خطاها، اشتباهات و بیعدالتی متمایل خواهد شد. همچنین اطلاعات نادرست و توهمات را تقویت میکند – بهترین حدسهای هوش مصنوعی در غیاب دادههای واقعی – که قبلاً در چندین پلتفرم genAI آشکار شده است.
با توجه به پیشرفت ثابت به سمت فروپاشی مدل هوش مصنوعی، ممکن است همه چیز آنلاین مجبور به تأیید از طریق یک سیستم تغییرناپذیر مانند بلاکچین یا نوعی مهر معادل اطمینان باشد. در غیر این صورت، مرگ هوش مصنوعی و اینترنت شاید در واقع به معنای مرگ حقیقت باشد.