
مرگ زبانها در ویکیپدیا؛ هوش مصنوعی، قاتل خاموش میراث فرهنگی
گزارشهای تخصصی نشان میدهد که افزایش دسترسی به ابزارهای هوش مصنوعی (AI) و ترجمه ماشینی، خطر نابودی دیجیتال زبانهای کمگویشور را بهشدت افزایش داده و یک «حلقه تباهی زبانی» ایجاد کرده است.
ظهور ابزارهای ترجمه ماشینی پیشرفته و مدلهای زبان بزرگ (LLMs) نظیر ChatGPT، در کنار پروژه عظیم و چندزبانه ویکیپدیا، در حال خلق یک پدیده متناقض و نگرانکننده است: بهجای حفظ و تقویت زبانهای کمگویشور، این فناوریها بهتدریج در حال سوق دادن آنها به سمت یک «حلقه تباهی زبانی» (Linguistic Doom Loop) هستند. این گزارش به بررسی چگونگی تزریق حجم وسیعی از محتوای ترجمهشده ماشینی و پراشتباه به ویکیپدیا میپردازد و تحلیل میکند که چگونه آموزش مدلهای هوش مصنوعی بر پایه این دادههای آلوده، در نهایت به مرگ دیجیتال این زبانها منجر میشود.
فریب یک جامعه: سرگذشت ویکیپدیای گرینلندی
داستان ویکیپدیای گرینلندی (زبان بومی حدود ۵۷,۰۰۰ نفر از مردم اینوئیت)، نمونه بارز این معضل است. «کنت وِر» (Kenneth Wehr)، پس از به عهده گرفتن مدیریت ویرایش این زبان در چهار سال پیش، متوجه شد که این دانشنامه، علیرغم ظاهر پُرمحتوایش، یک «سراب» است. تقریباً تمام مقالات آن، توسط افرادی نوشته شده بودند که هیچ تسلطی به زبان گرینلندی نداشتند و در طول زمان، حجم عظیمی از محتوا بهطور مستقیم از طریق ابزارهای ترجمه ماشینی کپی و جایگذاری شده بود.
این مقالات پُر از اشتباهات ابتدایی، خطاهای گرامری و حتی اطلاعات غلط فاحش بودند (مانند ادعای یک مقاله که کانادا تنها ۴۱ نفر جمعیت دارد). وِر تأکید میکند: «جملات کاملاً بیمعنی بودند… مترجمهای هوش مصنوعی در ترجمه گرینلندی بسیار بد عمل میکنند.»
او نهایتاً خواستار تعطیلی روند ویرایش شد؛ بنابر گفته وی، این اشتباهات در حال حاضر در مدلهای ترجمه ماشینی نیز نفوذ کردهاند؛ تا جایی که اگر از گوگل ترنسلیت یا ChatGPT خواسته شود به درستی تا ۱۰ بشمارند، هر دو شکست میخورند. این تجربه تلخ نشان میدهد که چگونه «ورودی اشتباه، خروجی اشتباه» (Garbage In, Garbage Out) در عصر هوش مصنوعی، به معنای نابودی یک میراث زبانی است.
ویکیپدیا منبع اصلی تغذیه هوش مصنوعی
این معضل تنها به زبان گرینلندی محدود نیست. ویکیپدیا با بیش از ۳۴۰ زبان فعال و ۴۰۰ زبان دیگر در دست توسعه، جاهطلبانهترین پروژه چندزبانه است. با فراگیر شدن هوش مصنوعی، ویکیپدیا نیز با محتوای خودکار ترجمهشده غرق شده است.
- آمار نگرانکننده: داوطلبان فعال در چهار زبان آفریقایی تخمین میزنند که بین ۴۰ تا ۶۰ درصد از مقالات زبان آنها، ترجمههای ماشینی اصلاحنشده هستند.
- بررسیها نشان میدهد که بیش از دو سوم صفحات زبان اینوکتیتوت (زبان بومی کانادا و نزدیک به گرینلندی) نیز حاوی بخشهایی هستند که به این شیوه تولید شدهاند.
حلقه معیوب
قلب این فاجعه در نحوه عملکرد مدلهای هوش مصنوعی نهفته است. سیستمهایی چون گوگل ترنسلیت و ChatGPT برای «یادگیری» زبانهای جدید، به جمعآوری و تجزیه و تحلیل حجم عظیمی از متون موجود در اینترنت نیاز دارند. برای زبانهایی با گویشوران کم، ویکیپدیا اغلب بزرگترین و گاهی تنها منبع داده آنلاین در دسترس است.
بهعنوان مثال:
- در سال ۲۰۲۰، تخمین زده میشد که ویکیپدیا بیش از نیمی از دادههای آموزشی مدلهای ترجمه برای زبانهایی چون مالاگاسی، یوروبا و شونا (که میلیونها گویشور دارند) را تشکیل میداد.
- در سال ۲۰۲۲، محققان آلمانی دریافتند که ویکیپدیا تنها منبع داده زبانی قابل دسترس برای ۲۷ زبان فاقد منابع کافی در فضای آنلاین بود.
این وابستگی مفرط به ویکیپدیا، به این معناست که هرگونه خطای گرامری یا اطلاعات غلط در صفحات آن، مستقیماً به «چاههای داده» مدلهای هوش مصنوعی تزریق میشود. نتیجه این میشود که مدلها بهطور خاص در ترجمه این زبانها بسیار مستعد خطا میشوند و کاربران با اتکا به همین ابزارهای معیوب، محتوای ماشینی و غلط بیشتری را وارد ویکیپدیا میکنند و این چرخه معیوب تداوم مییابد.
سوءاستفادههای «ربایندگان ویکیپدیا» و عدم مسئولیتپذیری
هوش مصنوعی به کاربران کمتجربه یا افرادی که (Trond Trosterud)، زبانشناس محاسباتی، آنها را «ربایندگان ویکیپدیا» (Wikipedia Hijackers) مینامد، این قدرت را داده است که تنها با چند کلیک، مقالات طولانیتر و به ظاهر موجهتری تولید کنند. پیشتر، آنها تنها با فرهنگ لغت مسلح بودند، اما اکنون مسلح به گوگل ترنسلیت هستند. این امر عملاً «صنعتیسازی تخریب» را به ویژه در آسیبپذیرترین زبانها به ارمغان آورده است.
دلیل ناکارآمدی هوش مصنوعی در این زبانها متعدد است:
- کمبود داده منبع: مقدار کم متن آنلاین.
- ساختار زبانی نامناسب: بسیاری از زبانهای بومی (مانند گرینلندی و اکثر زبانهای بومی آمریکا) «التصاقی» هستند؛ به این معنا که کلمات از پیوستن پیشوندها و پسوندهای متعدد به یک ریشه ساخته میشوند. این ساختار پیچیده، برای سیستمهای ترجمه ماشینی رایج، چالشی جدی ایجاد میکند.
هزینههای انسانی و فرهنگی
عبدالقادر، یک برنامهریز کشاورزی از نیجریه، که روزانه سه ساعت را صرف اصلاح ویرایش زبان فولفولده میکند (با تخمین ۶۰٪ مقالات ترجمهشده ماشینی اصلاحنشده)، تأکید میکند که محتوای غلط میتواند بهطور مستقیم به کشاورزان در مناطق دورافتاده آسیب بزند. به عنوان مثال، گوگل ترنسلیت کلمه فولفولده برای «ژانویه» را «ژوئن» و ChatGPT آن را «اوت» یا «سپتامبر» ترجمه میکند!
همچنین، این پدیده خشم فعالان احیای زبانها را نیز برانگیخته است. نوآ هاآلیلیو سلیمان، استاد زبان هاوایی، با ناراحتی گزارش میدهد که حدود ۳۵٪ از کلمات در برخی صفحات ویکیپدیا به زبان هاوایی نامفهوم هستند: «این دردناک است، زیرا یادآور تمام دفعاتی است که فرهنگ و زبان ما مورد تصرف قرار گرفته است.»
این محتوای غلط، در حال حاضر در حال نفوذ به محصولات تجاری مانند کتابهای الکترونیکی خودکار تولیدشده در آمازون برای یادگیری زبانهای بومی کانادایی (مانند اینوکتیتوت و کری) نیز هست که توسط زبانشناسان به عنوان «کلاهبرداری» (Fraud) توصیف میشوند.
رونا باتاچارژی، مدیر ارشد در بنیاد ویکیمدیا (گرداننده ویکیپدیا)، تأکید دارد که «مسئولیت نهایی» برای جلوگیری از خرابکاری یا فعالیتهای ناخواسته، بر عهده «جامعه» ویرایش زبان است. با این حال، پرسش حیاتی این است: اگر هیچ جامعه فعالی وجود نداشته باشد، چگونه میتوان یک اشتباه را اصلاح یا درباره آن شکایت کرد؟ بنیاد ویکیمدیا تنها نقش «تأمین فضا» برای رشد زبانها را دارد، حتی اگر آن فضا عملاً خالی از سکنه باشد.
رقابت با زمان: الگوی موفقیت سامی ایناری
تنها راه برونرفت از این بنبست، تولید محتوای باکیفیت به عنوان یک «رقابت با زمان» است. زبان سامی ایناری (Inari Saami) از فنلاند، یک نمونه الهامبخش است. این زبان که در آستانه انقراض بود، اکنون چند صد گویشور دارد و ۶,۴۰۰ مقاله ویکیپدیا در آن وجود دارد که هر یک توسط یک گویشور فصیح ویرایش شده است.
فابریزیو برکیارولی از انجمن زبان سامی ایناری میگوید: «ما اهمیتی به کمیت نمیدهیم. به کیفیت اهمیت میدهیم.» آنها ویکیپدیا را بهعنوان مخزن زبان نوشتاری برای نسلهای جوان قرار دادهاند. این موفقیت نشان میدهد که با تعهد حداکثری، میتوان از ویکیپدیا بهعنوان ابزاری منحصربهفرد برای حفظ زبان استفاده کرد و با تزریق مواد «خوب» به فضای آنلاین، مدلهای هوش مصنوعی را مجبور به بهبود عملکردشان کرد.
اما متأسفانه، بسیاری از زبانها شانس سامی ایناری را ندارند. در نهایت، پس از ماهها بحث و جدل، پیشنهاد کنت وِر برای تعطیلی ویکیپدیای گرینلندی به دلیل استفاده از ابزارهای هوش مصنوعی که «مکرراً محتوای بیمعنی تولید کردهاند»، پذیرفته شد.
این تصمیم، زنگ خطری جدی برای آینده زبانهای کمتعداد در عصر هوش مصنوعی است. در غیاب یک نظارت فعال و ارتش داوطلب مسلط به زبان، فناوری که قرار بود محافظ میراث فرهنگی باشد، به عاملی تسریعکننده برای زوال و نابودی دیجیتال آنها تبدیل شده است. اکنون باید پرسید، چه راهکاری برای جلوگیری از این «انقراض ماشینی» زبانها در دستور کار متخصصان هوش مصنوعی و فعالان فرهنگی قرار خواهد گرفت؟