مرگ زبان‌ها در ویکی‌پدیا؛ هوش مصنوعی، قاتل خاموش میراث فرهنگی

نگار علی
۵ مهر ۱۴۰۴

زمان مطالعه: 4 دقیقه

گزارش‌های تخصصی نشان می‌دهد که افزایش دسترسی به ابزارهای هوش مصنوعی (AI) و ترجمه ماشینی، خطر نابودی دیجیتال زبان‌های کم‌گویشور را به‌شدت افزایش داده و یک «حلقه تباهی زبانی» ایجاد کرده است.

ظهور ابزارهای ترجمه ماشینی پیشرفته و مدل‌های زبان بزرگ (LLMs) نظیر ChatGPT، در کنار پروژه عظیم و چندزبانه ویکی‌پدیا، در حال خلق یک پدیده متناقض و نگران‌کننده است: به‌جای حفظ و تقویت زبان‌های کم‌گویشور، این فناوری‌ها به‌تدریج در حال سوق دادن آن‌ها به سمت یک «حلقه تباهی زبانی» (Linguistic Doom Loop) هستند. این گزارش به بررسی چگونگی تزریق حجم وسیعی از محتوای ترجمه‌شده ماشینی و پراشتباه به ویکی‌پدیا می‌پردازد و تحلیل می‌کند که چگونه آموزش مدل‌های هوش مصنوعی بر پایه این داده‌های آلوده، در نهایت به مرگ دیجیتال این زبان‌ها منجر می‌شود.

فهرست مقاله پنهان

1 فریب یک جامعه: سرگذشت ویکی‌پدیای گرینلندی

2 ویکی‌پدیا منبع اصلی تغذیه هوش مصنوعی

3 حلقه معیوب

4 سوءاستفاده‌های «ربایندگان ویکی‌پدیا» و عدم مسئولیت‌پذیری

5 هزینه‌های انسانی و فرهنگی

6 رقابت با زمان: الگوی موفقیت سامی ایناری

فریب یک جامعه: سرگذشت ویکی‌پدیای گرینلندی

داستان ویکی‌پدیای گرینلندی (زبان بومی حدود ۵۷,۰۰۰ نفر از مردم اینوئیت)، نمونه بارز این معضل است. «کنت وِر» (Kenneth Wehr)، پس از به عهده گرفتن مدیریت ویرایش این زبان در چهار سال پیش، متوجه شد که این دانشنامه، علی‌رغم ظاهر پُرمحتوایش، یک «سراب» است. تقریباً تمام مقالات آن، توسط افرادی نوشته شده بودند که هیچ تسلطی به زبان گرینلندی نداشتند و در طول زمان، حجم عظیمی از محتوا به‌طور مستقیم از طریق ابزارهای ترجمه ماشینی کپی و جای‌گذاری شده بود.

این مقالات پُر از اشتباهات ابتدایی، خطاهای گرامری و حتی اطلاعات غلط فاحش بودند (مانند ادعای یک مقاله که کانادا تنها ۴۱ نفر جمعیت دارد). وِر تأکید می‌کند: «جملات کاملاً بی‌معنی بودند… مترجم‌های هوش مصنوعی در ترجمه گرینلندی بسیار بد عمل می‌کنند.»

او نهایتاً خواستار تعطیلی روند ویرایش شد؛ بنابر گفته وی، این اشتباهات در حال حاضر در مدل‌های ترجمه ماشینی نیز نفوذ کرده‌اند؛ تا جایی که اگر از گوگل ترنسلیت یا ChatGPT خواسته شود به درستی تا ۱۰ بشمارند، هر دو شکست می‌خورند. این تجربه تلخ نشان می‌دهد که چگونه «ورودی اشتباه، خروجی اشتباه» (Garbage In, Garbage Out) در عصر هوش مصنوعی، به معنای نابودی یک میراث زبانی است.

ویکی‌پدیا منبع اصلی تغذیه هوش مصنوعی

این معضل تنها به زبان گرینلندی محدود نیست. ویکی‌پدیا با بیش از ۳۴۰ زبان فعال و ۴۰۰ زبان دیگر در دست توسعه، جاه‌طلبانه‌ترین پروژه چندزبانه است. با فراگیر شدن هوش مصنوعی، ویکی‌پدیا نیز با محتوای خودکار ترجمه‌شده غرق شده است.

آمار نگران‌کننده: داوطلبان فعال در چهار زبان آفریقایی تخمین می‌زنند که بین ۴۰ تا ۶۰ درصد از مقالات زبان آن‌ها، ترجمه‌های ماشینی اصلاح‌نشده هستند.
بررسی‌ها نشان می‌دهد که بیش از دو سوم صفحات زبان اینوکتیتوت (زبان بومی کانادا و نزدیک به گرینلندی) نیز حاوی بخش‌هایی هستند که به این شیوه تولید شده‌اند.

حلقه معیوب

قلب این فاجعه در نحوه عملکرد مدل‌های هوش مصنوعی نهفته است. سیستم‌هایی چون گوگل ترنسلیت و ChatGPT برای «یادگیری» زبان‌های جدید، به جمع‌آوری و تجزیه و تحلیل حجم عظیمی از متون موجود در اینترنت نیاز دارند. برای زبان‌هایی با گویشوران کم، ویکی‌پدیا اغلب بزرگ‌ترین و گاهی تنها منبع داده آنلاین در دسترس است.

به‌عنوان مثال:

در سال ۲۰۲۰، تخمین زده می‌شد که ویکی‌پدیا بیش از نیمی از داده‌های آموزشی مدل‌های ترجمه برای زبان‌هایی چون مالاگاسی، یوروبا و شونا (که میلیون‌ها گویشور دارند) را تشکیل می‌داد.
در سال ۲۰۲۲، محققان آلمانی دریافتند که ویکی‌پدیا تنها منبع داده زبانی قابل دسترس برای ۲۷ زبان فاقد منابع کافی در فضای آنلاین بود.

این وابستگی مفرط به ویکی‌پدیا، به این معناست که هرگونه خطای گرامری یا اطلاعات غلط در صفحات آن، مستقیماً به «چاه‌های داده» مدل‌های هوش مصنوعی تزریق می‌شود. نتیجه این می‌شود که مدل‌ها به‌طور خاص در ترجمه این زبان‌ها بسیار مستعد خطا می‌شوند و کاربران با اتکا به همین ابزارهای معیوب، محتوای ماشینی و غلط بیشتری را وارد ویکی‌پدیا می‌کنند و این چرخه معیوب تداوم می‌یابد.

سوءاستفاده‌های «ربایندگان ویکی‌پدیا» و عدم مسئولیت‌پذیری

هوش مصنوعی به کاربران کم‌تجربه یا افرادی که (Trond Trosterud)، زبان‌شناس محاسباتی، آن‌ها را «ربایندگان ویکی‌پدیا» (Wikipedia Hijackers) می‌نامد، این قدرت را داده است که تنها با چند کلیک، مقالات طولانی‌تر و به ظاهر موجه‌تری تولید کنند. پیش‌تر، آن‌ها تنها با فرهنگ لغت مسلح بودند، اما اکنون مسلح به گوگل ترنسلیت هستند. این امر عملاً «صنعتی‌سازی تخریب» را به ویژه در آسیب‌پذیرترین زبان‌ها به ارمغان آورده است.

دلیل ناکارآمدی هوش مصنوعی در این زبان‌ها متعدد است:

کمبود داده منبع: مقدار کم متن آنلاین.
ساختار زبانی نامناسب: بسیاری از زبان‌های بومی (مانند گرینلندی و اکثر زبان‌های بومی آمریکا) «التصاقی» هستند؛ به این معنا که کلمات از پیوستن پیشوندها و پسوندهای متعدد به یک ریشه ساخته می‌شوند. این ساختار پیچیده، برای سیستم‌های ترجمه ماشینی رایج، چالشی جدی ایجاد می‌کند.

هزینه‌های انسانی و فرهنگی

عبدالقادر، یک برنامه‌ریز کشاورزی از نیجریه، که روزانه سه ساعت را صرف اصلاح ویرایش زبان فولفولده می‌کند (با تخمین ۶۰٪ مقالات ترجمه‌شده ماشینی اصلاح‌نشده)، تأکید می‌کند که محتوای غلط می‌تواند به‌طور مستقیم به کشاورزان در مناطق دورافتاده آسیب بزند. به عنوان مثال، گوگل ترنسلیت کلمه فولفولده برای «ژانویه» را «ژوئن» و ChatGPT آن را «اوت» یا «سپتامبر» ترجمه می‌کند!

همچنین، این پدیده خشم فعالان احیای زبان‌ها را نیز برانگیخته است. نوآ هاآلیلیو سلیمان، استاد زبان هاوایی، با ناراحتی گزارش می‌دهد که حدود ۳۵٪ از کلمات در برخی صفحات ویکی‌پدیا به زبان هاوایی نامفهوم هستند: «این دردناک است، زیرا یادآور تمام دفعاتی است که فرهنگ و زبان ما مورد تصرف قرار گرفته است.»

این محتوای غلط، در حال حاضر در حال نفوذ به محصولات تجاری مانند کتاب‌های الکترونیکی خودکار تولیدشده در آمازون برای یادگیری زبان‌های بومی کانادایی (مانند اینوکتیتوت و کری) نیز هست که توسط زبان‌شناسان به عنوان «کلاهبرداری» (Fraud) توصیف می‌شوند.

رونا باتاچارژی، مدیر ارشد در بنیاد ویکی‌مدیا (گرداننده ویکی‌پدیا)، تأکید دارد که «مسئولیت نهایی» برای جلوگیری از خرابکاری یا فعالیت‌های ناخواسته، بر عهده «جامعه» ویرایش زبان است. با این حال، پرسش حیاتی این است: اگر هیچ جامعه فعالی وجود نداشته باشد، چگونه می‌توان یک اشتباه را اصلاح یا درباره آن شکایت کرد؟ بنیاد ویکی‌مدیا تنها نقش «تأمین فضا» برای رشد زبان‌ها را دارد، حتی اگر آن فضا عملاً خالی از سکنه باشد.

رقابت با زمان: الگوی موفقیت سامی ایناری

تنها راه برون‌رفت از این بن‌بست، تولید محتوای باکیفیت به عنوان یک «رقابت با زمان» است. زبان سامی ایناری (Inari Saami) از فنلاند، یک نمونه الهام‌بخش است. این زبان که در آستانه انقراض بود، اکنون چند صد گویشور دارد و ۶,۴۰۰ مقاله ویکیپدیا در آن وجود دارد که هر یک توسط یک گویشور فصیح ویرایش شده است.

فابریزیو برکیارولی از انجمن زبان سامی ایناری می‌گوید: «ما اهمیتی به کمیت نمی‌دهیم. به کیفیت اهمیت می‌دهیم.» آن‌ها ویکی‌پدیا را به‌عنوان مخزن زبان نوشتاری برای نسل‌های جوان قرار داده‌اند. این موفقیت نشان می‌دهد که با تعهد حداکثری، می‌توان از ویکی‌پدیا به‌عنوان ابزاری منحصربه‌فرد برای حفظ زبان استفاده کرد و با تزریق مواد «خوب» به فضای آنلاین، مدل‌های هوش مصنوعی را مجبور به بهبود عملکردشان کرد.

اما متأسفانه، بسیاری از زبان‌ها شانس سامی ایناری را ندارند. در نهایت، پس از ماه‌ها بحث و جدل، پیشنهاد کنت وِر برای تعطیلی ویکی‌پدیای گرینلندی به دلیل استفاده از ابزارهای هوش مصنوعی که «مکرراً محتوای بی‌معنی تولید کرده‌اند»، پذیرفته شد.

این تصمیم، زنگ خطری جدی برای آینده زبان‌های کم‌تعداد در عصر هوش مصنوعی است. در غیاب یک نظارت فعال و ارتش داوطلب مسلط به زبان، فناوری که قرار بود محافظ میراث فرهنگی باشد، به عاملی تسریع‌کننده برای زوال و نابودی دیجیتال آن‌ها تبدیل شده است. اکنون باید پرسید، چه راهکاری برای جلوگیری از این «انقراض ماشینی» زبان‌ها در دستور کار متخصصان هوش مصنوعی و فعالان فرهنگی قرار خواهد گرفت؟

https://hooshio.com/?p=76226

مرگ زبان‌ها در ویکی‌پدیا؛ هوش مصنوعی، قاتل خاموش میراث فرهنگی

فریب یک جامعه: سرگذشت ویکی‌پدیای گرینلندی

ویکی‌پدیا منبع اصلی تغذیه هوش مصنوعی

حلقه معیوب

سوءاستفاده‌های «ربایندگان ویکی‌پدیا» و عدم مسئولیت‌پذیری

هزینه‌های انسانی و فرهنگی

رقابت با زمان: الگوی موفقیت سامی ایناری

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

چگونه با NotebookLM بهره‌وری خود را صدبرابر کنیم؟

جهش ۳۰۰ درصدی درآمد OpenAI

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

هوش مصنوعی چه معنایی برای مشاغل ما دارد

هوش مصنوعی در دادگاه

هوش مصنوعی بومی زیر ذره‌بین

هوش مصنوعی بومی زیر ذره‌بین

ChatGPT و deepseek در برخی اپراتورها در دسترس قرار گرفتند

معرفی برترین سرویس‌های بومی

بن‌بست هوش مصنوعی بومی در روزهای قطعی اینترنت؛ سخت‌افزار ملی، وعده‌ای که محقق نشد

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

چگونه با NotebookLM بهره‌وری خود را صدبرابر کنیم؟

جهش ۳۰۰ درصدی درآمد OpenAI

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

هوش مصنوعی چه معنایی برای مشاغل ما دارد

هوش مصنوعی در دادگاه

فریب یک جامعه: سرگذشت ویکی‌پدیای گرینلندی

ویکی‌پدیا منبع اصلی تغذیه هوش مصنوعی

حلقه معیوب

سوءاستفاده‌های «ربایندگان ویکی‌پدیا» و عدم مسئولیت‌پذیری

هزینه‌های انسانی و فرهنگی

رقابت با زمان: الگوی موفقیت سامی ایناری

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید