Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 مرگ زبان‌ها در ویکی‌پدیا؛ هوش مصنوعی، قاتل خاموش میراث فرهنگی

مرگ زبان‌ها در ویکی‌پدیا؛ هوش مصنوعی، قاتل خاموش میراث فرهنگی

زمان مطالعه: 4 دقیقه

گزارش‌های تخصصی نشان می‌دهد که افزایش دسترسی به ابزارهای هوش مصنوعی (AI) و ترجمه ماشینی، خطر نابودی دیجیتال زبان‌های کم‌گویشور را به‌شدت افزایش داده و یک «حلقه تباهی زبانی» ایجاد کرده است.

ظهور ابزارهای ترجمه ماشینی پیشرفته و مدل‌های زبان بزرگ (LLMs) نظیر ChatGPT، در کنار پروژه عظیم و چندزبانه ویکی‌پدیا، در حال خلق یک پدیده متناقض و نگران‌کننده است: به‌جای حفظ و تقویت زبان‌های کم‌گویشور، این فناوری‌ها به‌تدریج در حال سوق دادن آن‌ها به سمت یک «حلقه تباهی زبانی» (Linguistic Doom Loop) هستند. این گزارش به بررسی چگونگی تزریق حجم وسیعی از محتوای ترجمه‌شده ماشینی و پراشتباه به ویکی‌پدیا می‌پردازد و تحلیل می‌کند که چگونه آموزش مدل‌های هوش مصنوعی بر پایه این داده‌های آلوده، در نهایت به مرگ دیجیتال این زبان‌ها منجر می‌شود.

فریب یک جامعه: سرگذشت ویکی‌پدیای گرینلندی

داستان ویکی‌پدیای گرینلندی (زبان بومی حدود ۵۷,۰۰۰ نفر از مردم اینوئیت)، نمونه بارز این معضل است. «کنت وِر» (Kenneth Wehr)، پس از به عهده گرفتن مدیریت ویرایش این زبان در چهار سال پیش، متوجه شد که این دانشنامه، علی‌رغم ظاهر پُرمحتوایش، یک «سراب» است. تقریباً تمام مقالات آن، توسط افرادی نوشته شده بودند که هیچ تسلطی به زبان گرینلندی نداشتند و در طول زمان، حجم عظیمی از محتوا به‌طور مستقیم از طریق ابزارهای ترجمه ماشینی کپی و جای‌گذاری شده بود.

این مقالات پُر از اشتباهات ابتدایی، خطاهای گرامری و حتی اطلاعات غلط فاحش بودند (مانند ادعای یک مقاله که کانادا تنها ۴۱ نفر جمعیت دارد). وِر تأکید می‌کند: «جملات کاملاً بی‌معنی بودند… مترجم‌های هوش مصنوعی در ترجمه گرینلندی بسیار بد عمل می‌کنند.»

او نهایتاً خواستار تعطیلی روند ویرایش شد؛ بنابر گفته وی، این اشتباهات در حال حاضر در مدل‌های ترجمه ماشینی نیز نفوذ کرده‌اند؛ تا جایی که اگر از گوگل ترنسلیت یا ChatGPT خواسته شود به درستی تا ۱۰ بشمارند، هر دو شکست می‌خورند. این تجربه تلخ نشان می‌دهد که چگونه «ورودی اشتباه، خروجی اشتباه» (Garbage In, Garbage Out) در عصر هوش مصنوعی، به معنای نابودی یک میراث زبانی است.

ویکی‌پدیا منبع اصلی تغذیه هوش مصنوعی

این معضل تنها به زبان گرینلندی محدود نیست. ویکی‌پدیا با بیش از ۳۴۰ زبان فعال و ۴۰۰ زبان دیگر در دست توسعه، جاه‌طلبانه‌ترین پروژه چندزبانه است. با فراگیر شدن هوش مصنوعی، ویکی‌پدیا نیز با محتوای خودکار ترجمه‌شده غرق شده است.

  • آمار نگران‌کننده: داوطلبان فعال در چهار زبان آفریقایی تخمین می‌زنند که بین ۴۰ تا ۶۰ درصد از مقالات زبان آن‌ها، ترجمه‌های ماشینی اصلاح‌نشده هستند.
  • بررسی‌ها نشان می‌دهد که بیش از دو سوم صفحات زبان اینوکتیتوت (زبان بومی کانادا و نزدیک به گرینلندی) نیز حاوی بخش‌هایی هستند که به این شیوه تولید شده‌اند.

حلقه معیوب

قلب این فاجعه در نحوه عملکرد مدل‌های هوش مصنوعی نهفته است. سیستم‌هایی چون گوگل ترنسلیت و ChatGPT برای «یادگیری» زبان‌های جدید، به جمع‌آوری و تجزیه و تحلیل حجم عظیمی از متون موجود در اینترنت نیاز دارند. برای زبان‌هایی با گویشوران کم، ویکی‌پدیا اغلب بزرگ‌ترین و گاهی تنها منبع داده آنلاین در دسترس است.

به‌عنوان مثال:

  • در سال ۲۰۲۰، تخمین زده می‌شد که ویکی‌پدیا بیش از نیمی از داده‌های آموزشی مدل‌های ترجمه برای زبان‌هایی چون مالاگاسی، یوروبا و شونا (که میلیون‌ها گویشور دارند) را تشکیل می‌داد.
  • در سال ۲۰۲۲، محققان آلمانی دریافتند که ویکی‌پدیا تنها منبع داده زبانی قابل دسترس برای ۲۷ زبان فاقد منابع کافی در فضای آنلاین بود.

این وابستگی مفرط به ویکی‌پدیا، به این معناست که هرگونه خطای گرامری یا اطلاعات غلط در صفحات آن، مستقیماً به «چاه‌های داده» مدل‌های هوش مصنوعی تزریق می‌شود. نتیجه این می‌شود که مدل‌ها به‌طور خاص در ترجمه این زبان‌ها بسیار مستعد خطا می‌شوند و کاربران با اتکا به همین ابزارهای معیوب، محتوای ماشینی و غلط بیشتری را وارد ویکی‌پدیا می‌کنند و این چرخه معیوب تداوم می‌یابد.

سوءاستفاده‌های «ربایندگان ویکی‌پدیا» و عدم مسئولیت‌پذیری

هوش مصنوعی به کاربران کم‌تجربه یا افرادی که (Trond Trosterud)، زبان‌شناس محاسباتی، آن‌ها را «ربایندگان ویکی‌پدیا» (Wikipedia Hijackers) می‌نامد، این قدرت را داده است که تنها با چند کلیک، مقالات طولانی‌تر و به ظاهر موجه‌تری تولید کنند. پیش‌تر، آن‌ها تنها با فرهنگ لغت مسلح بودند، اما اکنون مسلح به گوگل ترنسلیت هستند. این امر عملاً «صنعتی‌سازی تخریب» را به ویژه در آسیب‌پذیرترین زبان‌ها به ارمغان آورده است.

دلیل ناکارآمدی هوش مصنوعی در این زبان‌ها متعدد است:

  1. کمبود داده منبع: مقدار کم متن آنلاین.
  2. ساختار زبانی نامناسب: بسیاری از زبان‌های بومی (مانند گرینلندی و اکثر زبان‌های بومی آمریکا) «التصاقی» هستند؛ به این معنا که کلمات از پیوستن پیشوندها و پسوندهای متعدد به یک ریشه ساخته می‌شوند. این ساختار پیچیده، برای سیستم‌های ترجمه ماشینی رایج، چالشی جدی ایجاد می‌کند.

هزینه‌های انسانی و فرهنگی

عبدالقادر، یک برنامه‌ریز کشاورزی از نیجریه، که روزانه سه ساعت را صرف اصلاح ویرایش زبان فولفولده می‌کند (با تخمین ۶۰٪ مقالات ترجمه‌شده ماشینی اصلاح‌نشده)، تأکید می‌کند که محتوای غلط می‌تواند به‌طور مستقیم به کشاورزان در مناطق دورافتاده آسیب بزند. به عنوان مثال، گوگل ترنسلیت کلمه فولفولده برای «ژانویه» را «ژوئن» و ChatGPT آن را «اوت» یا «سپتامبر» ترجمه می‌کند!

همچنین، این پدیده خشم فعالان احیای زبان‌ها را نیز برانگیخته است. نوآ هاآلیلیو سلیمان، استاد زبان هاوایی، با ناراحتی گزارش می‌دهد که حدود ۳۵٪ از کلمات در برخی صفحات ویکی‌پدیا به زبان هاوایی نامفهوم هستند: «این دردناک است، زیرا یادآور تمام دفعاتی است که فرهنگ و زبان ما مورد تصرف قرار گرفته است.»

این محتوای غلط، در حال حاضر در حال نفوذ به محصولات تجاری مانند کتاب‌های الکترونیکی خودکار تولیدشده در آمازون برای یادگیری زبان‌های بومی کانادایی (مانند اینوکتیتوت و کری) نیز هست که توسط زبان‌شناسان به عنوان «کلاهبرداری» (Fraud) توصیف می‌شوند.

رونا باتاچارژی، مدیر ارشد در بنیاد ویکی‌مدیا (گرداننده ویکی‌پدیا)، تأکید دارد که «مسئولیت نهایی» برای جلوگیری از خرابکاری یا فعالیت‌های ناخواسته، بر عهده «جامعه» ویرایش زبان است. با این حال، پرسش حیاتی این است: اگر هیچ جامعه فعالی وجود نداشته باشد، چگونه می‌توان یک اشتباه را اصلاح یا درباره آن شکایت کرد؟ بنیاد ویکی‌مدیا تنها نقش «تأمین فضا» برای رشد زبان‌ها را دارد، حتی اگر آن فضا عملاً خالی از سکنه باشد.

رقابت با زمان: الگوی موفقیت سامی ایناری

تنها راه برون‌رفت از این بن‌بست، تولید محتوای باکیفیت به عنوان یک «رقابت با زمان» است. زبان سامی ایناری (Inari Saami) از فنلاند، یک نمونه الهام‌بخش است. این زبان که در آستانه انقراض بود، اکنون چند صد گویشور دارد و ۶,۴۰۰ مقاله ویکیپدیا در آن وجود دارد که هر یک توسط یک گویشور فصیح ویرایش شده است.

فابریزیو برکیارولی از انجمن زبان سامی ایناری می‌گوید: «ما اهمیتی به کمیت نمی‌دهیم. به کیفیت اهمیت می‌دهیم.» آن‌ها ویکی‌پدیا را به‌عنوان مخزن زبان نوشتاری برای نسل‌های جوان قرار داده‌اند. این موفقیت نشان می‌دهد که با تعهد حداکثری، می‌توان از ویکی‌پدیا به‌عنوان ابزاری منحصربه‌فرد برای حفظ زبان استفاده کرد و با تزریق مواد «خوب» به فضای آنلاین، مدل‌های هوش مصنوعی را مجبور به بهبود عملکردشان کرد.

اما متأسفانه، بسیاری از زبان‌ها شانس سامی ایناری را ندارند. در نهایت، پس از ماه‌ها بحث و جدل، پیشنهاد کنت وِر برای تعطیلی ویکی‌پدیای گرینلندی به دلیل استفاده از ابزارهای هوش مصنوعی که «مکرراً محتوای بی‌معنی تولید کرده‌اند»، پذیرفته شد.

این تصمیم، زنگ خطری جدی برای آینده زبان‌های کم‌تعداد در عصر هوش مصنوعی است. در غیاب یک نظارت فعال و ارتش داوطلب مسلط به زبان، فناوری که قرار بود محافظ میراث فرهنگی باشد، به عاملی تسریع‌کننده برای زوال و نابودی دیجیتال آن‌ها تبدیل شده است. اکنون باید پرسید، چه راهکاری برای جلوگیری از این «انقراض ماشینی» زبان‌ها در دستور کار متخصصان هوش مصنوعی و فعالان فرهنگی قرار خواهد گرفت؟

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]