دستاورد جدید بخش هوش مصنوعی فیسبوک: حذف زبان واسط در فرایند ترجمه
چه از آمریکا به حساب کاربری فیسبوک متصل شده باشید و چه از برزیل یا فرانسه، این پلتفرم توانایی ترجمه محتوای تولیدشده به زبان شما را دارد و این کار را با استفاده از ترجمه ماشینی انجام میدهد. درواقع، فیسبوک روزانه حدود 20 میلیارد ترجمه برای بخش خبری خود انجام میدهد. روش کار ترجمه این پلتفرم به این شکل است که زبان انگلیسی را بهعنوان زبان اصلی میشناسد و برای مثال اگر قرار باشد محتوایی را از زبان چینی به فرانسوی ترجمه کند، ابتدا آن را به انگلیسی ترجمه کرده و نسخه انگلیسی را فرانسوی میکند. تابهحال این روش به این دلیل استفاده میشده که دیتاستهای زبان انگلیسی بسیار گسترده بودهاند، اما در این پروسه ترجمه دقت آن به دلیل واسطه بودن زبان انگلیسی بهشدت کاهش پیدا میکند و این همان بخشی است که هوش مصنوعی فیسبوک روی آن تمرکز کرده است.
در مدل جدید توسعه دادهشده توسط هوش مصنوعی فیسبوک دو زبان بهطور مستقیم به یکدیگر ترجمه میشوند و دیگر زبان انگلیسی واسطه نیست. با استفاده از این مدل دقت در ترجمهها بهمراتب افزایش داشته است.
آنجلا فان، یکی از محققان بخش هوش مصنوعی فیسبوک، دراینباره میگوید:«چالش واقعی ما این است که چه سیستم ترجمهای انتخاب کنیم که بتوانیم از طریق آن نیازهای مردم سراسر جهان را برآورده کنیم. پس بهترین راه این است که بتوانیم تمام زبانها را به یکدیگر ترجمه کنیم. برای مثال، در مناطق مختلف دنیا مردم با زبانهای مختلف صحبت میکنند، بسیاری از آنها انگلیسی نیستند و این در حالی است که سیستم ترجمه ما بیشازحد به انگلیسی متکی است و دادههای انگلیسی دارد». طبق آمار از بین میلیاردها پستی که روزانه با 160 زبان متفاوت در فیسبوک بارگذاری میشوند، بیش از دوسوم آنها به زبانی غیر از انگلیسی هستند.
طبق ادعای بخش هوش مصنوعی فیسبوک، مدل ترجمه جدید اولین مدل ترجمه ماشینی است که میتواند بیش از 100 زبان دنیا را بهطور مستقیم و بدون وجود واسطه به یکدیگر ترجمه کند. برای این منظور حدود 7.5 میلیارد جمله به 100 زبان مختلف دنیا به دادهها آموزش داده شدند. با استفاده از این دادهها مدل ترجمه جهانی جدیدی با بیش از 15 میلیارد پارامتر ایجادشده است که میتواند اطلاعات را به زبانی دریافت کند و با زبانی دیگر تحویل دهد.
نوآوری این دادههای مختلف از سراسر دنیا برای فیسبوک امری سخت بوده که البته این شرکت آن را با روشی نوین و خاص انجام داده است. فان میگوید:«بسیاری از این دادهها حاصل سالها تلاش ما در مرکز تحقیقات هوش مصنوعی فیسبوک بوده است. انجام آن هم مانند سرهم کردن تکههای مختلفی از یک لِگو بوده است».
برای شروع تیم هوش مصنوعی فیسبوک CommonCrawl را به خدمت گرفت و از مخزن دادههای آنکه از طریق خزیدن در وبسایتها بهدستآمده بود، استفاده کرد. در این مخزن نمونههای بسیاری از نمونههای متنی وجود داشته است. بعدازآن از FastText برای شناسایی زبان هر نوشته استفاده کرد تا بتواند زبانها را در سیستمی کلاسهبندی کند. فان میگوید:«این بخش مربوط به شناسایی زبان نوشته است. برای این کار متون زیادی را جمعآوری کردیم که به زبانهای مختلف هم بودند. هدف بعدی این بود که متنی را شناسایی کنیم که باید ترجمه شود. عموماً مردم از نیروی انسانی برای ترجمه زبانها استفاده میکنند و دادههای مربوط به ترجمه را میسازند. اما در مقیاس وسیع انجام این کار بسیار سخت است، برای مثال اینکه کسی را پیدا کنیم که هم به زبان انگلیسی مسلط باشد و هم زبان تامیلی (زبان مردمی خاص در هندوستان و سریلانکا) سخت، اما شدنی است. اما اینکه کسی را پیدا کنیم که فرانسوی و تامیلی صحبت کند کار آسانی نیست. در زبانهای غیر انگلیسی، ترجمه هنوز نیاز به پیشرفت زیادی دارد».
برای تأمین این دادههای موردنیاز آنهم به مقیاس وسیع، تیم فان بهره زیادی از سیستم «لیزر» برده است:«این سیستم جملات را میخواند، متن را تشخیص میدهد و آن را تبدیل به یک ارائه به زبان ریاضی میکند و آن را با متنی که ساختار ریاضی مشابه دارد تطبیق میدهد. پس اگر یک جمله به چینی و فرانسوی داشته باشیم و معنی آنها یکی باشد، نمونه ریاضی آنها مطابق هم خواهد بود. وقتی نمونههای ریاضی تطبیق داده میشوند، بخشهایی که همخوانی دارند، همان بخشهایی هستند که به جمله ما مربوط بوده و ترجمه میشوند».
البته محتوای تولیدشده به بسیاری از زبانها در اینترنت کمیاب هستند. در این شرایط تیم فان با تکیه بر دادههایی که با استفاده از نیروی انسانی تهیهشده، کارشان را پیش بردند. فان اینطور توضیح میدهد:«اگر هدف من ترجمه از زبان چینی به فرانسوی باشد، اما به هر دلیلی ترجمه کیفیت مطلوب را نداشته باشد، سیستم به دادههای تکزبانه رجوع میکند. کاری که میکنم این است که یک سیستم معکوس را آموزش میدهم، یعنی از فرانسوی به چینی. در این شرایط دادههای فرانسویام را بهطور کامل از وبسایتها جمعآوری میکنم و آن را به زبان چینی ترجمه میکنم».
دادههای مصنوعی زیادی هم با این روش آموزش دادهشدهاند. فان در ادامه میگوید:«درنتیجه در من متونی که به فرانسوی ترجمه شدند، کلمات چینی که با متن اولیه مطابقت دارند را پیداکرده و از این طریق ترجمه را انجام میدهم. به این دلیل که این کار باعث میشود دادههای بسیار زیاد دیگری به دست آید، درنتیجه سیستم قویتر هم میشود».
طبق ادعای فان، موفقیت کل این پروژه بستگی به این موضوع دارد که هوش مصنوعی چه میزان منابع مفید در اختیار خواهد داشت. برای زبانهایی مانند فرانسوی، چینی، آلمانی، اسپانیایی و هندی، طبیعتاً منابع بسیار وسیع هستند و درواقع مردم متون زیادی به این زبانها در اینترنت منتشر کردهاند. این متون میتوانند تبدیل به دادههای مدل فیسبوک شوند و آن را قویتر کنند.
فان میگوید:«من بهشخصه بخشهای زیادی را یافتم که در آن نیاز به پیشرفت شدیداً محسوس است. دلیلش هم این بوده که منابع زبانی آن بسیار محدود بوده است. برای زبانهای آفریقایی ما در آفریقایی و سواحلی بسیار خوب کار کردیم، اما در زبانی مانند زولو جای پیشرفت زیادی داریم. درواقع زبانهایی از این قبیل برای ما چالشی جدید هستند که باید با آن مواجه شویم».
جالب اینجاست که فیسبوک تحقیقاتش درزمینهٔ دیتاست، مدل، آموزش داده و ارزیابی تنظیمات را بهعنوان منبعی آزاد در دسترس جامعه محققین قرار داده تا زمینهای برای پیشرفتهای بیشتر آینده هم باشد. این شرکت همچنین تصمیم دارد سیستم جدیدش را توسعه دهد و درنهایت از آن برای استفاده در پلتفرم خودش استفاده کند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید.