امکان برقراری ارتباط به 100 زبان مختلف با آخرین مدل هوش مصنوعی متا
متا بهعنوان بخشی از تلاش گستردهتر خود برای حذف موانع زبانی و حفظ ارتباط میان افراد، یک مدل پایه چندزبانه ایجاد کرده که میتواند نزدیک به 100 زبان را از گفتار یا متن درک کند و ترجمههایی را به یک یا دو زبان مختلف در زمان واقعی ایجاد نماید.
به گزارش هوشیو، این فناوری چندوجهی که SeamlessM4T نام دارد، بهصورت عمومی منتشر شده است تا به محققان کمک نماید، بر روی توسعه و معرفی برنامههای کاربردی جهانی با قابلیت ارائه ترجمه گفتار به گفتار، گفتار به نوشتار، متن به گفتار و متن به متن کار کنند. این مجموعه همراه با SeamlessAlign؛ یک مجموعه داده ترجمه چندوجهی که از مجموع 265000 ساعت گفتار و متن استخراج شده، در دسترس قرار گرفته است.
این یک پیشرفت قابلتوجه در کاربردهای هوش مصنوعی در زمینه زبانشناسی را نشان میدهد، زیرا یک سیستم واحد است که میتواند چندین کار مرتبط با گفتار و متن را انجام دهد، در حالی که رویکردهای قبلی به سیستمهای مختلفی برای انجام هر کار نیاز داشتند، به عنوان مثال یک سیستم اختصاصی برای ترجمه گفتار به گفتار.
SeamlessM4T چه کاری میتواند انجام دهد؟
همانطور که Meta توضیح میدهد، SeamlessM4T قادر است به طور ضمنی زبان مبدأ را بدون نیاز به مدل شناسایی زبانی جداگانه تشخیص دهد. این مدل میتواند گفتار و متن را در نزدیک به 100 زبان تشخیص دهد و متن را با همین تعداد و گفتار را به 36 زبان مختلف تولید نماید. نکته جالبتر اینکه SeamlessM4T میتواند تشخیص دهد، چه زمانی بیش از یک زبان در یک جمله ترکیب شده و ترجمههایی را بر اساس زبان هدفمندی که از او خواسته شده، ارائه نماید. در حالی که سیستمهای قبلی برای هر کار به رویکردهای متفاوتی نیاز داشتند.
آزمایش با BLASER 2.0، ابزاری برای ارزیابی واحدهای گفتار و متن، نشان داد که این مدل نسبت به مدلهای پیشرفته فعلی برای ترجمه گفتار به نوشتار بهتر عمل میکند. به طور مشخص، این مدل در مواجهه با نویز پسزمینه و تغییرات بلندگو، به ترتیب با میانگین پیشرفتهای 37 و 48 درصدی، عملکرد بهتری داشت.
متا در یک پست وبلاگی نوشت:«SeamlessM4T از رقبای پیشرفته قبلی بهتر عمل میکند و به طرز قابلتوجهی عملکرد آن در ترجمه زبانهایی با منابع کم و متوسط، بهبود بخشیده شده. علاوه بر این عملکرد قوی خود را در زبانهای با منابع بالا (مانند انگلیسی) حفظ کرده است.»
در صورت توسعه، این مدل میتواند منجر به ایجاد به سیستمهای ترجمه جهانی در مقیاس بزرگ شود و به افرادی که به زبانهای مختلف صحبت میکنند اجازه میدهد، به گونه مؤثرتری با یکدیگر ارتباط برقرار نمایند.
قابل ذکر است، گوگل نیز در این زمینه فعالیت میکند و در این راستا مدل جهانی گفتار (USM) خود را معرفی کرده که میتواند تشخیص خودکار گفتار (ASR) را نهتنها برای زبانهای رایج، بلکه برای زبانهای غیرمعمول نیز انجام دهد.