ElevenLabs صدای نخستوزیر هند را به جهان رساند
پادکست سهساعتهای که با حضور دانشمند علوم کامپیوتر، «لکس فریدمن» و «نخستوزیر نارندرا مودی» برگزار شد، توجه گستردهای را به خود جلب کرد. این گفتوگو که به زبانهای هندی، انگلیسی و حتی روسی پخش شد، از سوی بسیاری بهعنوان «بهترین دوبله» تا به امروز توصیف شده است. ترجمههای بسیار واقعی و طبیعی این گفتگو که تقریباً از صدای اصلی قابلتشخیص نبودند، با کمک فناوری شرکت ElevenLabs (یک استارتاپ هوش مصنوعی)، انجام شد.
شکست صد زبانی
هرچند این نخستین بار نیست که نخستوزیر مودی از فناوری هوش مصنوعی برای ترجمه استفاده میکند، اما این پروژه فرصتی کلیدی برای ElevenLabs بود تا فناوری خود را در خدمت رهبران جهانی و برای مخاطبان چندزبانه به نمایش بگذارد.
«سیدهارت سرینیواسان»، مدیر شعبه هند شرکت ElevenLabs، در گفتوگویی عنوان کرد که هند در حال حاضر بزرگترین بازار این شرکت محسوب میشود و ElevenLabs بهطور فعال در حال گسترش تیم خود در کشور است تا آینده رابطهای صوتی مبتنی بر هوش مصنوعی را رقم بزند.
او معتقد است که فرصتهای پیشروی چنین فناوریای در کشوری مانند هند (با تنوع زبانی بالا و نیاز به دسترسیپذیری گسترده) بسیار عظیم است.
سرینیواسان فاش کرد که تیم آنها در هند به زودی به ۱۰ نفر میرسد و تمرکز فعلی بیشتر بر روی نقشهای مرتبط با کسبوکار است. همچنین، برنامههایی برای توسعه بیشتر در آینده نیز در دستور کار قرار دارد.
این روند با موج جدیدی از گسترش حضور آزمایشگاهها و استارتاپهای غربی در هند همراستا است. گفته میشود شرکتهایی مانند OpenAI و Perplexity هم به زودی فعالیت خود را در هند آغاز خواهند کرد.
ماه گذشته، این استارتاپ لهستانی در دور جدیدی از جذب سرمایه، موفق شد ۱۰۸ میلیون دلار با ارزشی معادل ۳.۳ میلیارد دلار جذب کند. ElevenLabs فعالیت خود را در آوریل ۲۰۲۲، به عنوان پروژهای آخرهفتهای آغاز کرد، زمانی که بنیانگذاران ماتی استانیشفسکی و پیوتر دابکوفسکی تصمیم گرفتند مشکل دوبلههای ضعیف را با شبیهسازی واقعگرایانه صدا حل کنند.
اهمیت رابط کاربری صوتی
در حالی که رقابت شدیدی در فضای هوش مصنوعی صوتی وجود دارد و شرکتهای بزرگ تکنولوژی نیز وارد این عرصه شدهاند، مزیت ElevenLabs در بازار هند، دقت بالای آن در پوشش لهجهها و زبانهای مختلف کشور است.
این شرکت چندین مدل مختلف برای فناوری صوتی خود ارائه میدهد که هر کدام برای کاربردهای خاصی مانند تبدیل متن به گفتار (TTS) و گفتار به متن (STT) طراحی شدهاند.
سرینیواسان اضافه کرد: «ما سریعترین مدل جهان را در زبانهای هندی داریم که در حوزه گفتار به متن فعالیت میکند.»
در حال حاضر، ElevenLabs از ۱۱ زبان هندی پشتیبانی میکند و برنامههایی برای گسترش بیشتر نیز دارد. با این حال، سرینیواسان اشاره کرد: «اگر شما حدود ۸ تا ۱۱ زبان را در هر دو سمت (ورودی و خروجی) داشته باشید، میتوانید ۷۰ درصد از هند را پوشش دهید.»
یکی از چالشهای آشکار، محدود بودن دادههای دیجیتال برای بسیاری از زبانهای هندی است. ElevenLabs برای مقابله با این موضوع، در حال ساخت دیتاستهایی از طریق مشارکتهای استراتژیک و همکاریهای اجتماعی است.
شرکت Eleven Labs با توسعه مدلهای چندزبانه خود، توانسته تأثیر چشمگیری بر صنایع محتوا، آموزش و خدمات مشتریان در هند و فراتر از آن بگذارد. مدل تبدیل متن به گفتار (TTS) این شرکت از ۲۹ زبان با خروجیهایی با صداهای واقعگرایانه و احساسی پشتیبانی میکند. همچنین، مدل هوش مصنوعی مکالمهای آن توانایی پاسخگویی به ۳۲ زبان را دارد و امکان گفتوگوهای طبیعی و بلادرنگ را فراهم کرده است. مدل تبدیل گفتار به متن پیشرفته این شرکت نیز در ۹۹ زبان، از جمله ۱۱ زبان هندی قابل استفاده است.
رشد اقتصاد خلاق در هند
شرکت ElevenLabs فناوری خود را به طور مؤثری به محصول تبدیل کرده تا نیازهای تولیدکنندگان محتوا و توسعهدهندگان را برآورده کند. رابط برنامهنویسی (API) آنها کاربرپسند است و امکان یکپارچهسازی در مقیاس بزرگ را فراهم میآورد. این امر برای توسعهدهندگان و کسبوکارهای در جستجوی راهکارهای مقیاسپذیر جذاب است.
به طور کلی پادکسترها یکی از مخاطبان اصلی این شرکت محسوب میشوند. علاوه بر فریدمن (Fridman)، وارون مایا (Varun Mayya)، پادکستر هندی حوزه فناوری نیز از فناوریهای ElevenLabs برای برند شخصی خود و سایر شرکتها استفاده میکند.
همچنین این شرکت با اندرو هوبرمن (Andrew Huberman)، عصبشناس و پادکستر همکاری کرده تا محتوای پادکست هوبرمن لَب (Huberman Lab) را به زبانهای هندی و اسپانیایی دوبله کند. همکاری آنها با اسپاتیفای (Spotify) نیز به تولید کتابهای صوتی روایتشده توسط هوش مصنوعی کمک کرده است.
سرینیواسان (Srinivasan) اشاره کرد که استار اسپورتس (Star Sports) چگونه از این فناوری برای دوبله صدای استیو اسمیت (Steve Smith) به زبانهای هندی و تامیل و بومیسازی محتوای کریکت برای مخاطبان گستردهتر استفاده میکند.
در زمینه ویژگیها و همکاریهای جدید، اِلوِن لَبز سال گذشته ژن اف ام (GenFM) را راهاندازی کرد؛ ویژگی خاصی که مشابه نوتبوک اِلام (NotebookLM) گوگل است و برای پادکستهای چندگوینده طراحی شده است. همچنین این شرکت با پاکت اف ام (Pocket FM) همکاری کرده تا به نویسندگان کمک کند داستانهای خود را به محتوای صوتی تبدیل کنند.
علاوه بر بازار تولید محتوا، صنایعی که در هند مورد توجه این شرکت قرار دارند شامل پشتیبانی از مشتریان و آموزش میشوند. اخیراً این شرکت به عنوان بخشی از تور جهانی خود، یک هکاتون در بنگلور برگزار کرد که هند بالاترین تعداد ثبتنامکننده را در آن داشت.
پروژههای به نمایش درآمده شامل یک عامل هوش مصنوعی برای پشتیبانی عاطفی، یک چارچوب ویدیویی هوش مصنوعی با نقشهای مشخصشده برای تولید محتوا و یک راهحل هوش مصنوعی صوتی برای مناطق روستایی هند بهمنظور افزایش دسترسی در مناطقی بود که چتباتها محدود هستند.
آیندهی هوش مصنوعی تکقطبی نخواهد بود
سرینیواسان که دارای ده سال سابقه کار در یوتیوب است، بهخوبی اکوسیستم تولیدکنندگان محتوا در این کشور را درک میکند. او معتقد است آینده هوش مصنوعی تنها به یک رابط محدود نخواهد شد؛ اگرچه صوت همواره یکی از ارکان اصلی آن باقی خواهد ماند.
او به روند مداومی در رسانه و فناوری اشاره کرد که بهسمت تعاملات چندوجهی حرکت میکند و حتی در آینده نیز مردم با هوش مصنوعی از طریق صدا، متن، ویدیو و تصاویر در تعامل خواهند بود. او گفت: «حتی پیش از ظهور هوش مصنوعی مولد، مردم با فناوریهایی مانند الکسا، گوگل اسیستنت و سیری در تعامل بودند.»
با این حال، او اطمینان دارد که صدا طبیعیترین رابط باقی خواهد ماند، زیرا همچنان ابتداییترین و پرکاربردترین شکل ارتباط است که عمیقاً در تعاملات مصرفکننده و کسبوکارها ریشه دارد. همچنین سرینیواسان به ریسکهای مرتبط با دیپفیک اشاره کرد و تأکید کرد که ElevenLabs از روشهایی مانند نظارت، کسب اجازهی رسمی و قابلیت رهگیری برای جلوگیری از سوءاستفاده استفاده میکند.