Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 ElevenLabs صدای نخست‌وزیر هند را به جهان رساند

ElevenLabs صدای نخست‌وزیر هند را به جهان رساند

زمان مطالعه: 4 دقیقه

پادکست سه‌ساعته‌‌ای که با حضور دانشمند علوم کامپیوتر، «لکس فریدمن» و «نخست‌وزیر نارندرا مودی» برگزار شد، توجه گسترده‌ای را به خود جلب کرد. این گفت‌وگو که به زبان‌های هندی، انگلیسی و حتی روسی پخش شد، از سوی بسیاری به‌عنوان «بهترین دوبله» تا به امروز توصیف شده است. ترجمه‌های بسیار واقعی و طبیعی این گفتگو که تقریباً از صدای اصلی قابل‌تشخیص نبودند، با کمک فناوری شرکت ElevenLabs (یک استارتاپ هوش مصنوعی)، انجام شد.

شکست صد زبانی

هرچند این نخستین بار نیست که نخست‌وزیر مودی از فناوری هوش مصنوعی برای ترجمه استفاده می‌کند، اما این پروژه فرصتی کلیدی برای ElevenLabs بود تا فناوری خود را در خدمت رهبران جهانی و برای مخاطبان چندزبانه به نمایش بگذارد.

«سیدهارت سرینیواسان»، مدیر شعبه هند شرکت ElevenLabs، در گفت‌وگویی عنوان کرد که هند در حال حاضر بزرگ‌ترین بازار این شرکت محسوب می‌شود و ElevenLabs به‌طور فعال در حال گسترش تیم خود در کشور است تا آینده رابط‌های صوتی مبتنی بر هوش مصنوعی را رقم بزند.

او معتقد است که فرصت‌های پیش‌روی چنین فناوری‌ای در کشوری مانند هند (با تنوع زبانی بالا و نیاز به دسترسی‌پذیری گسترده) بسیار عظیم است.

سرینیواسان فاش کرد که تیم آنها در هند به زودی به ۱۰ نفر می‌رسد و تمرکز فعلی بیشتر بر روی نقش‌های مرتبط با کسب‌وکار است. همچنین، برنامه‌هایی برای توسعه بیشتر در آینده نیز در دستور کار قرار دارد.

این روند با موج جدیدی از گسترش حضور آزمایشگاه‌ها و استارتاپ‌های غربی در هند هم‌راستا است. گفته می‌شود شرکت‌هایی مانند OpenAI و Perplexity هم به زودی فعالیت خود را در هند آغاز خواهند کرد.

ماه گذشته، این استارتاپ لهستانی در دور جدیدی از جذب سرمایه، موفق شد ۱۰۸ میلیون دلار با ارزشی معادل ۳.۳ میلیارد دلار جذب کند. ElevenLabs فعالیت خود را در آوریل ۲۰۲۲، به عنوان پروژه‌ای آخرهفته‌ای آغاز کرد، زمانی که بنیان‌گذاران ماتی استانیشفسکی و پیوتر دابکوفسکی تصمیم گرفتند مشکل دوبله‌های ضعیف را با شبیه‌سازی واقع‌گرایانه صدا حل کنند.

اهمیت رابط کاربری صوتی

در حالی که رقابت شدیدی در فضای هوش مصنوعی صوتی وجود دارد و شرکت‌های بزرگ تکنولوژی نیز وارد این عرصه شده‌اند، مزیت ElevenLabs در بازار هند، دقت بالای آن در پوشش لهجه‌ها و زبان‌های مختلف کشور است.

این شرکت چندین مدل مختلف برای فناوری صوتی خود ارائه می‌دهد که هر کدام برای کاربردهای خاصی مانند تبدیل متن به گفتار (TTS) و گفتار به متن (STT) طراحی شده‌اند.

سرینیواسان اضافه کرد: «ما سریع‌ترین مدل جهان را در زبان‌های هندی داریم که در حوزه گفتار به متن فعالیت می‌کند.»

در حال حاضر، ElevenLabs از ۱۱ زبان هندی پشتیبانی می‌کند و برنامه‌هایی برای گسترش بیشتر نیز دارد. با این حال، سرینیواسان اشاره کرد: «اگر شما حدود ۸ تا ۱۱ زبان را در هر دو سمت (ورودی و خروجی) داشته باشید، می‌توانید ۷۰ درصد از هند را پوشش دهید.»

یکی از چالش‌های آشکار، محدود بودن داده‌های دیجیتال برای بسیاری از زبان‌های هندی است. ElevenLabs برای مقابله با این موضوع، در حال ساخت دیتاست‌هایی از طریق مشارکت‌های استراتژیک و همکاری‌های اجتماعی است.

شرکت Eleven Labs با توسعه مدل‌های چندزبانه خود، توانسته تأثیر چشمگیری بر صنایع محتوا، آموزش و خدمات مشتریان در هند و فراتر از آن بگذارد. مدل تبدیل متن به گفتار (TTS) این شرکت از ۲۹ زبان با خروجی‌هایی با صداهای واقع‌گرایانه و احساسی پشتیبانی می‌کند. همچنین، مدل هوش مصنوعی مکالمه‌ای آن توانایی پاسخ‌گویی به ۳۲ زبان را دارد و امکان گفت‌وگوهای طبیعی و بلادرنگ را فراهم کرده است. مدل تبدیل گفتار به متن پیشرفته این شرکت نیز در ۹۹ زبان، از جمله ۱۱ زبان هندی قابل استفاده است.

رشد اقتصاد خلاق در هند

شرکت ElevenLabs فناوری خود را به طور مؤثری به محصول تبدیل کرده تا نیازهای تولیدکنندگان محتوا و توسعه‌دهندگان را برآورده کند. رابط برنامه‌نویسی (API) آنها کاربرپسند است و امکان یکپارچه‌سازی در مقیاس بزرگ را فراهم می‌آورد. این امر برای توسعه‌دهندگان و کسب‌وکارهای در جستجوی راهکارهای مقیاس‌پذیر جذاب است.

به طور کلی پادکسترها یکی از مخاطبان اصلی این شرکت محسوب می‌شوند. علاوه بر فریدمن (Fridman)، وارون مایا (Varun Mayya)، پادکستر هندی حوزه فناوری نیز از فناوری‌های ElevenLabs برای برند شخصی خود و سایر شرکت‌ها استفاده می‌کند.

همچنین این شرکت با اندرو هوبرمن (Andrew Huberman)، عصب‌شناس و پادکستر همکاری کرده تا محتوای پادکست هوبرمن لَب (Huberman Lab) را به زبان‌های هندی و اسپانیایی دوبله کند. همکاری آنها با اسپاتیفای (Spotify) نیز به تولید کتاب‌های صوتی روایت‌شده توسط هوش مصنوعی کمک کرده است.

سرینیواسان (Srinivasan) اشاره کرد که استار اسپورتس (Star Sports) چگونه از این فناوری برای دوبله صدای استیو اسمیت (Steve Smith) به زبان‌های هندی و تامیل و بومی‌سازی محتوای کریکت برای مخاطبان گسترده‌تر استفاده می‌کند.

در زمینه ویژگی‌ها و همکاری‌های جدید، اِلوِن لَبز سال گذشته ژن اف ام (GenFM) را راه‌اندازی کرد؛ ویژگی‌ خاصی که مشابه نوت‌بوک اِل‌ام (NotebookLM) گوگل است و برای پادکست‌های چندگوینده طراحی شده است. همچنین این شرکت با پاکت اف ام (Pocket FM) همکاری کرده تا به نویسندگان کمک کند داستان‌های خود را به محتوای صوتی تبدیل کنند.

علاوه بر بازار تولید محتوا، صنایعی که در هند مورد توجه این شرکت قرار دارند شامل پشتیبانی از مشتریان و آموزش می‌شوند. اخیراً این شرکت به عنوان بخشی از تور جهانی خود، یک هکاتون در بنگلور برگزار کرد که هند بالاترین تعداد ثبت‌نام‌کننده را در آن داشت.

پروژه‌های به نمایش درآمده شامل یک عامل هوش مصنوعی برای پشتیبانی عاطفی، یک چارچوب ویدیویی هوش مصنوعی با نقش‌های مشخص‌شده برای تولید محتوا و یک راه‌حل هوش مصنوعی صوتی برای مناطق روستایی هند به‌منظور افزایش دسترسی در مناطقی بود که چت‌بات‌ها محدود هستند.

آینده‌ی هوش مصنوعی تک‌قطبی نخواهد بود

سرینیواسان که دارای ده سال سابقه کار در یوتیوب است، به‌خوبی اکوسیستم تولیدکنندگان محتوا در این کشور را درک می‌کند. او معتقد است آینده هوش مصنوعی تنها به یک رابط محدود نخواهد شد؛ اگرچه صوت همواره یکی از ارکان اصلی آن باقی خواهد ماند.

او به روند مداومی در رسانه و فناوری اشاره کرد که به‌سمت تعاملات چندوجهی حرکت می‌کند و حتی در آینده نیز مردم با هوش مصنوعی از طریق صدا، متن، ویدیو و تصاویر در تعامل خواهند بود. او گفت: «حتی پیش از ظهور هوش مصنوعی مولد، مردم با فناوری‌هایی مانند الکسا، گوگل اسیستنت و سیری در تعامل بودند.»

با این حال، او اطمینان دارد که صدا طبیعی‌ترین رابط باقی خواهد ماند، زیرا همچنان ابتدایی‌ترین و پرکاربردترین شکل ارتباط است که عمیقاً در تعاملات مصرف‌کننده و کسب‌وکارها ریشه دارد. همچنین سرینیواسان به ریسک‌های مرتبط با دیپ‌فیک اشاره کرد و تأکید کرد که ElevenLabs از روش‌هایی مانند نظارت، کسب اجازه‌ی رسمی و قابلیت رهگیری برای جلوگیری از سوءاستفاده استفاده می‌کند.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]