چگونه یک استارتاپ کوچک لهستانی به صدای چند میلیارد دلاری دنیای هوش مصنوعی تبدیل شد؟

روایت داستان صدای هوش مصنوعی

امین رضا کیفرگیر
۱۵ آذر ۱۴۰۴

زمان مطالعه: 6 دقیقه

صداهای کامپیوتری ElevenLabs آن‌قدر طبیعی و باورپذیر هستند که ممکن است مادرتان را هم فریب دهند. این موضوع هم یک نعمت است، چراکه بنیان‌گذاران جوان آن از فهرست «30 Under 30» هر دو میلیاردر شده‌اند و هم یک دردسر برای این شرکت چهار ساله.

فیلم‌های دوبله ‌شده در لهستان فاجعه هستند. یک گوینده تنها، تمام دیالوگ‌ها را با لحنی یکنواخت و بی‌رمق اسلاوی می‌خواند. هیچ گروه بازیگری‌ای وجود ندارد. هیچ تفاوتی میان گویندگان نیست و نسل جوان از آن متنفر است.

«ماتیوش (ماتی) استانیشِفسکی»، هم‌‌بنیان‌گذار شرکت هوش مصنوعی ElevenLabs، در همین باره می‌گوید: «از هر فرد لهستانی بپرسید، به شما می‌گوید که وضعیت دوبله افتضاح است. حدس می‌زنم این روشی ارزان برای تولید محتوا است که از دوران کمونیسم باقی مانده.»

فهرست مقاله پنهان

1 آغاز یک ماجراجویی از دل کابوس دوبله لهستانی

2 سوی تاریک صدای هوش مصنوعی

3 ایستاده بر فراز غول‌ها

آغاز یک ماجراجویی از دل کابوس دوبله لهستانی

در دوران کار در Palantir، «استانیشِـفسکی» با دوست دوران دبیرستانش، مهندس Google «پیوتر دابکوفسکی» همکاری کرد تا با هوش مصنوعی آزمایش‌هایی انجام دهند. آن دو متوجه شدند یکی از پروژه‌ها که یک مربی سخنرانی عمومی مبتنی بر هوش مصنوعی بود می‌تواند کابوس منحصربه‌فرد دوبله لهستانی را حل کند؛ کابوسی که در آن صدای «لئوناردو دی‌کاپریو» یا «اسکارلت جوهانسون» زیر صدای یک لِکتور مانند «ماچیِی گودوفسکی» گم می‌شود.

این دو نفر پس‌اندازهایشان را روی هم گذاشتند و تا ماه مه ۲۰۲۲ از کار خود استعفا دادند تا تمام ‌وقت روی ElevenLabs کار کنند. محصول تازه‌ی آن‌ها، یک سامانه‌ی تبدیل متن به گفتار مبتنی بر هوش مصنوعی، از همان ابتدا چندین سطح از صداهای رباتی Siri شرکت Apple و Alexa شرکت Amazon جلوتر بود. صداهای تولید شده توسط هوش مصنوعی ElevenLabs می‌توانستند حالت‌هایی مانند شادی، هیجان و حتی خنده را بازتولید کنند.

در ژانویه ۲۰۲۳، ElevenLabs نخستین مدل خود را عرضه کرد. این مدل می‌توانست هر متنی را دریافت کند و با استفاده از هوش مصنوعی آن را با هر صدایی بخواند؛ از جمله یک نسخه‌ی شبیه‌سازی ‌شده از صدای خود شما (یا، نگران‌کننده‌تر، صدای شخصی دیگر).

تقاضا فوراً شکل گرفت. نویسندگان می‌توانستند با این نرم‌افزار فوراً کتاب صوتی تولید کنند (هزینه‌ی اشتراک طرح‌های حرفه‌ای اکنون از ماهانه ۹۹ دلار برای کیفیت بالاتر و زمان بیشتر آغاز می‌شود).

خالقان محتوای یوتیوب از ElevenLabs برای ترجمه‌ی ویدئوهای خود به زبان‌های دیگر استفاده کردند (مدل‌های این شرکت اکنون می‌توانند به ۲۹ زبان صحبت کنند). این استارتاپ مستقر در ورشو و لندن با اپلیکیشن‌های یادگیری زبان و مدیتیشن قرارداد بست؛ سپس شرکت‌های رسانه‌ای مانند HarperCollins و Bertelsmann آلمان نیز با آن وارد همکاری شدند.

سرمایه‌گذار «جنیفر لی» از شرکت Andreessen Horowitz که در ماه مه ۲۰۲۳ رهبری جذب سرمایه‌ی ۱۹ میلیون دلاری را بر عهده داشت می‌گوید: «بدیهی بود که این بهترین مدل موجود است و همه آن را انتخاب می‌کردند.» یک سال بعد، بنیان‌گذاران در فهرست «30 Under 30 Europe» مجله Forbes مورد تقدیر قرار گرفتند.

سوی تاریک صدای هوش مصنوعی

با این حال، دیگران استفاده‌هایی بسیار نگران‌کننده‌تر پیدا کردند؛ نسخه‌های صوتی هوش مصنوعی شبیه به چهره‌های عمومی، مانند «دونالد ترامپ» که با لحنی زننده نبردهای بازی‌های ویدئویی را روایت می‌کرد، «اما واتسون» که Mein Kampf را می‌خواند و «جو روگان» که کلاهبرداری‌ها را تبلیغ می‌کرد و همه‌ی این‌ها به‌سرعت وایرال شدند.

بدتر آنکه، کلاهبرداران شروع به استفاده از ابزارهای شبیه‌سازی صدا برای جعل صدای افراد نزدیک به قربانیان و سرقت میلیون‌ها دلار از طریق فریب‌کاری‌های پیچیده‌ی مبتنی بر دیپ‌فیک کردند.

البته که هیچ‌یک از این اتفاقات باعث نشد سرمایه‌گذاران خطرپذیر از تزریق پول دست بکشند. ElevenLabs در مجموع بیش از ۳۰۰ میلیون دلار جذب سرمایه انجام داده و در اکتبر، با رسیدن به ارزش‌گذاری ۶.۶ میلیارد دلاری، به یکی از ارزشمندترین استارتاپ‌های اروپا تبدیل شده است.

«استانیشِـفسکی» ۳۰ ساله، که نقش مدیرعامل را بر عهده دارد (این شرکت عناوین سنتی مدیریتی ندارد)، و «دابکوفسکی» ۳۰ ساله، رئیس بخش پژوهش، اکنون هر دو میلیاردر هستند و بر اساس برآوردهای Forbes هرکدام اندکی بیش از یک میلیارد دلار ارزش خالص دارند.

حدود نیمی از درآمد ElevenLabs طی ۱۲ ماه گذشته که ۱۹۳ میلیون دلار می‌شود، از شرکت‌هایی مانند Cisco، Twilio و آژانس سوئیسی استخدام Adecco می‌آید؛ شرکت‌هایی که از فناوری این استارتاپ برای رسیدگی به تماس‌های خدمات مشتری یا مصاحبه با متقاضیان کار استفاده می‌کنند.

Epic Games نیز از این فناوری برای صداگذاری شخصیت‌های بازی Fortnite بهره می‌برد، از جمله گفت‌وگو با «دارث ویدر» (با رضایت وراث «جیمز ارل جونز»).

نیمی دیگر از درآمد شرکت از یوتیوبرها، پادکسترها و نویسندگانی به دست می‌آید که از نخستین کاربران این فناوری بودند. «تام کُسهاو»، تحلیل‌گر شرکت Gartner می‌گوید: «وقتی با آن‌ها صحبت می‌کنید، شگفت‌زده می‌شوید از اینکه چقدر در کارشان توانمند هستند.»

بنیان‌گذاران علاقه‌مند به اعداد ElevenLabs، «ماتی استانی‌شِفسکی» (چپ) و «پیوتر دابکوفسکی» (راست)، عاشق عدد ۱۱ هستند، به‌ویژه «قانون تقسیم بر ۱۱».
هدف بعدی آن‌ها: طبیعتاً ارزش‌گذاری ۱۱ میلیارد دلاری.
عکس از Cody Pickens for *Forbes*

برخلاف بسیاری از شرکت‌های فعال در حوزه‌ی هوش مصنوعی، ElevenLabs سودآور است. Forbes برآورد می‌کند این شرکت طی ۱۲ ماه گذشته ۱۱۶ میلیون دلار سود خالص به دست آورده (با حاشیه سود ۶۰ درصدی).

ایستاده بر فراز غول‌ها

اکنون این شرکت در حال رقابت با غول‌هایی مانند Google، Microsoft، Amazon و OpenAI است تا به صدای پیش‌فرض دنیای هوش مصنوعی تبدیل شود. هرچند که این حوزه چندان تازه‌ هم نیست؛ شرکت‌های فناوری حدود یک دهه پیش شروع به ساخت محصولاتی برای شنیدن، رونویسی و تولید گفتار کردند.

اگرچه این حوزه برای Microsoft تا حدی در حاشیه است، «ساتیا نادلا» در مارس ۲۰۲۲ حاضر شد ۲۰ میلیارد دلار برای خرید شرکت ثبت ‌شده در Nasdaq یعنی سرویس رونویسی صوتی Nuance پرداخت کند. OpenAI نیز در اکتبر ۲۰۲۴ ابزار صوتی خود را عرضه کرد؛ ابزاری که می‌تواند مکالمات انسانی را به ChatGPT وارد کند.

اما تیم ۳۰۰ نفره‌ی ElevenLabs در حال دنبال ‌کردن دیگران نیست. مدل‌های این شرکت چنان قدرتمند هستند که می‌تواند تا سه برابر بیش از رقبای آمریکایی خود از کاربران هزینه اشتراک دریافت کند. کتابخانه‌ی آن با ۱۰ هزار صدای فوق‌العاده شبیه انسان که بزرگ‌ترین مجموعه‌ی موجود نیز هست، اکنون شامل صدای چهره‌های مشهور و درجه ‌یک مانند «مایکل کین» و «متیو مک‌کاناهی» هم می‌شود.

این شرکت همچنین قابل ‌اعتمادتر است. استارتاپ آموزش داده‌های Labelbox شش مدل‌ برتر تولید صدا را با یک آزمون خواندن سنجید و دریافت که خطاهای ElevenLabs نصف نزدیک‌ترین رقیبش یعنی OpenAI بوده.

«استانیشِـفسکی» می‌گوید: «ما یکی از معدود شرکت‌هایی هستیم که از OpenAI جلوتر هستند. نه فقط در گفتار، بلکه در گفتاربه‌متن و موسیقی؛ و این واقعاً دشوار است.»

دستور موفقیت ElevenLabs ساده است؛ گروه کوچکی از پژوهشگران یادگیری ماشین، با تمرکز وسواس‌گونه روی یک مسئله‌ی محدود و بودجه‌ای فشرده (بنیان‌گذاران نخستین اجرای آموزشی ۱۰۰ هزار دلاری را خودشان تأمین کردند) موجب پیشرفت‌های مدل شدند.

«دابکوفسکی» می‌گوید: «داشتن منابع محاسباتی عظیم می‌تواند یک نفرین باشد، چون باعث می‌شود به این فکر نکنید که مسئله را چگونه می‌توان به شکلی هوشمندانه حل کرد.»

اما شکایتی که از سوی دو راوی کتاب‌های صوتی مطرح شده، به وجود یک عامل دیگر هم اشاره می‌کند. «کاریسا وکر» و «مارک بویت» ادعا کرده‌اند که ElevenLabs از هزاران کتاب صوتی دارای حق نشر برای آموزش مدل‌های خود استفاده کرده است. آن‌ها می‌گویند تعداد کتاب‌هایی که از آن‌ها برداشت شده چنان زیاد بوده که نسخه‌های شبیه‌سازی ‌شده‌ی صدایشان به ‌عنوان گزینه‌های پیش‌فرض در ElevenLabs ظاهر شده است.

در این پرونده، ElevenLabs هرگونه خطا را رد کرد و در نهایت این دعوا در نوامبر، خارج از دادگاه حل‌وفصل شد. (وکر و بویت به درخواست ارائه نظر پاسخی ندادند؛ ElevenLabs نیز از ارائه‌ی توضیح بیشتر خودداری کرد).

اخیرا بلوغ و سخت‌گیری بیشتری در شرکت شکل گرفته است. پس از آنکه یک نسخه‌ی شبیه‌سازی ‌شده از صدای «جو بایدن» که توسط ElevenLabs ساخته شده بود، در یک کارزار تماسِ خودکار برای دلسرد کردن مردم از رأی ‌دادن در انتخابات مقدماتی دموکرات‌های ۲۰۲۴ به کار رفت، شرکت سرانجام فهرستی از صداهای «ممنوعه» تهیه کرد که بیشتر شامل سیاست‌مداران و افراد مشهور می‌شود.

اکنون ElevenLabs هفت ناظر انسانی تمام ‌وقت (به ‌علاوه‌ی سامانه‌ی هوش مصنوعی) دارد که کلیپ‌ها را برای شناسایی سوء‌استفاده بررسی می‌کنند. صداهای تازه‌شبیه‌سازی‌ شده باید از آزمون «تأیید رضایت» عبور کنند و شرکت یک ابزار رایگان برای شناسایی دیپ‌فیک نیز ارائه می‌دهد.

«استانیشِـفسکی» و «دابکوفسکی» برنامه‌های بزرگی فراتر از صدا دارند. هم تولید کنندگان محتوا که با کمبود بودجه دست‌وپنجه نرم می‌کنند و هم شرکت‌های رسانه‌ای صرفه‌جو، موسیقی پس‌زمینه‌‌ی بدون حق امتیاز می‌خواستند؛ بنابراین آن‌ها در ماه اوت یک ژنراتور موسیقی هوش مصنوعی عرضه کردند.

وقت فیلم‌برداری ندارید؟ ElevenLabs سال آینده آواتارهای هوش مصنوعی ارائه خواهد کرد که بتوانند ویدئوهایی شبیه Sora را اجرا کنند.

جسورانه‌ترین شرط آن‌ها این است که بتوانند تخصص خود را به سطحی برسانند که یک مرکز واحد برای مدیریت تمام ابزارهای هوش مصنوعی مشتریان ارائه دهند. «استانیشِـفسکی» می‌گوید: «ما در حال ساختن یک پلتفرم هستیم که به شما اجازه می‌دهد عامل‌های صوتی بسازید و آن‌ها را بدون دردسر اجرا کنید.»

البته این هدف ElevenLabs را در مسیر برخورد با گروهی از استارتاپ‌های دیگری قرار می‌دهد که امیدوارند همین کار را انجام دهند. سودآور بودن از همان روزهای آغازین کمک بزرگی است، اما رقبای استارتاپی این شرکت به خوبی تأمین مالی شده‌اند و غول‌های فناوری نیز عملاً منابع نامحدودی دارند.

با این حال، نوآوری ضروری است. مدل‌های صوتی به ‌زودی به محصولاتی عادی و قابل ‌جایگزینی تبدیل خواهند شد. زمانی که سایر مدل‌ها فاصله را کم کنند، مشتریان دمدمی ‌مزاجی که اکنون هم به قیمت‌های ElevenLabs معترض‌اند، احتمالاً به رقبا روی خواهند آورد.

با گسترش فعالیت‌ها از صدا به حوزه‌های پرهزینه‌تر محاسباتی مانند موسیقی و ویدئو، ElevenLabs باید مزرعه‌های GPU خود را توسعه دهد تا در رقابت باقی بماند. این شرکت تاکنون ۵۰ میلیون دلار برای یک پروژه‌ی مرکز داده در اورِگن هزینه کرده است.

«استانیشِـفسکی» می‌گوید: «اگر قرار است شرکت نسل ‌بعدیِ حوزه‌ی هوش مصنوعی را بسازیم، باید مقیاس را بزرگ کنیم و ما در حال انجام همین کار هستیم.»

در لهستان، گروه کهنه‌کار لِکتورها هنوز تا همین اواخر مشغول به کار هستند. «دابکوفسکی» پیشنهاد اولیه‌ی ElevenLabs را فراموش نکرده و با افتخار می‌گوید که مدل بعدی او قادر خواهد بود یک فیلم کامل را به ‌طور همزمان ترجمه و صداگذاری کند.

او می‌گوید: «ما هیچ‌گاه از مأموریت‌هایمان دست نمی‌کشیم.»

https://hooshio.com/?p=79127

روایت داستان صدای هوش مصنوعی

آغاز یک ماجراجویی از دل کابوس دوبله لهستانی

سوی تاریک صدای هوش مصنوعی

ایستاده بر فراز غول‌ها

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

چگونه با NotebookLM بهره‌وری خود را صدبرابر کنیم؟

جهش ۳۰۰ درصدی درآمد OpenAI

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

هوش مصنوعی چه معنایی برای مشاغل ما دارد

هوش مصنوعی در دادگاه

هوش مصنوعی بومی زیر ذره‌بین

هوش مصنوعی بومی زیر ذره‌بین

ChatGPT و deepseek در برخی اپراتورها در دسترس قرار گرفتند

معرفی برترین سرویس‌های بومی

بن‌بست هوش مصنوعی بومی در روزهای قطعی اینترنت؛ سخت‌افزار ملی، وعده‌ای که محقق نشد

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

چگونه با NotebookLM بهره‌وری خود را صدبرابر کنیم؟

جهش ۳۰۰ درصدی درآمد OpenAI

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

«دیپ‌سیک» پشت دروازه‌های سبز قاره پیر

هوش مصنوعی‌های چینی مانند «جامعه انسانی» فکر می‌کنند

ریپازیتوری‌های داخلی در زمان قطعی اینترنت بین‌الملل

هوش مصنوعی چه معنایی برای مشاغل ما دارد

هوش مصنوعی در دادگاه

آغاز یک ماجراجویی از دل کابوس دوبله لهستانی

سوی تاریک صدای هوش مصنوعی

ایستاده بر فراز غول‌ها

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید