چگونه یک استارتاپ کوچک لهستانی به صدای چند میلیارد دلاری دنیای هوش مصنوعی تبدیل شد؟
روایت داستان صدای هوش مصنوعی
صداهای کامپیوتری ElevenLabs آنقدر طبیعی و باورپذیر هستند که ممکن است مادرتان را هم فریب دهند. این موضوع هم یک نعمت است، چراکه بنیانگذاران جوان آن از فهرست «30 Under 30» هر دو میلیاردر شدهاند و هم یک دردسر برای این شرکت چهار ساله.
فیلمهای دوبله شده در لهستان فاجعه هستند. یک گوینده تنها، تمام دیالوگها را با لحنی یکنواخت و بیرمق اسلاوی میخواند. هیچ گروه بازیگریای وجود ندارد. هیچ تفاوتی میان گویندگان نیست و نسل جوان از آن متنفر است.
«ماتیوش (ماتی) استانیشِفسکی»، همبنیانگذار شرکت هوش مصنوعی ElevenLabs، در همین باره میگوید: «از هر فرد لهستانی بپرسید، به شما میگوید که وضعیت دوبله افتضاح است. حدس میزنم این روشی ارزان برای تولید محتوا است که از دوران کمونیسم باقی مانده.»
آغاز یک ماجراجویی از دل کابوس دوبله لهستانی
در دوران کار در Palantir، «استانیشِـفسکی» با دوست دوران دبیرستانش، مهندس Google «پیوتر دابکوفسکی» همکاری کرد تا با هوش مصنوعی آزمایشهایی انجام دهند. آن دو متوجه شدند یکی از پروژهها که یک مربی سخنرانی عمومی مبتنی بر هوش مصنوعی بود میتواند کابوس منحصربهفرد دوبله لهستانی را حل کند؛ کابوسی که در آن صدای «لئوناردو دیکاپریو» یا «اسکارلت جوهانسون» زیر صدای یک لِکتور مانند «ماچیِی گودوفسکی» گم میشود.
این دو نفر پساندازهایشان را روی هم گذاشتند و تا ماه مه ۲۰۲۲ از کار خود استعفا دادند تا تمام وقت روی ElevenLabs کار کنند. محصول تازهی آنها، یک سامانهی تبدیل متن به گفتار مبتنی بر هوش مصنوعی، از همان ابتدا چندین سطح از صداهای رباتی Siri شرکت Apple و Alexa شرکت Amazon جلوتر بود. صداهای تولید شده توسط هوش مصنوعی ElevenLabs میتوانستند حالتهایی مانند شادی، هیجان و حتی خنده را بازتولید کنند.
در ژانویه ۲۰۲۳، ElevenLabs نخستین مدل خود را عرضه کرد. این مدل میتوانست هر متنی را دریافت کند و با استفاده از هوش مصنوعی آن را با هر صدایی بخواند؛ از جمله یک نسخهی شبیهسازی شده از صدای خود شما (یا، نگرانکنندهتر، صدای شخصی دیگر).
تقاضا فوراً شکل گرفت. نویسندگان میتوانستند با این نرمافزار فوراً کتاب صوتی تولید کنند (هزینهی اشتراک طرحهای حرفهای اکنون از ماهانه ۹۹ دلار برای کیفیت بالاتر و زمان بیشتر آغاز میشود).
خالقان محتوای یوتیوب از ElevenLabs برای ترجمهی ویدئوهای خود به زبانهای دیگر استفاده کردند (مدلهای این شرکت اکنون میتوانند به ۲۹ زبان صحبت کنند). این استارتاپ مستقر در ورشو و لندن با اپلیکیشنهای یادگیری زبان و مدیتیشن قرارداد بست؛ سپس شرکتهای رسانهای مانند HarperCollins و Bertelsmann آلمان نیز با آن وارد همکاری شدند.
سرمایهگذار «جنیفر لی» از شرکت Andreessen Horowitz که در ماه مه ۲۰۲۳ رهبری جذب سرمایهی ۱۹ میلیون دلاری را بر عهده داشت میگوید: «بدیهی بود که این بهترین مدل موجود است و همه آن را انتخاب میکردند.» یک سال بعد، بنیانگذاران در فهرست «30 Under 30 Europe» مجله Forbes مورد تقدیر قرار گرفتند.
سوی تاریک صدای هوش مصنوعی
با این حال، دیگران استفادههایی بسیار نگرانکنندهتر پیدا کردند؛ نسخههای صوتی هوش مصنوعی شبیه به چهرههای عمومی، مانند «دونالد ترامپ» که با لحنی زننده نبردهای بازیهای ویدئویی را روایت میکرد، «اما واتسون» که Mein Kampf را میخواند و «جو روگان» که کلاهبرداریها را تبلیغ میکرد و همهی اینها بهسرعت وایرال شدند.
بدتر آنکه، کلاهبرداران شروع به استفاده از ابزارهای شبیهسازی صدا برای جعل صدای افراد نزدیک به قربانیان و سرقت میلیونها دلار از طریق فریبکاریهای پیچیدهی مبتنی بر دیپفیک کردند.
البته که هیچیک از این اتفاقات باعث نشد سرمایهگذاران خطرپذیر از تزریق پول دست بکشند. ElevenLabs در مجموع بیش از ۳۰۰ میلیون دلار جذب سرمایه انجام داده و در اکتبر، با رسیدن به ارزشگذاری ۶.۶ میلیارد دلاری، به یکی از ارزشمندترین استارتاپهای اروپا تبدیل شده است.
«استانیشِـفسکی» ۳۰ ساله، که نقش مدیرعامل را بر عهده دارد (این شرکت عناوین سنتی مدیریتی ندارد)، و «دابکوفسکی» ۳۰ ساله، رئیس بخش پژوهش، اکنون هر دو میلیاردر هستند و بر اساس برآوردهای Forbes هرکدام اندکی بیش از یک میلیارد دلار ارزش خالص دارند.
حدود نیمی از درآمد ElevenLabs طی ۱۲ ماه گذشته که ۱۹۳ میلیون دلار میشود، از شرکتهایی مانند Cisco، Twilio و آژانس سوئیسی استخدام Adecco میآید؛ شرکتهایی که از فناوری این استارتاپ برای رسیدگی به تماسهای خدمات مشتری یا مصاحبه با متقاضیان کار استفاده میکنند.
Epic Games نیز از این فناوری برای صداگذاری شخصیتهای بازی Fortnite بهره میبرد، از جمله گفتوگو با «دارث ویدر» (با رضایت وراث «جیمز ارل جونز»).
نیمی دیگر از درآمد شرکت از یوتیوبرها، پادکسترها و نویسندگانی به دست میآید که از نخستین کاربران این فناوری بودند. «تام کُسهاو»، تحلیلگر شرکت Gartner میگوید: «وقتی با آنها صحبت میکنید، شگفتزده میشوید از اینکه چقدر در کارشان توانمند هستند.»

هدف بعدی آنها: طبیعتاً ارزشگذاری ۱۱ میلیارد دلاری.
عکس از Cody Pickens for Forbes
برخلاف بسیاری از شرکتهای فعال در حوزهی هوش مصنوعی، ElevenLabs سودآور است. Forbes برآورد میکند این شرکت طی ۱۲ ماه گذشته ۱۱۶ میلیون دلار سود خالص به دست آورده (با حاشیه سود ۶۰ درصدی).
ایستاده بر فراز غولها
اکنون این شرکت در حال رقابت با غولهایی مانند Google، Microsoft، Amazon و OpenAI است تا به صدای پیشفرض دنیای هوش مصنوعی تبدیل شود. هرچند که این حوزه چندان تازه هم نیست؛ شرکتهای فناوری حدود یک دهه پیش شروع به ساخت محصولاتی برای شنیدن، رونویسی و تولید گفتار کردند.
اگرچه این حوزه برای Microsoft تا حدی در حاشیه است، «ساتیا نادلا» در مارس ۲۰۲۲ حاضر شد ۲۰ میلیارد دلار برای خرید شرکت ثبت شده در Nasdaq یعنی سرویس رونویسی صوتی Nuance پرداخت کند. OpenAI نیز در اکتبر ۲۰۲۴ ابزار صوتی خود را عرضه کرد؛ ابزاری که میتواند مکالمات انسانی را به ChatGPT وارد کند.
اما تیم ۳۰۰ نفرهی ElevenLabs در حال دنبال کردن دیگران نیست. مدلهای این شرکت چنان قدرتمند هستند که میتواند تا سه برابر بیش از رقبای آمریکایی خود از کاربران هزینه اشتراک دریافت کند. کتابخانهی آن با ۱۰ هزار صدای فوقالعاده شبیه انسان که بزرگترین مجموعهی موجود نیز هست، اکنون شامل صدای چهرههای مشهور و درجه یک مانند «مایکل کین» و «متیو مککاناهی» هم میشود.
این شرکت همچنین قابل اعتمادتر است. استارتاپ آموزش دادههای Labelbox شش مدل برتر تولید صدا را با یک آزمون خواندن سنجید و دریافت که خطاهای ElevenLabs نصف نزدیکترین رقیبش یعنی OpenAI بوده.
«استانیشِـفسکی» میگوید: «ما یکی از معدود شرکتهایی هستیم که از OpenAI جلوتر هستند. نه فقط در گفتار، بلکه در گفتاربهمتن و موسیقی؛ و این واقعاً دشوار است.»
دستور موفقیت ElevenLabs ساده است؛ گروه کوچکی از پژوهشگران یادگیری ماشین، با تمرکز وسواسگونه روی یک مسئلهی محدود و بودجهای فشرده (بنیانگذاران نخستین اجرای آموزشی ۱۰۰ هزار دلاری را خودشان تأمین کردند) موجب پیشرفتهای مدل شدند.
«دابکوفسکی» میگوید: «داشتن منابع محاسباتی عظیم میتواند یک نفرین باشد، چون باعث میشود به این فکر نکنید که مسئله را چگونه میتوان به شکلی هوشمندانه حل کرد.»
اما شکایتی که از سوی دو راوی کتابهای صوتی مطرح شده، به وجود یک عامل دیگر هم اشاره میکند. «کاریسا وکر» و «مارک بویت» ادعا کردهاند که ElevenLabs از هزاران کتاب صوتی دارای حق نشر برای آموزش مدلهای خود استفاده کرده است. آنها میگویند تعداد کتابهایی که از آنها برداشت شده چنان زیاد بوده که نسخههای شبیهسازی شدهی صدایشان به عنوان گزینههای پیشفرض در ElevenLabs ظاهر شده است.
در این پرونده، ElevenLabs هرگونه خطا را رد کرد و در نهایت این دعوا در نوامبر، خارج از دادگاه حلوفصل شد. (وکر و بویت به درخواست ارائه نظر پاسخی ندادند؛ ElevenLabs نیز از ارائهی توضیح بیشتر خودداری کرد).
اخیرا بلوغ و سختگیری بیشتری در شرکت شکل گرفته است. پس از آنکه یک نسخهی شبیهسازی شده از صدای «جو بایدن» که توسط ElevenLabs ساخته شده بود، در یک کارزار تماسِ خودکار برای دلسرد کردن مردم از رأی دادن در انتخابات مقدماتی دموکراتهای ۲۰۲۴ به کار رفت، شرکت سرانجام فهرستی از صداهای «ممنوعه» تهیه کرد که بیشتر شامل سیاستمداران و افراد مشهور میشود.
اکنون ElevenLabs هفت ناظر انسانی تمام وقت (به علاوهی سامانهی هوش مصنوعی) دارد که کلیپها را برای شناسایی سوءاستفاده بررسی میکنند. صداهای تازهشبیهسازی شده باید از آزمون «تأیید رضایت» عبور کنند و شرکت یک ابزار رایگان برای شناسایی دیپفیک نیز ارائه میدهد.
«استانیشِـفسکی» و «دابکوفسکی» برنامههای بزرگی فراتر از صدا دارند. هم تولید کنندگان محتوا که با کمبود بودجه دستوپنجه نرم میکنند و هم شرکتهای رسانهای صرفهجو، موسیقی پسزمینهی بدون حق امتیاز میخواستند؛ بنابراین آنها در ماه اوت یک ژنراتور موسیقی هوش مصنوعی عرضه کردند.
وقت فیلمبرداری ندارید؟ ElevenLabs سال آینده آواتارهای هوش مصنوعی ارائه خواهد کرد که بتوانند ویدئوهایی شبیه Sora را اجرا کنند.
جسورانهترین شرط آنها این است که بتوانند تخصص خود را به سطحی برسانند که یک مرکز واحد برای مدیریت تمام ابزارهای هوش مصنوعی مشتریان ارائه دهند. «استانیشِـفسکی» میگوید: «ما در حال ساختن یک پلتفرم هستیم که به شما اجازه میدهد عاملهای صوتی بسازید و آنها را بدون دردسر اجرا کنید.»
البته این هدف ElevenLabs را در مسیر برخورد با گروهی از استارتاپهای دیگری قرار میدهد که امیدوارند همین کار را انجام دهند. سودآور بودن از همان روزهای آغازین کمک بزرگی است، اما رقبای استارتاپی این شرکت به خوبی تأمین مالی شدهاند و غولهای فناوری نیز عملاً منابع نامحدودی دارند.
با این حال، نوآوری ضروری است. مدلهای صوتی به زودی به محصولاتی عادی و قابل جایگزینی تبدیل خواهند شد. زمانی که سایر مدلها فاصله را کم کنند، مشتریان دمدمی مزاجی که اکنون هم به قیمتهای ElevenLabs معترضاند، احتمالاً به رقبا روی خواهند آورد.
با گسترش فعالیتها از صدا به حوزههای پرهزینهتر محاسباتی مانند موسیقی و ویدئو، ElevenLabs باید مزرعههای GPU خود را توسعه دهد تا در رقابت باقی بماند. این شرکت تاکنون ۵۰ میلیون دلار برای یک پروژهی مرکز داده در اورِگن هزینه کرده است.
«استانیشِـفسکی» میگوید: «اگر قرار است شرکت نسل بعدیِ حوزهی هوش مصنوعی را بسازیم، باید مقیاس را بزرگ کنیم و ما در حال انجام همین کار هستیم.»
در لهستان، گروه کهنهکار لِکتورها هنوز تا همین اواخر مشغول به کار هستند. «دابکوفسکی» پیشنهاد اولیهی ElevenLabs را فراموش نکرده و با افتخار میگوید که مدل بعدی او قادر خواهد بود یک فیلم کامل را به طور همزمان ترجمه و صداگذاری کند.
او میگوید: «ما هیچگاه از مأموریتهایمان دست نمیکشیم.»