تبدیل صوت به متن فارسی

تیم تحریریه
۲۹ مهر ۱۴۰۴

زمان مطالعه: 7 دقیقه

«باید خبرنگار باشی تا قدر سرویس‌های تبدیل صدا به متن را بدانی.» این جمله را در جواب پرسش یکی از دوستانم که کنجکاو بود بداند چرا انقدر مشتاق استفاده از ابزارهای هوش مصنوعی در کار روزنامه‌نگاری هستم، گفتم. تبدیل صدا به متن یکی از خدماتی است که می‌تواند بسیاری از گره‌های اصلی شغلی ما را باز کند و وقت بیشتری در اختیارمان قرار دهد.

عقب‌ماندن از گفته‌های مصاحبه‌شونده، حجم بالای فایل‌های صوتی و نیاز به پیاده‌سازی سریع و دقیق از چالش‌های همیشگی خبرنگاری است. اما این ابزارها تنها به درد خبرنگاران نمی‌خورند. تصور کنید دانشجویی باشید که صدای استاد را ضبط کرده و می‌خواهد نکات مهم را به متن تبدیل کند یا یک محقق که مصاحبه‌های می‌دانی زیادی انجام داده و باید همه داده‌ها را سازماندهی کند. حتی نویسندگان، مدرسین و متخصصان حوزه کسب‌وکار هم می‌توانند با استفاده از تبدیل صوت به متن، یادداشت‌ها و جلسات خود را به سرعت پیاده‌سازی و آرشیو کنند.

اگر شما هم با این مسائل مواجه هستید این مقاله برایتان مفید خواهد بود. در ادامه قصد داریم تجربه استفاده از چند ابزار کاربردی و مناسب برای تبدیل فایل‌های صوتی به متن فارسی را بیان کنیم تا دیگر نیازی به تایپ‌های طاقت‌فرسا و شب‌زنده‌داری‌های طولانی نباشد.

برای این منظور تعداد زیادی از پلتفرم‌های تبدیل صوت به متن که به عنوان Speech-to-Text (STT) Platforms یا Automatic Speech Recognition (ASR) Systems شناخته می‌شوند، امتحان شدند و در این مقاله بهترین ابزارهایی که از زبان فارسی پشتیبانی دقیق و قابل‌اعتمادی داشتند معرفی شده‌اند.

فهرست مقاله پنهان

1 تبدیل صوت به متن با مدل‌های زبانی بزرگ عمومی

1.1 جمینای

2 NotebookLM: تحلیل کلی، جزئیات کمتر

3 ElevenLabs: استودیوی هوشمند فراتر از تبدیل صوت به متن

4 Voiser: تولید خودکار زیرنویس با دقت بالا

5 Happy Scribe: بهترین دقت

تبدیل صوت به متن با مدل‌های زبانی بزرگ عمومی

اولین گزینه آشنایی که به سراغش رفتیم، ChatGPT بود. این مدل در پردازش زبان طبیعی فوق‌العاده عمل می‌کند؛ اما در عمل قابلیت تبدیل مستقیم فایل‌های صوتی به متن را ندارد و هیچ ابزاری در محیط خود برای این کار ارائه نمی‌دهد.

در کنارChatGPT، برخی توسعه‌دهندگان و کاربران، GPTs را برای تبدیل صوت به متن به کار گرفته‌اند. GPTs در واقع نسخه‌های سفارشی مدل‌های زبانی بزرگ هستند که کاربران می‌توانند آن‌ها را با پرامپت‌ها و ابزارهای خاص شخصی‌سازی کنند. این نسخه‌ها معمولاً در محیط OpenAI و پلتفرم ChatGPT ایجاد می‌شوند و می‌توانند با افزونه‌ها یا APIهای جانبی مانند Whisper برای پردازش صوت ترکیب شوند.

با این حال، این ابزارها هنوز به طور عملی از زبان فارسی پشتیبانی نمی‌کنند و عملکرد آن‌ها در پردازش فایل‌های صوتی فارسی بسیار بی‌کیفیت است. اگرچه در این مقاله تجربه‌های ناموفق را ذکر نمی‌کنیم؛ اما به علت استفاده بسیار گسترده کاربران از ChatGPT بهتر دیدیم که این مورد را اشاره کنیم.

جمینای

Gemini گزینه دیگری است که دقت تبدیل صوت به متن فارسی آن در صورت خرید اکانت حرفه‌ای جمینای است. این پلتفرم قابلیت تشخیص خودکار گوینده‌ها را ندارد؛ اما با راهنمایی در پرامپت می‌توان تعداد افراد حاضر در گفتگو را مشخص کرد و گوینده‌ها را تا حد قابل‌قبولی شناسایی نمود. نسخه رایگان Gemini محدودیت‌هایی دارد:

تعداد فایل در هر درخواست: حداکثر ۱۰ فایل
حداکثر حجم فایل غیر ویدئویی: ۱۰۰ مگابایت
حداکثر حجم فایل ویدئویی: ۲ گیگابایت
زمان هر فایل صوتی: ۱۰ دقیقه

می‌توانید یک فایل ZIP تا حجم ۱۰۰ مگابایت که شامل حداکثر ۱۰ فایل باشد، بارگذاری کنید. اما این فایل فشرده نمی‌تواند حاوی فایل صوتی یا تصویری باشد.

همچنین استفاده از قابلیت تحلیل و بارگذاری فایل دارای محدودیت‌های دوره‌ای (Rolling limits) است. این یعنی پس از استفاده ممتد در یک بازه زمانی مشخص باید مدتی صبر کنید تا محدودیت شما بازنشانی شود.

این محدودیت‌ها نشان می‌دهد که برای استفاده جدی و مداوم، نسخه حرفه‌ای لازم است؛ اما سرعت و دقت برگرداندن متن آن بسیار خوب است.

NotebookLM: تحلیل کلی، جزئیات کمتر

NotebookLM یک پلتفرم پیشرفته مبتنی بر مدل‌های زبانی بزرگ است که برای پردازش و تحلیل محتوا طراحی شده است. این ابزار می‌تواند انواع فایل‌ها را دریافت کرده، آن‌ها را تحلیل کند و خلاصه، برداشت کلی یا تحلیل محتوایی ارائه دهد. کاربردهای این پلتفرم بسیار گسترده است؛ از تحلیل مقالات و مستندات گرفته تا پردازش مصاحبه‌ها، ارائه خلاصه جلسه‌ها و حتی تولید محتوای تصویری و آموزشی بر اساس منابع دریافتی.

در زمینه تبدیل صوت به متن فارسی، امکان بارگذاری فایل صوتی و تولید متن خروجی را بدون محدودیت فراهم می‌کند. دقت تبدیل در مقایسه با ابزارهایی مانند Gemini متوسط است و ممکن است در تشخیص دقیق اسامی، نگارش و یافتن کلمات فارسی با مشکل روبه‌رو شود. علاوه بر این، تفکیک گویندگان به طور پیش‌فرض انجام نمی‌شود و این ابزار بیشتر برای ارائه تحلیل کلی محتوا و برداشت عمومی از گفتگوها مناسب است، نه برای ثبت دقیق جزئیات مکالمه.

با این وجود همچنان می‌تواند تصویر کلی از محتوای صوتی یا متنی ارائه دهد و برای کسانی که به دنبال درک کلی و تحلیل محتوا هستند، ابزار مفیدی به شمار می‌آید به شرطی که به دنبال جزئیات دقیق و نگارش کاملاً صحیح کلمات فارسی نباشید.

ElevenLabs: استودیوی هوشمند فراتر از تبدیل صوت به متن

ElevenLabs یک استارتاپ پیشرفته در زمینه هوش مصنوعی است که به طور ویژه بر روی پردازش صوت تمرکز دارد. این پلتفرم، استودیویی کامل ارائه می‌دهد که امکان کار با صوت را در چندین سطح فراهم می‌کند و با استفاده از مدل‌های پیشرفته‌ای مانند Scribe v1 و Eleven v3، توانسته است تجربه‌ای طبیعی و انسانی در تولید و پردازش صدا ارائه دهد. مدل Scribe v1 به‌عنوان یکی از دقیق‌ترین مدل‌های تبدیل صوت به متن در صنعت شناخته می‌شود. این قابلیت به‌ویژه برای تولید زیرنویس، رونویسی جلسات، پادکست‌ها و مصاحبه‌ها مناسب است.

در آزمون‌های ما، قابلیت تبدیل صوت فارسی با دقت بسیار بالا عمل کرد و تجربه استفاده از آن رضایت‌بخش بود؛ به‌خصوص در تولید زیرنویس‌های زمان‌بندی‌شده و تفکیک گویندگان، خروجی‌ها از کیفیت و کارایی قابل‌قبولی برخوردار بودند.

قابلیت‌ها و نکات کلیدی این پلتفرم به شرح زیر است:

مدل Scribe v1 برای فارسی یکی از مدل‌های پیشرفته ElevenLabs است که پشتیبانی از زبان فارسی را در سطحی قابل توجه ارائه می‌کند و برای پیاده‌سازی محتوای فارسی توسعه‌یافته است.
تقسیم‌بندی زمانی و هم‌زمان‌سازیصوت به این ترتیب که صوت به بازه‌های زمانی منطقی تقسیم می‌شود و کنار هر بازه، متن مربوط به آن بخش قرار می‌گیرد و کار تولید زیرنویس و هم‌نشینی متن با ویدیو را بسیار ساده می‌کند.
مدل قابلیت تشخیص و تفکیک گویندگان مختلف را دارد؛ به عبارت دیگر می‌تواند مشخص کند هر بخش از گفتار متعلق به کدام گوینده است که این ویژگی برای مصاحبه‌ها و میزگردها اهمیت زیادی دارد.
علاوه بر تقسیم‌بندی بازه‌ای، امکان تولید کد زمانی دقیق برای کلمات نیز وجود دارد که دقت هماهنگ‌سازی متن و صوت را افزایش می‌دهد.
رویدادهایی مانند خنده، سکوت، موسیقی یا آلودگی صوتی قابل‌تشخیص و برچسب‌گذاری هستند تا متن نهایی خواناتر و نزدیک‌تر به واقعیت باشد.
خروجی متن قابل دانلود در فرمت‌های متداول TXT، DOCX، PDF و فرمت‌های زیرنویس SRT، VTT یا فرمت‌های ساختاری مانند JSON و HTML است. متن تولیدشده قابل ویرایش است.
در محیط استودیویی ElevenLabs می‌توان پروژه‌های صوتی/ویدیویی ساخت، ترک‌های صوتی و موسیقی اضافه کرد و با ویرایشگر تایم‌لاین روی ترکیب دقیق صوت و متن کنترل داشت؛ یعنی پلتفرم فقط یک موتور تبدیل گفتار به متن نیست؛ بلکه یک محیط تولید و تدوین صوتی_متنی است.
در طرح رایگان کاربران به مقدار مشخصی اعتبار ماهانه (۱۰ هزار credit معادل ۲ ساعت و ۳۰ دقیقه در ماه) دسترسی دارند.
در بخش مستندات رسمی ذکر شده است که طرح رایگان محدودیت هم‌زمانی دارد(Concurrency Limit ) مثلاً اجازه هم‌زمانی ۸ درخواست را دارد.

Voiser: تولید خودکار زیرنویس با دقت بالا

Voiser نیز پلتفرم هوش مصنوعی برای تبدیل صوت به متن و تولید زیرنویس است. این وب‌سایت بر تبدیل فایل‌های صوتی یا ویدیویی به متن همراه با زمان‌بندی دقیق تمرکز دارد و ادعا می‌کند که می‌تواند با دقتی نزدیک به ۱۰۰٪ تبدیل را انجام دهد.

در تجربه ما، Voiser توانست صوت‌ها را با کیفیت و دقت قابل‌قبول تبدیل کند و خروجی به‌صورت زیرنویس همراه با زمان‌بندی ارائه دهد؛ اما در نسخه رایگان، محدودیت ۱۵ دقیقه در ماه برای فایل صوتی وجود دارد و در عمل برای پروژه‌های طولانی‌تر باید اشتراک تهیه کرد. دیگر ویژگی‌های این پلتفرم به شرح زیر است:

امکان دانلود متن و زیرنویس در قالب‌های گوناگونی مانند TXT، DOCX، SRT و VTT.
سرعت تبدیل نسبت به Gemini کندتر به نظر می‌رسید.
قابلیت تفکیک و شناسایی گویندگان مختلف را برای سازمان‌دهی بهتر محتوای پیچیده.
امکان ترجمه متن پیاده‌سازی شده به زبان‌های مختلف.
برخی اشتباهات در اسامی یا واژه‌هایی با تلفظ پیچیده مشاهده شد؛ اما به طور کلی اشتباهات قابل اغماض بودند.
امکان ویرایش متن پس از تولید در محیط خود پلتفرم وجود دارد که این کمک می‌کند اشتباهات کوچک را تصحیح کنیم و زیرنویس نهایی را دقیق‌تر کنیم.
امکان بارگذاری و پردازش انواع فایل‌های صوتی و تصویری، با پشتیبانی از فرمت‌های گسترده برای پوشش تمام نیازهای کاربر وجود دارد و می‌توان لینک یوتیوب را نیز با دقت بسیار بالا به متن تبدیل کرد.
رابط کاربری ساده و کاربرپسند آن امکان اصلاح و جستجوی سریع کلمات در متن را فراهم می‌کند.
با همکاری با ChatGPT، امکان ایجاد خلاصه متن یا پاسخ به پرسش‌ها فراهم شده است تا تحلیل و مرور محتوای طولانی ساده‌تر شود.

Happy Scribe: بهترین دقت

Happy Scribe پلتفرم دیگری تحت وب است که به کمک هوش مصنوعی، فایل‌های صوتی و تصویری را به متن تبدیل می‌کند و امکان تولید زیرنویس را نیز دارد.

این سرویس از بیش از ۱۲۰ زبان پشتیبانی می‌کند و قابلیت‌هایی مانند تشخیص گوینده (speaker labeling)، زمان‌بندی دقیق (timecodes) و ویرایش تعاملی متن را ارائه می‌دهد. کاربران می‌توانند متن را با صوت همگام‌سازی کنند، به طوری که هنگام پخش فایل صوتی یا ویدیویی، بخش مربوطه در متن برجسته می‌شود و کار ویرایش بسیار ساده‌تر می‌شود.

در تجربه ما با وجود اینکه این پلتفرم شهرت کم‌تری دارد؛ اما در آزمایش پلتفرم‌های موجود با یک فایل صوتی یکسان، بهترین دقت تبدیل به متن فارسی متعلق به Happy Scribe بود. تنها نقطه ضعف آن این است که رایگان نیست. در نسخه رایگان فقط امکان استفاده محدود وجود دارد (۱۰ دقیقه امکان رونویسی اولیه) و برای استفاده‌های جدی‌تر باید به طرح‌های پولی ارتقا دهید.

دیگر ویژگی‌ها و امکانات کلیدی این پلتفرم به شرح زیر است:

امکان رونویسی سریع فایل‌های صوتی و تصویری با دقت بالا.
قابلیت ترجمه صوت و ویدئو به زبان‌های مختلف برای دسترسی جهانی.
ابزارهایی مانند Audio Summarizer و YouTube Summarizer به منظور استخراج نکات کلیدی محتوا برای خلاصه‌سازی هوشمند.
ویرایشگر تعاملی و رابط کاربری ساده با امکان اصلاح متن و جستجوی سریع کلمات.
تشخیص و تفکیک گویندگان با مشخص‌کردن هر بخش گفتار برای مدیریت بهتر محتوای چند گوینده.
ذخیره متن تبدیل‌شده به عنوان زیرنویس، تنظیم طول کلمات و همگام‌سازی با ویدئو و تولید نهایی زیرنویس شخصی‌سازی‌شده.
فایل‌ها و پروژه‌ها در یک محیط کاری (workspace) حرفه‌ای نگهداری می‌شوند، سابقه و اطلاعات استفاده قابل‌دسترس است و می‌توان اعضای تیم را به محیط کاری اضافه کرد تا به صورت مشترک روی پروژه‌ها کار کنند.
ابزارهای جانبی شامل ادغام، برش و تبدیل فایل‌های صوتی و ویدئویی.
امکان تحلیل و خلاصه‌سازی متن تولید شده توسط هوش مصنوعی یا پرسش از آن برای درک بهتر محتوا.
در نسخه رایگان امکان استفاده محدود تا ۱۰ دقیقه در ماه برای کاربران وجود دارد و باید اشتراک تهیه شود.
قابلیت بسیار جالب دیگر این پلتفرم این است که امکان ضبط جلسات گوگل میت در آن وجود دارد و ویدئو و متن گفتگوها را در حساب کاربری‌تان ذخیره می‌کند. این ویژگی برای زبان فارسی هم دقت قابل‌قبولی دارد و هیچ محدودیت زمانی ندارد و می‌توان به دفعات نامحدودی ربات مربوط به این پلتفرم را به گوگل میت مورد نظر اضافه نمود تا پس از پایان جلسه محتوای آن را به صورت متن و ویدئو ذخیره کند.

در مجموع، ابزارهای معرفی‌شده در این مقاله نشان می‌دهند که فناوری‌های هوش مصنوعی در زمینه‌ی تبدیل صدا به متن فارسی به سطح قابل‌توجهی از دقت و کارایی رسیده‌اند. هرکدام از این پلتفرم‌ها بسته به نیاز کاربر می‌توانند گزینه‌ای مؤثر برای صرفه‌جویی در زمان و افزایش کیفیت کار باشند.
اگر به دنبال آشنایی با راهکارهای بومی هستید، پیشنهاد می‌کنم مقاله دیگر هوشیو درباره یکی از پیشرفته‌ترین نرم‌افزارهای ایرانی تبدیل صدا به متن را نیز بخوانید.

https://hooshio.com/?p=41209

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

تبدیل صوت به متن فارسی

تبدیل صوت به متن با مدل‌های زبانی بزرگ عمومی

جمینای

NotebookLM: تحلیل کلی، جزئیات کمتر

ElevenLabs: استودیوی هوشمند فراتر از تبدیل صوت به متن

Voiser: تولید خودکار زیرنویس با دقت بالا

Happy Scribe: بهترین دقت

ایلان ماسک، پای هوش مصنوعی را به فضا کشاند

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

چین به انتقادهای غرب درباره ایمنی هوش مصنوعی پاسخ داد

دستیار هوش مصنوعی وزارت صمت به بهره‌برداری اولیه رسید

آیا یک هوش مصنوعی می‌تواند تصادفاً همه ما را به گیره کاغذ تبدیل کند؟

هر سوال چند قطره آب مصرف می‌کند؟

آیا هوش مصنوعی می‌تواند منشأ حیات را کشف کند؟

خطرات واقعی هوش مصنوعی

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

دستیار هوش مصنوعی وزارت صمت به بهره‌برداری اولیه رسید

طرح ملی توسعه هوش اصلاح شد

آغاز تدریس «فقه هوش مصنوعی» در حوزه علمیه قم

ایلان ماسک، پای هوش مصنوعی را به فضا کشاند

چین به انتقادهای غرب درباره ایمنی هوش مصنوعی پاسخ داد

کشف ۵۰۰ حفره امنیتی به دست نابغه دیجیتال «آنتروپیک»

فروش تراشه‌های هوش مصنوعی انویدیا به چین در انتظار چراغ سبز ترامپ

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

آیا یک هوش مصنوعی می‌تواند تصادفاً همه ما را به گیره کاغذ تبدیل کند؟

ایلان ماسک، پای هوش مصنوعی را به فضا کشاند

آموزش رایگان هوش مصنوعی برای کودکان محلات کم‌برخوردار

چین به انتقادهای غرب درباره ایمنی هوش مصنوعی پاسخ داد

دستیار هوش مصنوعی وزارت صمت به بهره‌برداری اولیه رسید

تبدیل صوت به متن با مدل‌های زبانی بزرگ عمومی

جمینای

NotebookLM: تحلیل کلی، جزئیات کمتر

ElevenLabs: استودیوی هوشمند فراتر از تبدیل صوت به متن

Voiser: تولید خودکار زیرنویس با دقت بالا

Happy Scribe: بهترین دقت

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید