تبدیل صوت به متن فارسی
«باید خبرنگار باشی تا قدر سرویسهای تبدیل صدا به متن را بدانی.» این جمله را در جواب پرسش یکی از دوستانم که کنجکاو بود بداند چرا انقدر مشتاق استفاده از ابزارهای هوش مصنوعی در کار روزنامهنگاری هستم، گفتم. تبدیل صدا به متن یکی از خدماتی است که میتواند بسیاری از گرههای اصلی شغلی ما را باز کند و وقت بیشتری در اختیارمان قرار دهد.
عقبماندن از گفتههای مصاحبهشونده، حجم بالای فایلهای صوتی و نیاز به پیادهسازی سریع و دقیق از چالشهای همیشگی خبرنگاری است. اما این ابزارها تنها به درد خبرنگاران نمیخورند. تصور کنید دانشجویی باشید که صدای استاد را ضبط کرده و میخواهد نکات مهم را به متن تبدیل کند یا یک محقق که مصاحبههای میدانی زیادی انجام داده و باید همه دادهها را سازماندهی کند. حتی نویسندگان، مدرسین و متخصصان حوزه کسبوکار هم میتوانند با استفاده از تبدیل صوت به متن، یادداشتها و جلسات خود را به سرعت پیادهسازی و آرشیو کنند.
اگر شما هم با این مسائل مواجه هستید این مقاله برایتان مفید خواهد بود. در ادامه قصد داریم تجربه استفاده از چند ابزار کاربردی و مناسب برای تبدیل فایلهای صوتی به متن فارسی را بیان کنیم تا دیگر نیازی به تایپهای طاقتفرسا و شبزندهداریهای طولانی نباشد.
برای این منظور تعداد زیادی از پلتفرمهای تبدیل صوت به متن که به عنوان Speech-to-Text (STT) Platforms یا Automatic Speech Recognition (ASR) Systems شناخته میشوند، امتحان شدند و در این مقاله بهترین ابزارهایی که از زبان فارسی پشتیبانی دقیق و قابلاعتمادی داشتند معرفی شدهاند.
تبدیل صوت به متن با مدلهای زبانی بزرگ عمومی
اولین گزینه آشنایی که به سراغش رفتیم، ChatGPT بود. این مدل در پردازش زبان طبیعی فوقالعاده عمل میکند؛ اما در عمل قابلیت تبدیل مستقیم فایلهای صوتی به متن را ندارد و هیچ ابزاری در محیط خود برای این کار ارائه نمیدهد.

در کنارChatGPT، برخی توسعهدهندگان و کاربران، GPTs را برای تبدیل صوت به متن به کار گرفتهاند. GPTs در واقع نسخههای سفارشی مدلهای زبانی بزرگ هستند که کاربران میتوانند آنها را با پرامپتها و ابزارهای خاص شخصیسازی کنند. این نسخهها معمولاً در محیط OpenAI و پلتفرم ChatGPT ایجاد میشوند و میتوانند با افزونهها یا APIهای جانبی مانند Whisper برای پردازش صوت ترکیب شوند.
با این حال، این ابزارها هنوز به طور عملی از زبان فارسی پشتیبانی نمیکنند و عملکرد آنها در پردازش فایلهای صوتی فارسی بسیار بیکیفیت است. اگرچه در این مقاله تجربههای ناموفق را ذکر نمیکنیم؛ اما به علت استفاده بسیار گسترده کاربران از ChatGPT بهتر دیدیم که این مورد را اشاره کنیم.
جمینای
Gemini گزینه دیگری است که دقت تبدیل صوت به متن فارسی آن در صورت خرید اکانت حرفهای جمینای است. این پلتفرم قابلیت تشخیص خودکار گویندهها را ندارد؛ اما با راهنمایی در پرامپت میتوان تعداد افراد حاضر در گفتگو را مشخص کرد و گویندهها را تا حد قابلقبولی شناسایی نمود. نسخه رایگان Gemini محدودیتهایی دارد:
- تعداد فایل در هر درخواست: حداکثر ۱۰ فایل
- حداکثر حجم فایل غیر ویدئویی: ۱۰۰ مگابایت
- حداکثر حجم فایل ویدئویی: ۲ گیگابایت
- زمان هر فایل صوتی: ۱۰ دقیقه
میتوانید یک فایل ZIP تا حجم ۱۰۰ مگابایت که شامل حداکثر ۱۰ فایل باشد، بارگذاری کنید. اما این فایل فشرده نمیتواند حاوی فایل صوتی یا تصویری باشد.
همچنین استفاده از قابلیت تحلیل و بارگذاری فایل دارای محدودیتهای دورهای (Rolling limits) است. این یعنی پس از استفاده ممتد در یک بازه زمانی مشخص باید مدتی صبر کنید تا محدودیت شما بازنشانی شود.
این محدودیتها نشان میدهد که برای استفاده جدی و مداوم، نسخه حرفهای لازم است؛ اما سرعت و دقت برگرداندن متن آن بسیار خوب است.
NotebookLM: تحلیل کلی، جزئیات کمتر
NotebookLM یک پلتفرم پیشرفته مبتنی بر مدلهای زبانی بزرگ است که برای پردازش و تحلیل محتوا طراحی شده است. این ابزار میتواند انواع فایلها را دریافت کرده، آنها را تحلیل کند و خلاصه، برداشت کلی یا تحلیل محتوایی ارائه دهد. کاربردهای این پلتفرم بسیار گسترده است؛ از تحلیل مقالات و مستندات گرفته تا پردازش مصاحبهها، ارائه خلاصه جلسهها و حتی تولید محتوای تصویری و آموزشی بر اساس منابع دریافتی.

در زمینه تبدیل صوت به متن فارسی، امکان بارگذاری فایل صوتی و تولید متن خروجی را بدون محدودیت فراهم میکند. دقت تبدیل در مقایسه با ابزارهایی مانند Gemini متوسط است و ممکن است در تشخیص دقیق اسامی، نگارش و یافتن کلمات فارسی با مشکل روبهرو شود. علاوه بر این، تفکیک گویندگان به طور پیشفرض انجام نمیشود و این ابزار بیشتر برای ارائه تحلیل کلی محتوا و برداشت عمومی از گفتگوها مناسب است، نه برای ثبت دقیق جزئیات مکالمه.
با این وجود همچنان میتواند تصویر کلی از محتوای صوتی یا متنی ارائه دهد و برای کسانی که به دنبال درک کلی و تحلیل محتوا هستند، ابزار مفیدی به شمار میآید به شرطی که به دنبال جزئیات دقیق و نگارش کاملاً صحیح کلمات فارسی نباشید.
ElevenLabs: استودیوی هوشمند فراتر از تبدیل صوت به متن
ElevenLabs یک استارتاپ پیشرفته در زمینه هوش مصنوعی است که به طور ویژه بر روی پردازش صوت تمرکز دارد. این پلتفرم، استودیویی کامل ارائه میدهد که امکان کار با صوت را در چندین سطح فراهم میکند و با استفاده از مدلهای پیشرفتهای مانند Scribe v1 و Eleven v3، توانسته است تجربهای طبیعی و انسانی در تولید و پردازش صدا ارائه دهد. مدل Scribe v1 بهعنوان یکی از دقیقترین مدلهای تبدیل صوت به متن در صنعت شناخته میشود. این قابلیت بهویژه برای تولید زیرنویس، رونویسی جلسات، پادکستها و مصاحبهها مناسب است.

در آزمونهای ما، قابلیت تبدیل صوت فارسی با دقت بسیار بالا عمل کرد و تجربه استفاده از آن رضایتبخش بود؛ بهخصوص در تولید زیرنویسهای زمانبندیشده و تفکیک گویندگان، خروجیها از کیفیت و کارایی قابلقبولی برخوردار بودند.
قابلیتها و نکات کلیدی این پلتفرم به شرح زیر است:
- مدل Scribe v1 برای فارسی یکی از مدلهای پیشرفته ElevenLabs است که پشتیبانی از زبان فارسی را در سطحی قابل توجه ارائه میکند و برای پیادهسازی محتوای فارسی توسعهیافته است.
- تقسیمبندی زمانی و همزمانسازیصوت به این ترتیب که صوت به بازههای زمانی منطقی تقسیم میشود و کنار هر بازه، متن مربوط به آن بخش قرار میگیرد و کار تولید زیرنویس و همنشینی متن با ویدیو را بسیار ساده میکند.
- مدل قابلیت تشخیص و تفکیک گویندگان مختلف را دارد؛ به عبارت دیگر میتواند مشخص کند هر بخش از گفتار متعلق به کدام گوینده است که این ویژگی برای مصاحبهها و میزگردها اهمیت زیادی دارد.
- علاوه بر تقسیمبندی بازهای، امکان تولید کد زمانی دقیق برای کلمات نیز وجود دارد که دقت هماهنگسازی متن و صوت را افزایش میدهد.
- رویدادهایی مانند خنده، سکوت، موسیقی یا آلودگی صوتی قابلتشخیص و برچسبگذاری هستند تا متن نهایی خواناتر و نزدیکتر به واقعیت باشد.
- خروجی متن قابل دانلود در فرمتهای متداول TXT، DOCX، PDF و فرمتهای زیرنویس SRT، VTT یا فرمتهای ساختاری مانند JSON و HTML است. متن تولیدشده قابل ویرایش است.
- در محیط استودیویی ElevenLabs میتوان پروژههای صوتی/ویدیویی ساخت، ترکهای صوتی و موسیقی اضافه کرد و با ویرایشگر تایملاین روی ترکیب دقیق صوت و متن کنترل داشت؛ یعنی پلتفرم فقط یک موتور تبدیل گفتار به متن نیست؛ بلکه یک محیط تولید و تدوین صوتی_متنی است.
- در طرح رایگان کاربران به مقدار مشخصی اعتبار ماهانه (۱۰ هزار credit معادل ۲ ساعت و ۳۰ دقیقه در ماه) دسترسی دارند.
- در بخش مستندات رسمی ذکر شده است که طرح رایگان محدودیت همزمانی دارد(Concurrency Limit ) مثلاً اجازه همزمانی ۸ درخواست را دارد.
Voiser: تولید خودکار زیرنویس با دقت بالا
Voiser نیز پلتفرم هوش مصنوعی برای تبدیل صوت به متن و تولید زیرنویس است. این وبسایت بر تبدیل فایلهای صوتی یا ویدیویی به متن همراه با زمانبندی دقیق تمرکز دارد و ادعا میکند که میتواند با دقتی نزدیک به ۱۰۰٪ تبدیل را انجام دهد.

در تجربه ما، Voiser توانست صوتها را با کیفیت و دقت قابلقبول تبدیل کند و خروجی بهصورت زیرنویس همراه با زمانبندی ارائه دهد؛ اما در نسخه رایگان، محدودیت ۱۵ دقیقه در ماه برای فایل صوتی وجود دارد و در عمل برای پروژههای طولانیتر باید اشتراک تهیه کرد. دیگر ویژگیهای این پلتفرم به شرح زیر است:
- امکان دانلود متن و زیرنویس در قالبهای گوناگونی مانند TXT، DOCX، SRT و VTT.
- سرعت تبدیل نسبت به Gemini کندتر به نظر میرسید.
- قابلیت تفکیک و شناسایی گویندگان مختلف را برای سازماندهی بهتر محتوای پیچیده.
- امکان ترجمه متن پیادهسازی شده به زبانهای مختلف.
- برخی اشتباهات در اسامی یا واژههایی با تلفظ پیچیده مشاهده شد؛ اما به طور کلی اشتباهات قابل اغماض بودند.
- امکان ویرایش متن پس از تولید در محیط خود پلتفرم وجود دارد که این کمک میکند اشتباهات کوچک را تصحیح کنیم و زیرنویس نهایی را دقیقتر کنیم.
- امکان بارگذاری و پردازش انواع فایلهای صوتی و تصویری، با پشتیبانی از فرمتهای گسترده برای پوشش تمام نیازهای کاربر وجود دارد و میتوان لینک یوتیوب را نیز با دقت بسیار بالا به متن تبدیل کرد.
- رابط کاربری ساده و کاربرپسند آن امکان اصلاح و جستجوی سریع کلمات در متن را فراهم میکند.
- با همکاری با ChatGPT، امکان ایجاد خلاصه متن یا پاسخ به پرسشها فراهم شده است تا تحلیل و مرور محتوای طولانی سادهتر شود.
Happy Scribe: بهترین دقت
Happy Scribe پلتفرم دیگری تحت وب است که به کمک هوش مصنوعی، فایلهای صوتی و تصویری را به متن تبدیل میکند و امکان تولید زیرنویس را نیز دارد.
این سرویس از بیش از ۱۲۰ زبان پشتیبانی میکند و قابلیتهایی مانند تشخیص گوینده (speaker labeling)، زمانبندی دقیق (timecodes) و ویرایش تعاملی متن را ارائه میدهد. کاربران میتوانند متن را با صوت همگامسازی کنند، به طوری که هنگام پخش فایل صوتی یا ویدیویی، بخش مربوطه در متن برجسته میشود و کار ویرایش بسیار سادهتر میشود.

در تجربه ما با وجود اینکه این پلتفرم شهرت کمتری دارد؛ اما در آزمایش پلتفرمهای موجود با یک فایل صوتی یکسان، بهترین دقت تبدیل به متن فارسی متعلق به Happy Scribe بود. تنها نقطه ضعف آن این است که رایگان نیست. در نسخه رایگان فقط امکان استفاده محدود وجود دارد (۱۰ دقیقه امکان رونویسی اولیه) و برای استفادههای جدیتر باید به طرحهای پولی ارتقا دهید.
دیگر ویژگیها و امکانات کلیدی این پلتفرم به شرح زیر است:
- امکان رونویسی سریع فایلهای صوتی و تصویری با دقت بالا.
- قابلیت ترجمه صوت و ویدئو به زبانهای مختلف برای دسترسی جهانی.
- ابزارهایی مانند Audio Summarizer و YouTube Summarizer به منظور استخراج نکات کلیدی محتوا برای خلاصهسازی هوشمند.
- ویرایشگر تعاملی و رابط کاربری ساده با امکان اصلاح متن و جستجوی سریع کلمات.
- تشخیص و تفکیک گویندگان با مشخصکردن هر بخش گفتار برای مدیریت بهتر محتوای چند گوینده.
- ذخیره متن تبدیلشده به عنوان زیرنویس، تنظیم طول کلمات و همگامسازی با ویدئو و تولید نهایی زیرنویس شخصیسازیشده.
- فایلها و پروژهها در یک محیط کاری (workspace) حرفهای نگهداری میشوند، سابقه و اطلاعات استفاده قابلدسترس است و میتوان اعضای تیم را به محیط کاری اضافه کرد تا به صورت مشترک روی پروژهها کار کنند.
- ابزارهای جانبی شامل ادغام، برش و تبدیل فایلهای صوتی و ویدئویی.
- امکان تحلیل و خلاصهسازی متن تولید شده توسط هوش مصنوعی یا پرسش از آن برای درک بهتر محتوا.
- در نسخه رایگان امکان استفاده محدود تا ۱۰ دقیقه در ماه برای کاربران وجود دارد و باید اشتراک تهیه شود.
- قابلیت بسیار جالب دیگر این پلتفرم این است که امکان ضبط جلسات گوگل میت در آن وجود دارد و ویدئو و متن گفتگوها را در حساب کاربریتان ذخیره میکند. این ویژگی برای زبان فارسی هم دقت قابلقبولی دارد و هیچ محدودیت زمانی ندارد و میتوان به دفعات نامحدودی ربات مربوط به این پلتفرم را به گوگل میت مورد نظر اضافه نمود تا پس از پایان جلسه محتوای آن را به صورت متن و ویدئو ذخیره کند.
در مجموع، ابزارهای معرفیشده در این مقاله نشان میدهند که فناوریهای هوش مصنوعی در زمینهی تبدیل صدا به متن فارسی به سطح قابلتوجهی از دقت و کارایی رسیدهاند. هرکدام از این پلتفرمها بسته به نیاز کاربر میتوانند گزینهای مؤثر برای صرفهجویی در زمان و افزایش کیفیت کار باشند.
اگر به دنبال آشنایی با راهکارهای بومی هستید، پیشنهاد میکنم مقاله دیگر هوشیو درباره یکی از پیشرفتهترین نرمافزارهای ایرانی تبدیل صدا به متن را نیز بخوانید.