صدا به متن گوگل : معجزه ای در پیاده سازی فایل های صوتی به متن
«باید خبرنگار باشی تا قدر سرویس تبدیل صدا به متن گوگل را بدانی.» این جمله را در جواب پرسش یکی از دوستانم، که کنجکاو بود در مورد علت اشتیاق من برای شرکت در دوره «آموزش رایگان روزنامهنگاری و هوش مصنوعی» بداند گفتم. تبدیل صدا به متن گوگل یکی از خدمات نسبتا جدید این مرورگر بر پایه هوش مصنوعی است. ازآنجاییکه من بهتازگی با آن آشنا شده بودم و تقریبا یکی از گرههای اصلی شغل من به دست این برنامه باز شده بود، مشتاق بودم تا از دیگر کاربردهای هوش مصنوعی در حوزه کاریام بدانم.
درحقیقت، عقبافتادن از آموزشهای استاد یکی از چالشهای اصلی من سر کلاس درس و دانشگاه بود. بعد از واردشدن به حوزه خبرنگاری هم، متاسفانه چالش عقبافتادن از گفتههای مصاحبهشونده، همچنان دست از سر من بر نمیداشت و از طرفی پیادهکردن ویسهای هر مصاحبه، باتوجهبه حجم بالای کار، گاه مرا مجبور به شبزندهداریهای طاقتفرسا میکرد. اگر شما هم مثل من با پیادهکردن فایلهای صوتیتان مشکل دارید و حتی از این بیشتر حتی اگر با این موضوع مشکلی هم ندارید.
با این نگاه که «وقت طلاست» پیشنهاد میکنم با برنامه کاربردی «تبدیل صدا به متن گوگل» آشنا شوید. این تکنولوژی برای من دریچهای به دنیای جدید بود، مطمئنم شما هم پس از امتحانکردن آن با من همنظر خواهید بود.
کاربرد هوش مصنوعی در تبدیل صدا به متن
این سرویس که درحقیقت نشانگر کاربرد هوش مصنوعی در تبدیل صدا به متن است، یکی از خدمتهای بزرگ گوگل برای افرادیست که از سرعت تایپ پایینی برخوردارند یا اینکه میخواهند رونوشتی از صحبتهای طرف مقابل برای خود داشته باشند. مطمئناً یکی از سؤالات اساسی پس از مواجه شدن با چنین سرویسی، چگونگی تبدیل صدا به متن و نحوه کار با این سرویس است.
برای این منظور باید در ابتدا دلیل انتخاب سرویس گوگل را برایتان بگویم، زیرا در حال حاضر مجموعههای بسیاری به رقابت با گوگل قد علم کردهاند، ولی باید اعتراف کنم که هیچیک از سرویسهای موجود، خروجی به کیفیت گوگل ارائه نمیدهند.
گوگل این برنامه را براساس الگوریتم پردازش زبان طبیعی طراحی کرده. اگر بخواهم کمی تخصصیتر در خصوص کاربرد هوش مصنوعی در این حوزه برایتان بگویم این است که، این مرورگر در روند پردازش پیکره بزرگی از اصوات، آنها را به صورت دادههای مورد نظر در میآورد. در حقیقت پیشرفت الگوریتمهای هوش مصنوعی در این سرویس گوگل و در طبقهبندی موفقیست که در سیگنالهای دریافتی داشته و هر روز با توسعه این پیکرههای زبانی، توانایی خود را در ارائه خروجیهای متنی با دقت بیشتر و ضریب خطای کمتر به رخ میکشد.
البته درست است که تمامی این روندها بر مبنای هوش مصنوعی پردازش میشود، ولی پیش از هر چیز باید این نکته را بدانید که، برای تبدیل صدا موردنظرتان به متن، باید فایلی آپلود کنید که از کیفیت و وضوح خوبی برخوردار است. درضمن در اطراف هم صدایی پسزمینه و مزاحم وجود نداشته باشد، زیرا در غیر این صورت نمیتوانید انتظار خروجی متنی عالی از گوگل داشته باشید.
استفاده از روش گوگل برای تبدیل صدا به نوشتار از طریق کلاد است. البته سایتهای دیگری هم در این راستا گام برداشتهاند و از سیستم تبدیل گفتار به نوشتار گوگل کلاد استفاده میکنند. اما انجام کار با سرویس گوگل بسیار ساده بوده و به شما امکان تبدیل هر صدایی به نوشتار را میدهد. برای این منظور میتوانید از طریق بارگذاری فایل، گفتار را به نوشتار تبدیل کرده یا اگر تمایل دارید گفتههای خودتان را تبدیل به متن کنید، در میکروفن شروع به صحبت نمایید.
آموزش تبدیل صدا به متن گوگل در 4 مرحله
روال کار با سرویس تبدیل صوت به متن گوگل یا Speech-to-Text APIبهقدری ساده است که، برای کسانی که تاکنون از این امکان استفاده نکردهاند، کمی غیرقابلباور به نظرمیرسد. بنا دارم این مراحل ساده آموزش تبدیل صوت به متن گوگل را در 4 گام با شما مرور کنم، با من همراه باشید.
گام اول: در گام نخست باید وارد این لینک به نشانی https://cloud.google.com/speech-to-text شوید و در صفحه پیش رو که درحقیقت برای تبدیل صدا به متن گوگل کلاد طراحی شده، صفحه را کمی بهسمت پایین اسکرول کنید تا عنوان Put Speech-to-Text into action را مشاهده کنید.
گام دوم: در ادامه نوبت به مشخصکردن زبان فایل صوتیتان میرسد، که قصد تبدیل آن به متن را دارید. این کار را باید از قسمت Language انجام داده و سپس بر روی قسمت CHOOSE FILE کلیک نمایید. اگر هم میخواهید بهصورت زنده گفتوگوهای خود را تبدیل به متن کنید، تنها کافیست بر روی گزینه Microphone که در قسمت Input type قرار دارد، کلیک کنید. پس از این مرحله با انتخاب گزینه START NOW، میکروفن شما باز شده و هر کلمهای از زبان شما جاری شود، بهصورت خروجی نوشتاری برای شما به نمایش درمیآید.
(نکتهای که در خصوص استفاده از میکروفن نباید فراموش کنید آن است که تیک Microphone در Input type را باید حتما برای خودتان فعال کرده باشید، در غیر این صورت نمیتوانید صدای خودتان را تبدیل به متن نمایید.)
گام سوم: در این مرحله در حقیقت برای گوگل فرقی ندارد که شما فایل آپلود کردهاید یا میخواهید از میکروفنتان استفاده کنید، زیرا نوبت به احراز هویت شما رسیده و باید اثبات کنید که روبات نیستید. پس گزینه I m not a robot را انتخاب کنید تا بتوانید هرچه زودتر به خروجی متنی خود دسترسی پیدا کنید.
گام چهارم: برای آنکه متن مورد نظرتان را مشاهده کنید، باید به بخش command/search یا default مراجعه کنید. براساس تجربه خودم و دیگر کاربران، برای آنکه متن شستهرفتهتری از این سرویس گوگل دریافت کنید، به شما پیشنهاد میکنم که ابتدا صدای خود را ضبط کرده و سپس از طریق بارگذاری فایل برای تبدیل صدا به متن اقدام کنید.
کلام آخر
مطمئناً یکی از سؤالاتی که در خصوص این سرویس بهشدت کار راهانداز در ذهنتان نقش بسته پولی یا رایگانبودن آن است. شما میتوانید بهصورت ماهانه 60 دقیقه اعتبار رایگان برای رونویسی و تجزیه و تحلیل صدا به متن گوگل آنلاین داشته باشید، بدون آنکه از اعتبار شما چیزی کسر گردد. ضمناً ازآنجاییکه کاربران ایرانی عموماً در استفاده از سرویسهای خارجی محدودیتهایی دارند، پیشنهاد میکنم حتماً با استفاده از ویپیان، برای استفاده از این سرویس گوگل تلاش کنید.
درحالیکه این مطلب را به انتها میرسانم همچنان اعتقاد دارم یکی از کلافهکنندهترین کارهای ممکن در این دنیا، پیادهسازی فایلهای صوتی یا همان تبدیل صدا به متن است، که حالا به لطف گوگل دیگر برایم کسالتبار نیست. من نخستینبار برای امتحان این سرویس، یکی از سرودههای استاد سایه را بهصورت فایل بارگذاری کردم. هرچند ممکن است به نظرتان معیار سنجش بسیار سادهای را انتخاب کرده باشم، ولی فکر میکنم این امتحان ساده، حسن ختام شیرینی برای آشنایی شما با این سرویس باشد. پیشنهاد میکنم نوشته دیگر من درباره یکی از پیشرفته ترین نرم افزارهای تبدیل صدا به متن ایرانی را هم بخوانید.
متن خروجی گوگل
نشستم به در نگاه میکنم
دریچه آه میکشد
تو از کدام راه میرسی
خیال دیدنت چه دلپذیر بود
جوانیام در این امید پیر شد
نیامدی و دیش
متن اصلی
نشستهام به در نگاه میکنم
دریچه آه میکشد
تو از کدام راه میرسی
خیال دیدنت چه دلپذیر بود
جوانیام در این امید پیر شد
نیامدی و دیر شد…
من از چالشهای شغلیام و نیازم به سرویس تبدیل صدا به متن گوگل گفتم، چالش شما برای نیاز به این برنامه چیست؟
در چه زمانهایی و کجاها بیشتر به این سیستم احساس نیاز میکنید؟