SpeechBrain
آموزش‌های پایه‌ای هوش مصنوعیآموزش‌های پیشرفته هوش مصنوعیپردازش گفتارکتابخانه‌ های یادگیری عمیق

Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

    0
    مدت زمان مطالعه: ۳ دقیقه

    Speech Brain که یک تول‌کیت منبع باز مبتنی بر PyTorch است درحال حاضر مراحل ساخت را طی می‌کند و قرار است به زودی، نسخه آلفا برای گروهی از کاربران در طی چندماه آینده عرضه شود. این تول‌کیت به صورت یک فریم‌ورک مستقل عمل خواهد کرد، اما رابط‌های کاربری ساده با تول‌کیت‌های شناخته شده مانند Kaldi در این بستر قرار خواهد گرفت.محققان در نظر دارند تا این تول‌کیت واحد را، انعطاف‌پذیر و کاربرپسند تولید کنند و از آن برای توسعه فناوری‌های مدرن از جمله سیستم‌های تشخیص گفتار( پیوسته و HMM-DNN)، تشخیص صدا، تفکیک صدا، پردازش سیگنال چندمیکروفونی و یادگیری بدون نظارت استفاده کنند.

    برای این پروژه بزرگ، جدول زمانی مشخصی ارائه شده است. نسخه اول این امکان را به کاربران خواهد داد تا بتوانند از تول‌کیت به طور کامل و آزادانه استفاده کنند. همچنین انتظار می‌رود که در نسخه دوم، تجربه کامل‌تری از Speech Brain که توانایی انجام امور بیشتری دارد را در اختیار کاربران قرار داده شود. درنهایت قرار است نسخه‌ای خصوصی منتشر شود، اما برای آن دسته از همکاران که در حوزه مختلف گفتار تخصص دارند.

    SpeechBrain

    چرا Speech Brain ؟

    درطی چند سال گذشته، تول‌کیت‌های پردازش گفتار به محبوبیت فراوانی دست یافته‌اند. برای مثال، Kaldi که یک فریم‌ورک شناخته شده برای تشخیص خوکار گفتار مورد استفاده قرار گرفته است. جدا از Kaldi، تول‌کیت‌های مختلف دیگری به زبان پایتون توسعه داده شده که برای مثال می‌توان به PyTorch-Kaldi و PyKaldi و ESPnet اشاره کرد. افزون بر قابلیت تشخیص گفتار، راهکارهای مختلف دیگری مثل تفکیک گفتار، ارتقای گفتار، تشخیص سخنگو و آموزش مدل زبانی در حوزه تشخیص گفتار توسعه پیدا کرده‌اند.

    اگرچه بسیاری از این چارچوب‌ها می‌توانند در انجام کارهای خاصی که برایشان طراحی شده‌، عملکرد بسیار خوبی داشته باشند، اما تجربۀ speech brain ی ها در این حوزه نشان می‌دهد که برخورداری از یک تول‌کیت واحد، کارآمد و انعطاف‌پذیر می‌تواند روند تحقیق و توسعه روش‌های پردازش گفتار و صوت را به شکل قابل توجه‌ای سرعت ببخشد؛ در حقیقت آشنایی و کسب آگاهی از یک تول‌کیت بسیار راحت‌تر از کسب اطلاعات درباره چندین چارچوب مختلف است. علاوه بر این، استفاده از یک پلتفرم یکپارچه برای نرم افزارهای مختلف گفتار و صوت، باعث می‌شود که توسعه سیستم‌های چند منظوره طبیعی تر شده که درنهایت این‌ سیستم‌ها به صورت مشترک برای حل مسائل مختلف استفاده خواهند شد.

    چرا PyTorch؟

    برای اطمینان از انعطاف‌پذیری بالای جهت برطرف کردن نیازهای کاربران، این پلتفرم به دلایل زیر نیازمند این بود که بر روی PyTorch ساخته شود:

    •  PyTorch یک تول‌کیت محبوب، انعطاف‌پذیر با طراحی خوب است که کاربران زیادی از آن استفاده می‌کنند.
    • اکثر نرم‌افزارهای تشخیص بر اساس یادگیری عمیق و روش‌های پردازش سیگنال عمل می‌کنند که پیاده‌سازی آن به صورت طبیعی در PyTorch وجود دارد.
    •  مراحل پردازش به وسیله GPU یا CPU انجام می‌شود.
    • طراحی سیستم‌های تفکیک‌پذیر و پیوسته امکان‌پذیر است.

    محققان این شرکت قصد دارند با تیم صوت PyTorch شرکت فیس‌بوک و Nvidia همکاری داشته باشند. شرکت Nvidia اخیراً تول‌کیت ماژول عصبی (Nemo) را طراحی و روانه بازار کرده که می‌تواند انعطاف‌پذیری را افزایش داده و نرم‌افزارهای تشخیص را تقویت کند.

    Speech Brain و جنبه‌های اجتماعی

    توسعه و استفاده از فن‌آوری‌های Speech Brain بخشی از یک سیاست به منظور دربرگرفتن جنبه‌های اجتماعی است. بنابراین، تمامی شرکا، همکاران و دست‌اندرکاران از ساخت و توسعه مسئولیت‌پذیرانۀ هوش مصنوعی خبر داده‌اند. لذا انتظار می‌رود این اصول و ضوابط به عنوان بخشی از پروژه Speech Brain اجرا شود.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۱ میانگین: ۵]

    مقدمه‌ای بر پرکاربردترین الگوریتم های یادگیری ماشینی برای مبتدیان

    مقاله قبلی

    فرصت های شغلی برای متخصصان پایتون در سال ۲۰۲۱

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *