Speech Brain یک تول کیت منبع باز و مبتنی بر PyTorch
Speech Brain که یک تولکیت منبع باز مبتنی بر PyTorch است درحال حاضر مراحل ساخت را طی میکند و قرار است به زودی، نسخه آلفا برای گروهی از کاربران در طی چندماه آینده عرضه شود. این تولکیت به صورت یک فریمورک مستقل عمل خواهد کرد، اما رابطهای کاربری ساده با تولکیتهای شناخته شده مانند Kaldi در این بستر قرار خواهد گرفت.محققان در نظر دارند تا این تولکیت واحد را، انعطافپذیر و کاربرپسند تولید کنند و از آن برای توسعه فناوریهای مدرن از جمله سیستمهای تشخیص گفتار(پیوسته و HMM-DNN)، تشخیص صدا، تفکیک صدا، پردازش سیگنال چندمیکروفونی و یادگیری بدون نظارت استفاده کنند.
برای این پروژه بزرگ، جدول زمانی مشخصی ارائه شده است. نسخه اول این امکان را به کاربران خواهد داد تا بتوانند از تولکیت به طور کامل و آزادانه استفاده کنند. همچنین انتظار میرود که در نسخه دوم، تجربه کاملتری از Speech Brain که توانایی انجام امور بیشتری دارد را در اختیار کاربران قرار داده شود. درنهایت قرار است نسخهای خصوصی منتشر شود، اما برای آن دسته از همکاران که در حوزه مختلف گفتار تخصص دارند.
چرا Speech Brain؟
درطی چند سال گذشته، تولکیتهای پردازش گفتار به محبوبیت فراوانی دست یافتهاند. برای مثال، Kaldi که یک فریمورک شناخته شده برای تشخیص خوکار گفتار مورد استفاده قرار گرفته است. جدا از Kaldi، تولکیتهای مختلف دیگری به زبان پایتون توسعه داده شده که برای مثال میتوان به PyTorch-Kaldi و PyKaldi و ESPnet اشاره کرد. افزون بر قابلیت تشخیص گفتار، راهکارهای مختلف دیگری مثل تفکیک گفتار، ارتقای گفتار، تشخیص سخنگو و آموزش مدل زبانی در حوزه تشخیص گفتار توسعه پیدا کردهاند.
[irp posts=”3912″]اگرچه بسیاری از این چارچوبها میتوانند در انجام کارهای خاصی که برایشان طراحی شده، عملکرد بسیار خوبی داشته باشند، اما تجربۀ speech brain ی ها در این حوزه نشان میدهد که برخورداری از یک تولکیت واحد، کارآمد و انعطافپذیر میتواند روند تحقیق و توسعه روشهای پردازش گفتار و صوت را به شکل قابل توجهای سرعت ببخشد؛ در حقیقت آشنایی و کسب آگاهی از یک تولکیت بسیار راحتتر از کسب اطلاعات درباره چندین چارچوب مختلف است. علاوه بر این، استفاده از یک پلتفرم یکپارچه برای نرم افزارهای مختلف گفتار و صوت، باعث میشود که توسعه سیستمهای چند منظوره طبیعی تر شده که درنهایت این سیستمها به صورت مشترک برای حل مسائل مختلف استفاده خواهند شد.
چرا PyTorch؟
برای اطمینان از انعطافپذیری بالای جهت برطرف کردن نیازهای کاربران، این پلتفرم به دلایل زیر نیازمند این بود که بر روی PyTorch ساخته شود:
- PyTorch یک تولکیت محبوب، انعطافپذیر با طراحی خوب است که کاربران زیادی از آن استفاده میکنند.
- اکثر نرمافزارهای تشخیص بر اساس یادگیری عمیق و روشهای پردازش سیگنال عمل میکنند که پیادهسازی آن به صورت طبیعی در PyTorch وجود دارد.
- مراحل پردازش به وسیله GPU یا CPU انجام میشود.
- طراحی سیستمهای تفکیکپذیر و پیوسته امکانپذیر است.
محققان این شرکت قصد دارند با تیم صوت PyTorch شرکت فیسبوک و Nvidia همکاری داشته باشند. شرکت Nvidia اخیراً تولکیت ماژول عصبی (Nemo) را طراحی و روانه بازار کرده که میتواند انعطافپذیری را افزایش داده و نرمافزارهای تشخیص را تقویت کند.
Speech Brain و جنبههای اجتماعی
توسعه و استفاده از فنآوریهای Speech Brain بخشی از یک سیاست به منظور دربرگرفتن جنبههای اجتماعی است. بنابراین، تمامی شرکا، همکاران و دستاندرکاران از ساخت و توسعه مسئولیتپذیرانۀ هوش مصنوعی خبر دادهاند. لذا انتظار میرود این اصول و ضوابط به عنوان بخشی از پروژه Speech Brain اجرا شود.