Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

تیم تحریریه
۱۹ آبان ۱۴۰۰

زمان مطالعه: 2 دقیقه

Speech Brain که یک تول‌کیت منبع باز مبتنی بر PyTorch است درحال حاضر مراحل ساخت را طی می‌کند و قرار است به زودی، نسخه آلفا برای گروهی از کاربران در طی چندماه آینده عرضه شود. این تول‌کیت به صورت یک فریم‌ورک مستقل عمل خواهد کرد، اما رابط‌های کاربری ساده با تول‌کیت‌های شناخته شده مانند Kaldi در این بستر قرار خواهد گرفت.محققان در نظر دارند تا این تول‌کیت واحد را، انعطاف‌پذیر و کاربرپسند تولید کنند و از آن برای توسعه فناوری‌های مدرن از جمله سیستم‌های تشخیص گفتار(پیوسته و HMM-DNN)، تشخیص صدا، تفکیک صدا، پردازش سیگنال چندمیکروفونی و یادگیری بدون نظارت استفاده کنند.

برای این پروژه بزرگ، جدول زمانی مشخصی ارائه شده است. نسخه اول این امکان را به کاربران خواهد داد تا بتوانند از تول‌کیت به طور کامل و آزادانه استفاده کنند. همچنین انتظار می‌رود که در نسخه دوم، تجربه کامل‌تری از Speech Brain که توانایی انجام امور بیشتری دارد را در اختیار کاربران قرار داده شود. درنهایت قرار است نسخه‌ای خصوصی منتشر شود، اما برای آن دسته از همکاران که در حوزه مختلف گفتار تخصص دارند.

فهرست مقاله پنهان

1 چرا Speech Brain؟

2 چرا PyTorch؟

3 Speech Brain و جنبه‌های اجتماعی

چرا Speech Brain؟

درطی چند سال گذشته، تول‌کیت‌های پردازش گفتار به محبوبیت فراوانی دست یافته‌اند. برای مثال، Kaldi که یک فریم‌ورک شناخته شده برای تشخیص خوکار گفتار مورد استفاده قرار گرفته است. جدا از Kaldi، تول‌کیت‌های مختلف دیگری به زبان پایتون توسعه داده شده که برای مثال می‌توان به PyTorch-Kaldi و PyKaldi و ESPnet اشاره کرد. افزون بر قابلیت تشخیص گفتار، راهکارهای مختلف دیگری مثل تفکیک گفتار، ارتقای گفتار، تشخیص سخنگو و آموزش مدل زبانی در حوزه تشخیص گفتار توسعه پیدا کرده‌اند.

[irp posts=”3912″]

اگرچه بسیاری از این چارچوب‌ها می‌توانند در انجام کارهای خاصی که برایشان طراحی شده‌، عملکرد بسیار خوبی داشته باشند، اما تجربۀ speech brain ی ها در این حوزه نشان می‌دهد که برخورداری از یک تول‌کیت واحد، کارآمد و انعطاف‌پذیر می‌تواند روند تحقیق و توسعه روش‌های پردازش گفتار و صوت را به شکل قابل توجه‌ای سرعت ببخشد؛ در حقیقت آشنایی و کسب آگاهی از یک تول‌کیت بسیار راحت‌تر از کسب اطلاعات درباره چندین چارچوب مختلف است. علاوه بر این، استفاده از یک پلتفرم یکپارچه برای نرم افزارهای مختلف گفتار و صوت، باعث می‌شود که توسعه سیستم‌های چند منظوره طبیعی تر شده که درنهایت این‌ سیستم‌ها به صورت مشترک برای حل مسائل مختلف استفاده خواهند شد.

چرا PyTorch؟

برای اطمینان از انعطاف‌پذیری بالای جهت برطرف کردن نیازهای کاربران، این پلتفرم به دلایل زیر نیازمند این بود که بر روی PyTorch ساخته شود:

PyTorch یک تول‌کیت محبوب، انعطاف‌پذیر با طراحی خوب است که کاربران زیادی از آن استفاده می‌کنند.
اکثر نرم‌افزارهای تشخیص بر اساس یادگیری عمیق و روش‌های پردازش سیگنال عمل می‌کنند که پیاده‌سازی آن به صورت طبیعی در PyTorch وجود دارد.
مراحل پردازش به وسیله GPU یا CPU انجام می‌شود.
طراحی سیستم‌های تفکیک‌پذیر و پیوسته امکان‌پذیر است.

محققان این شرکت قصد دارند با تیم صوت PyTorch شرکت فیس‌بوک و Nvidia همکاری داشته باشند. شرکت Nvidia اخیراً تول‌کیت ماژول عصبی (Nemo) را طراحی و روانه بازار کرده که می‌تواند انعطاف‌پذیری را افزایش داده و نرم‌افزارهای تشخیص را تقویت کند.

[irp posts=”17360″]

Speech Brain و جنبه‌های اجتماعی

توسعه و استفاده از فن‌آوری‌های Speech Brain بخشی از یک سیاست به منظور دربرگرفتن جنبه‌های اجتماعی است. بنابراین، تمامی شرکا، همکاران و دست‌اندرکاران از ساخت و توسعه مسئولیت‌پذیرانۀ هوش مصنوعی خبر داده‌اند. لذا انتظار می‌رود این اصول و ضوابط به عنوان بخشی از پروژه Speech Brain اجرا شود.

https://hooshio.com/?p=3143

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

چرا Speech Brain؟

چرا PyTorch؟

Speech Brain و جنبه‌های اجتماعی

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

آیا استفاده از چت‌بات‌های هوش مصنوعی فعالیت مغز انسان را تغییر می‌دهد؟

وقتی هوش مصنوعی به چشم پزشکان بدل می‌شود

وردست‌های هوشمند

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

هوش مصنوعی در خدمت جامعه؛ از ابزار سرکوب تا فناوری مدنی

چگونه فناوری می‌تواند مسیر کنشگری اجتماعی را متحول کند؟

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

پهپاد انتحاری تایوان با قابلیت هوش‌مصنوعی به میدان آمد

فهرست مخفی زاکربرگ برای شکار نخبگان هوش مصنوعی

داستان ۲۰۲۵؛ هوش مصنوعی مولد در بافت زندگی واقعی

حذف ابزار هوش مصنوعی MrBeast پس از موج انتقادها: «قصد کمک داشتم، اما اشتباه کردم»

اپل ممکن است شرکت Perplexity AI را خریداری کند

چرا Speech Brain؟

چرا PyTorch؟

Speech Brain و جنبه‌های اجتماعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید