Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

تیم تحریریه
۱۹ آبان ۱۴۰۰

زمان مطالعه: 2 دقیقه

Speech Brain که یک تول‌کیت منبع باز مبتنی بر PyTorch است درحال حاضر مراحل ساخت را طی می‌کند و قرار است به زودی، نسخه آلفا برای گروهی از کاربران در طی چندماه آینده عرضه شود. این تول‌کیت به صورت یک فریم‌ورک مستقل عمل خواهد کرد، اما رابط‌های کاربری ساده با تول‌کیت‌های شناخته شده مانند Kaldi در این بستر قرار خواهد گرفت.محققان در نظر دارند تا این تول‌کیت واحد را، انعطاف‌پذیر و کاربرپسند تولید کنند و از آن برای توسعه فناوری‌های مدرن از جمله سیستم‌های تشخیص گفتار(پیوسته و HMM-DNN)، تشخیص صدا، تفکیک صدا، پردازش سیگنال چندمیکروفونی و یادگیری بدون نظارت استفاده کنند.

برای این پروژه بزرگ، جدول زمانی مشخصی ارائه شده است. نسخه اول این امکان را به کاربران خواهد داد تا بتوانند از تول‌کیت به طور کامل و آزادانه استفاده کنند. همچنین انتظار می‌رود که در نسخه دوم، تجربه کامل‌تری از Speech Brain که توانایی انجام امور بیشتری دارد را در اختیار کاربران قرار داده شود. درنهایت قرار است نسخه‌ای خصوصی منتشر شود، اما برای آن دسته از همکاران که در حوزه مختلف گفتار تخصص دارند.

فهرست مقاله پنهان

1 چرا Speech Brain؟

2 چرا PyTorch؟

3 Speech Brain و جنبه‌های اجتماعی

چرا Speech Brain؟

درطی چند سال گذشته، تول‌کیت‌های پردازش گفتار به محبوبیت فراوانی دست یافته‌اند. برای مثال، Kaldi که یک فریم‌ورک شناخته شده برای تشخیص خوکار گفتار مورد استفاده قرار گرفته است. جدا از Kaldi، تول‌کیت‌های مختلف دیگری به زبان پایتون توسعه داده شده که برای مثال می‌توان به PyTorch-Kaldi و PyKaldi و ESPnet اشاره کرد. افزون بر قابلیت تشخیص گفتار، راهکارهای مختلف دیگری مثل تفکیک گفتار، ارتقای گفتار، تشخیص سخنگو و آموزش مدل زبانی در حوزه تشخیص گفتار توسعه پیدا کرده‌اند.

[irp posts=”3912″]

اگرچه بسیاری از این چارچوب‌ها می‌توانند در انجام کارهای خاصی که برایشان طراحی شده‌، عملکرد بسیار خوبی داشته باشند، اما تجربۀ speech brain ی ها در این حوزه نشان می‌دهد که برخورداری از یک تول‌کیت واحد، کارآمد و انعطاف‌پذیر می‌تواند روند تحقیق و توسعه روش‌های پردازش گفتار و صوت را به شکل قابل توجه‌ای سرعت ببخشد؛ در حقیقت آشنایی و کسب آگاهی از یک تول‌کیت بسیار راحت‌تر از کسب اطلاعات درباره چندین چارچوب مختلف است. علاوه بر این، استفاده از یک پلتفرم یکپارچه برای نرم افزارهای مختلف گفتار و صوت، باعث می‌شود که توسعه سیستم‌های چند منظوره طبیعی تر شده که درنهایت این‌ سیستم‌ها به صورت مشترک برای حل مسائل مختلف استفاده خواهند شد.

چرا PyTorch؟

برای اطمینان از انعطاف‌پذیری بالای جهت برطرف کردن نیازهای کاربران، این پلتفرم به دلایل زیر نیازمند این بود که بر روی PyTorch ساخته شود:

PyTorch یک تول‌کیت محبوب، انعطاف‌پذیر با طراحی خوب است که کاربران زیادی از آن استفاده می‌کنند.
اکثر نرم‌افزارهای تشخیص بر اساس یادگیری عمیق و روش‌های پردازش سیگنال عمل می‌کنند که پیاده‌سازی آن به صورت طبیعی در PyTorch وجود دارد.
مراحل پردازش به وسیله GPU یا CPU انجام می‌شود.
طراحی سیستم‌های تفکیک‌پذیر و پیوسته امکان‌پذیر است.

محققان این شرکت قصد دارند با تیم صوت PyTorch شرکت فیس‌بوک و Nvidia همکاری داشته باشند. شرکت Nvidia اخیراً تول‌کیت ماژول عصبی (Nemo) را طراحی و روانه بازار کرده که می‌تواند انعطاف‌پذیری را افزایش داده و نرم‌افزارهای تشخیص را تقویت کند.

[irp posts=”17360″]

Speech Brain و جنبه‌های اجتماعی

توسعه و استفاده از فن‌آوری‌های Speech Brain بخشی از یک سیاست به منظور دربرگرفتن جنبه‌های اجتماعی است. بنابراین، تمامی شرکا، همکاران و دست‌اندرکاران از ساخت و توسعه مسئولیت‌پذیرانۀ هوش مصنوعی خبر داده‌اند. لذا انتظار می‌رود این اصول و ضوابط به عنوان بخشی از پروژه Speech Brain اجرا شود.

https://hooshio.com/?p=3143

جدیدترین تحولات هوش مصنوعی را در کانال بله هوشیو بخوانید

Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

چرا Speech Brain؟

چرا PyTorch؟

Speech Brain و جنبه‌های اجتماعی

تمرکز بر هوش مصنوعی و نظریه‌پردازی در علوم انسانی

فروش تراشه‌های هوش مصنوعی انویدیا به چین در انتظار چراغ سبز ترامپ

«هوش مصنوعی» وارد جایزه کتاب سال ایران شد

OpenClaw چیست و چرا به سرعت معروف شد؟

هر سوال چند قطره آب مصرف می‌کند؟

آیا هوش مصنوعی می‌تواند منشأ حیات را کشف کند؟

خطرات واقعی هوش مصنوعی

پلیس و هوش مصنوعی؛ انقلابی که دیر اما ناگزیر

تمرکز بر هوش مصنوعی و نظریه‌پردازی در علوم انسانی

«هوش مصنوعی» وارد جایزه کتاب سال ایران شد

دانشگاه شریف در خط مقدم هوش مصنوعی کشور

رونمایی از «طوسا»؛ دستیار هوش مصنوعی وزارت نیرو آماده بهره‌برداری شد

فروش تراشه‌های هوش مصنوعی انویدیا به چین در انتظار چراغ سبز ترامپ

OpenClaw چیست و چرا به سرعت معروف شد؟

دستیارهای «Claude» و «Codex» وارد گیت‌هاب شدند

قدرت گرفتن مدل جدید Anthropic که بازار سهام را لرزاند

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

هر سوال چند قطره آب مصرف می‌کند؟

آیا هوش مصنوعی می‌تواند منشأ حیات را کشف کند؟

خطرات واقعی هوش مصنوعی

تمرکز بر هوش مصنوعی و نظریه‌پردازی در علوم انسانی

فروش تراشه‌های هوش مصنوعی انویدیا به چین در انتظار چراغ سبز ترامپ

چرا Speech Brain؟

چرا PyTorch؟

Speech Brain و جنبه‌های اجتماعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید