Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

Speech Brain یک تول‌ کیت منبع باز و مبتنی بر PyTorch

زمان مطالعه: 2 دقیقه

Speech Brain که یک تول‌کیت منبع باز مبتنی بر PyTorch است درحال حاضر مراحل ساخت را طی می‌کند و قرار است به زودی، نسخه آلفا برای گروهی از کاربران در طی چندماه آینده عرضه شود. این تول‌کیت به صورت یک فریم‌ورک مستقل عمل خواهد کرد، اما رابط‌های کاربری ساده با تول‌کیت‌های شناخته شده مانند Kaldi در این بستر قرار خواهد گرفت.محققان در نظر دارند تا این تول‌کیت واحد را، انعطاف‌پذیر و کاربرپسند تولید کنند و از آن برای توسعه فناوری‌های مدرن از جمله سیستم‌های تشخیص گفتار(پیوسته و HMM-DNN)، تشخیص صدا، تفکیک صدا، پردازش سیگنال چندمیکروفونی و یادگیری بدون نظارت استفاده کنند.

برای این پروژه بزرگ، جدول زمانی مشخصی ارائه شده است. نسخه اول این امکان را به کاربران خواهد داد تا بتوانند از تول‌کیت به طور کامل و آزادانه استفاده کنند. همچنین انتظار می‌رود که در نسخه دوم، تجربه کامل‌تری از Speech Brain که توانایی انجام امور بیشتری دارد را در اختیار کاربران قرار داده شود. درنهایت قرار است نسخه‌ای خصوصی منتشر شود، اما برای آن دسته از همکاران که در حوزه مختلف گفتار تخصص دارند.

SpeechBrain

چرا Speech Brain؟

درطی چند سال گذشته، تول‌کیت‌های پردازش گفتار به محبوبیت فراوانی دست یافته‌اند. برای مثال، Kaldi که یک فریم‌ورک شناخته شده برای تشخیص خوکار گفتار مورد استفاده قرار گرفته است. جدا از Kaldi، تول‌کیت‌های مختلف دیگری به زبان پایتون توسعه داده شده که برای مثال می‌توان به PyTorch-Kaldi و PyKaldi و ESPnet اشاره کرد. افزون بر قابلیت تشخیص گفتار، راهکارهای مختلف دیگری مثل تفکیک گفتار، ارتقای گفتار، تشخیص سخنگو و آموزش مدل زبانی در حوزه تشخیص گفتار توسعه پیدا کرده‌اند.

[irp posts=”3912″]

اگرچه بسیاری از این چارچوب‌ها می‌توانند در انجام کارهای خاصی که برایشان طراحی شده‌، عملکرد بسیار خوبی داشته باشند، اما تجربۀ speech brain ی ها در این حوزه نشان می‌دهد که برخورداری از یک تول‌کیت واحد، کارآمد و انعطاف‌پذیر می‌تواند روند تحقیق و توسعه روش‌های پردازش گفتار و صوت را به شکل قابل توجه‌ای سرعت ببخشد؛ در حقیقت آشنایی و کسب آگاهی از یک تول‌کیت بسیار راحت‌تر از کسب اطلاعات درباره چندین چارچوب مختلف است. علاوه بر این، استفاده از یک پلتفرم یکپارچه برای نرم افزارهای مختلف گفتار و صوت، باعث می‌شود که توسعه سیستم‌های چند منظوره طبیعی تر شده که درنهایت این‌ سیستم‌ها به صورت مشترک برای حل مسائل مختلف استفاده خواهند شد.

چرا PyTorch؟

برای اطمینان از انعطاف‌پذیری بالای جهت برطرف کردن نیازهای کاربران، این پلتفرم به دلایل زیر نیازمند این بود که بر روی PyTorch ساخته شود:

  •  PyTorch یک تول‌کیت محبوب، انعطاف‌پذیر با طراحی خوب است که کاربران زیادی از آن استفاده می‌کنند.
  • اکثر نرم‌افزارهای تشخیص بر اساس یادگیری عمیق و روش‌های پردازش سیگنال عمل می‌کنند که پیاده‌سازی آن به صورت طبیعی در PyTorch وجود دارد.
  •  مراحل پردازش به وسیله GPU یا CPU انجام می‌شود.
  • طراحی سیستم‌های تفکیک‌پذیر و پیوسته امکان‌پذیر است.

محققان این شرکت قصد دارند با تیم صوت PyTorch شرکت فیس‌بوک و Nvidia همکاری داشته باشند. شرکت Nvidia اخیراً تول‌کیت ماژول عصبی (Nemo) را طراحی و روانه بازار کرده که می‌تواند انعطاف‌پذیری را افزایش داده و نرم‌افزارهای تشخیص را تقویت کند.

[irp posts=”17360″]

Speech Brain و جنبه‌های اجتماعی

توسعه و استفاده از فن‌آوری‌های Speech Brain بخشی از یک سیاست به منظور دربرگرفتن جنبه‌های اجتماعی است. بنابراین، تمامی شرکا، همکاران و دست‌اندرکاران از ساخت و توسعه مسئولیت‌پذیرانۀ هوش مصنوعی خبر داده‌اند. لذا انتظار می‌رود این اصول و ضوابط به عنوان بخشی از پروژه Speech Brain اجرا شود.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]