هوش مصنوعی محاوره ای
آموزش‌های پیشرفته هوش مصنوعیپردازش گفتار

آموزش هوش مصنوعی محاوره ای در سه خط کد با NeMo و Lightning

    0
    مدت زمان مطالعه: ۵ دقیقه

    ماژول عصبی NeMo  چارچوب قدرتمندی است که NVIDIA برای آموزش، ساخت و تغییر آسانِ مدل‌های هوش مصنوعی محاوره ای ساخته است. این امکان وجود دارد که مدل‌های NeMo  با سه خط کد در حالت چندگِرهی و چند GPU آموزش داده شوند؛ برخورداری از «Mixed Precision» نیز الزامی نیست. در ادامه، چگونگی استفاده از NeMo و Lightning برای آموزش مدل بازشناسی گفتار یکپارچه با چند GPU توضیح داده خواهد شد. همچنین، خواهید دید که چگونه می‌توانید از مدل‌های NeMo در موارد مد نظرتان استفاده کنید؛ از جمله این موارد می‌توان به تنظیم مدل‌های بازشناسی گفتار از پیش آموزش دیده در داده‌های صوتی اسپانیایی اشاره کرد.

    در مقاله حاضر، به چند مورد از ویژگی‌های فوق‌العاده NeMo اشاره خواهیم کرد. در این راستا، مراحل ساخت مدل شخصی بازشناسی گفتار به کمک LibriSpeech و چگونگی تنظیم دقیق مدل‌ها با مجموعه دادگان موجود به زبان‌های مختلف توضیح داده خواهد شد.

    ساخت هوش مصنوعی محاوره ای SOTA

    NeMo ابزار راحتی برای توسعه مدل در انواع گوناگونی از دامنه‌ها عرضه می‌کند که از جمله آنها می‌توان به ASR (بازشناسی گفتار  خودکار) ، TTS (تبدیل متن به گفتار) و NLP (پردازش زبان طبیعی) اشاره کرد. NeMo نمونه‌هایی برای آموزش مدل‌های محبوب دارد که مدل Speech Synthesis Tactotron-2 یکی از آن‌هاست که مرکز تحقیقات گوگل این مدل را منتشر کرده است. از دیگر قابلیت‌های NeMo می‌توان به تنظیم دقیق مدل‌های مبدلِ از پیش آموزش دیده اشاره کرد؛ Megatron-LM یکی از این نوع مدل‌ها به شمار می‌آید که در کارهایی از قبیل طبقه‌بندی متن و پاسخگویی به پرسش مورد استفاده قرار می‌گیرد.

    NeMo از چندین مدل بازشناسی گفتار پشتیبانی می‌کند و از مدل‌هایِ از پیش آموزش دیده برای بکارگیری آسان‌تر و تنظیم دقیق بهره می‌جوید. NeMo قابلیتی نیز فراهم می‌آورد که پیکربندی‌ها به آسانی اصلاح یا تغییر یابند. این موارد به طور جامع در بخش زیر بررسی خواهد شد. محققان نیز این فرصت را دارند تا دامنه آزمایش‌های خود را گسترش داده و به اجرای مدل‌ها، مجموعه دادگان و راهکارهای آموزش بپردازند؛ در این راستا، موضوع مقیاس‌بندی هم به راحتی حل می‌شود و نیازی به کارهای مهندسی غیرضروری نیست.

    حال بگذارید به چند مورد از ویژگی‌های آن اشاره کنیم:

    • تهیه خروجی از مدل‌ها با استفاده از ONYX یا PyTorch TorchScript
    • بهینه‌سازی از طریق TensorRT یا استقرار با استفاده از NVIDIA Jarvis
    • فهرستی بزرگ از مدل‌های از پیش آموزش دیده SOTA در NGC

    مبتنی بر Lightning

    تیم NeMo به جای اینکه از ابتدا از چند GPU و گره‌های متعدد پشتیبانی کند، تصمیم به استفاده از PyTorch Lightning گرفته است تا کلیه جزئیات مهندسی را تحت پوشش قرار دهد. هر مدل NeMo یک ماژول Lightning Module نیز محسوب می‌شود. بنابراین، تیم NeMo این فرصت را پیدا کرده تا بر ساخت مدل‌های هوش مصنوعی محاوره ای تمرکز کند. علاوه بر این، کاربران NeMo توانسته‌اند امکان استفاده از Lightning Trainer را به دست آورند که شامل ویژگی­های متعددی برای افزایش سرعت آموزش می­باشد. NeMo به دلیل سازگاری بالایی که با PyTorch Lightning دارد، در محیط‌های تحقیقاتی بسیاری به اجرا در می‌آید و محققان این فرصت را دارند تا روی مسائل مهم تمرکز نمایند.

    آموزش مدل‌های بازشناسی گفتار یکپارچه در مقیاس بزرگتر

    برای اینکه ببینید استفاده از NeMo و Lightning برای آموزش هوش مصنوعی محاوره ای چقدر آسان است، یک مدل بازشناسی گفتار یکپارچه خواهیم ساخت که قادر به رونویسی از دستورهای صوتی باشد. در این راستا، از مدل QuartzNet (یک معماری کاملاً پیچشی برای تشخیص گفتار یکپارچه) استفاده خواهیم کرد که از یک مدل از پیش آموزش دیده برخوردار است. این مدل بر اساس حدود ۳۳۰۰ ساعت فایل صوتی آموزش یافته است که به معماری‌های پیچشی پیشین برتری دارد در حالی­که از پارامترهای کمتری استفاده می‌کند. اگر مدل‌ها در مقیاس گسترده‌ای به کار برده شوند، میان تعداد پارامترهای مدل و صحت  بده و بستان حساسی به وجود می­آید؛ به ویژه در حالت آنلاین که تشخیص صدا حائز اهمیت بالایی است.

    هوش مصنوعی محاوره ای

    معماری QuartzNet BxR

    ما از LibriSpeech به عنوان داده‌های آموزشی استفاده می‌کنیم. LibriSpeech مجموعه دادگان محبوب و (کتاب صوتی) برچسب‌داری است. NeMo اسکریپت‌های مجموعه دادگان بسیاری دارد که می‌توان برای آموزش، اعتبارسنجی و آزمون استفاده کرد.

    پیکربندی مدل با استفاده از فایل پیکربندی QuartzNet تعریف می‌شود. در این فرایند، اصلاح ورودی داده ها اجتناب‌ناپذیر است. آموزش مدل به سه خط کد احتیاج دارد؛ پیکربندی مدل را تعریف کنید، Lightning Trainer را اجرا کنید و آموزش دهید.

    برای بهره‌مندی از سرعت بیشتر می‌توانید تعداد GPUها را افزایش دهید و گزینه «mixed precision» را فعال کنید. Lightning Trainer زمینه را برای استفاده از این دو گزینه فراهم کرده است.

    شما می‌توانید از همه ویژگی‌های Lightning از قبیل checkpoint، مدیریت آزمایش و بسیاری دیگر از ویژگی‌ها بهره‌مند شوید. برای اینکه دید بهتری نسبت به ویژگی‌های ASR در NeMo بدست آورید، به Google Colab سر بزنید.

    مدل‌های خود را شخصی‌سازی کنید

    NeMo باعث می‌شود انجام آزمایش با روش‌های آموزش یا تغییرات مدل به کار بسیار آسانی تبدیل گردد. فرض کنید می‌خواهیم بهینه‌ساز خود را Adam بنامیم و برنامه سطح یادگیری خود را به‌روزرسانی کنیم تا امکان استفاده از تبرید فراهم آید. بدون اینکه کدها را تغییر دهید ، می‌توانید از فایل پیکربندی config برای انجام کارهای فوق کمک بگیرید:

    هوش مصنوعی محاوره ای

    یادگیری انتقال برای زبان‌هایی که منابع اندکی برایشان وجود دارد

    بر اساس یکی از مقاله‌هایی که اخیراً منتشر شده است، این نتیجه حاصل شده‌­است که بکارگیری یادگیری انتقالی در بازشناسی گفتار می‌تواند نتایج خیره‌کننده‌ای به همراه داشته باشد. در مقایسه با فرایند آموزشی که از ابتدا صورت می‌گیرد، تنظیم دقیق مدل‌های از پیش آموزش دیده در زمینه همگرایی و صحت عملکرد بهتری دارند.

    هوش مصنوعی محاوره ای

    مقایسه فرایند آموزش از صفر با تنظیم دقیق مدل از پیش آموزش دیده توسط NVIDIA

    NeMo راه را برای بهره‌مندی از فواید یادگیری انتقال هموار می‌سازد. در بخش زیر، از مدل از پیش آموزش دیده انگلیسی QuartzNet استفاده می‌کنیم و به تنظیم دقیق مجموعه دادگان اسپانیایی «Common Voice» می‌پردازیم. به‌روزرسانیِ ورودی‌‌ داده‌های آموزش، واژگان و پیکربندی بهینه‌سازی در دستور کار ما قرار دارد.

     

     

    آغاز به کار با NeMo

    در مقاله حاضر، برخی از ویژگی‌های مختص NeMo، مراحل ساخت مدل ASR در LibriSpeech و تنظیم دقیق مجموعه دادگان در زبان‌های مختلف مورد بررسی قرار گرفت. مطالب آموزشی بسیاری در این لینک موجود است که پردازش زبان طبیعی، تشخیص صدا و تبدیل صدا را مورد پوشش قرار می‌دهند. همچنین، اطلاعات بیشتری در مستندات PyTorch Lightning در این لینک قرار داده شده است.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    وزیر ارتباطات از تصمیم برای اجرای مصوبات شورای عالی فضای مجازی گفت

    مقاله قبلی

    اسپات مینی ، رباتی چهارپا با توانایی‌هایی شگفت‌انگیز

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *