NVIDIA نسخه به‌روزرسانی‌شده کتابخانه‌های هوش مصنوعی CUDA-X را عرضه کرد

تیم تحریریه
۳۰ فروردین ۱۴۰۰

زمان مطالعه: 3 دقیقه

انویدیا نسخه به‌روزرسانی شده کتابخانه‌های هوش مصنوعی CUDA-X را عرضه کرده که در این نوشتار می‌خواهیم به آن‌ها بپردازیم.

فهرست مقاله پنهان

1 TensorFlow

1.1 TensorRT 7.1 هم‌اکنون در دسترس است

1.2 cuDNN 8 GA هم‌اکنون در دسترس است

1.3 NeMo 0.11

1.4 DALI 0.23

TensorFlow

NVIDIA پروژه‌ای متن‌باز برای عرضه TensorFlow 1.x منتشر کرد. TensorFlow 1.x به وسیله GPUها شتاب داده می‌شود و برای GPUهای A100، V100 و T4 بهینه‌سازی شده است. این نسخه از تنسورفلو بر پایه‌ TensorFlow 1.15 شکل گرفته است. ویژگی‌های نسخه جدید عبارتند از:

تازه‌ترین ویژگی‌ها در CUDA 11
بهینه‌سازی‌هایی برای کتابخانه‌هایی همچون cuDNN 8
قابلیت‌های پیشرفته‌ای برای XLA:GPU، AMP و ادغام Tensorflow با TensorRT

TensorRT 7.1 هم‌اکنون در دسترس است

TensorRT (متعلق به NVIDIA) نوعی SDK برای استنباط یادگیری عمیق با عملکرد بالا است که تأخیر را به حداقل می‌رساند و میزان خروجی را به حداکثر می‌رساند. علاوه بر حل مشکلات (bug) و به‌روزرسانی‌های جزئی، این نسخه ویژگی‌ها و قابلیت‌های مقابل را نیز شامل می‌شود:

پشتیبانی از به‌روزترین GPUهای A100
بهینه‌سازی‌های دقیق INT8 برای BERT؛ در نتیجه این بهینه‌سازی‌ها، عملکرد INT8 6 برابر بهتر از GPUهای V100 شده است

برای دانلود TensorRT 7.1 بر روی این لینک کلیک کنید.

cuDNN 8 GA هم‌اکنون در دسترس است

cuDNN، کتابخانه شبکه عصبی عمیق CUDA است و در مالکیت NVIDIA قرار دارد. cuDNN کتابخانه‌ای حاوی عناصر ابتدایی برای شبکه های عصبی عمیق است و توسط GPUها شتاب داده می‌شود. ویژگی‌های این نسخه از cuDNN عبارتند از:

برای دستیابی به بالاترین سطح عملکرد در GPUهای A100 (متعلق به NVIDIA) از جمله TensorFloat-32، FP16 و FP32 تنظیم شده است
APIهای سطح پایین که مجدداً طراحی شده‌اند امکان دسترسی مستقیم به کرنل‌های cuDNN را برای کنترل بیشتر و ارتقای عملکرد فراهم می‌کنند.
بهینه‌سازی‌های جدید برای بینایی ماشین، گفتار و شبکه‌های درک زبان
ادغام عملگرها Operators برای شتاب‌دهی به شبکه‌های عصبی کانولوشن به وسیله یک API جدید

برای دانلود cuDNN بر روی این لینک کلیک کنید.

NeMo 0.11

NeMo جعبه‌ابزاری متن‌باز است که به وسیله‌ ماژول‌های سازگار API به ساخت، آموزش و تنظیم دقیق مدل‌های پیشرفته هوش مصنوعی مکالمه‌ای که به وسیله GPUها شتاب‌دهی می‌شوند، کمک می‌کند. ویژگی‌ها و قابلیت‌های این نسخه از NeMo عبارتند از:

شبکه‌های عصبی گراف برای ذخیره‌سازی و بارگذاری ماژول‌ها و پیکربندی‌های NeMo که به وسیله GPUها شتاب داده می‌شوند.
مجموعه‌ها و مدل‌های جدید و از پیش آموزش داده شده گفتار برای تشخیص فعالیت صوتی Voice Activity Detection (VAD) و Matchboxnet که می‌توانند سرعت آموزش و تنظیم دقیق را تا 3 برابر افزایش دهند.
معرفی مجموعه‌ها و موارد کاربرد SOTA NLP برای BioBERT و MegatronBERT

برای دانلود NeMo 0.11 بر روی این لینک کلیک کنید.

DALI 0.23

DALI یا کتابخانه بارگذاری داده به NVIDIA تعلق دارد. DALI کتابخانه‌ای قابل حمل Portable، متن‌باز برای رمزگشایی و ارتقای کیفیت تصاویر و ویدئوها است و بدین وسیله به تسریع برنامه‌های یادگیری عمیق کمک می‌کند؛ این کتابخانه به وسیله GPUها شتاب‌ داده می‌شود. این نسخه از DALI ویژگی‌ها و قابلیت‌های مقابل را شامل می‌شود:

پشتبانی از GPUهای A100 و دستیابی به سرعتی بیش از دو برابر با استفاده از دیکودرهای سخت‌افزاری JPEG
عملگرهای جدید پردازش صوت برای تسریع روال‌های پردازشی ASR
نوت‌بوک‌های جدید Jupyter که نحوه بارگذاری و رمزگشایی داده‌های صوتی و انجام عملیات‌های استخراج ویژگی‌های صوتی را نشان می‌دهند

برای دانلود DALi 0.23 بر روی این لینک کلیک کنید.

به‌روزرسانی‌های NGC (در این نسخه چارچوب‌ها نیز به‌روز رسانی شده‌اند)

NGC کانتینرها، مدل‌ها و اسکریپت‌هایی با عملکرد بالا عرضه می‌کند. به‌روز‌رسانی‌هایی جدید NGC عبارتند از:

نسخه‌های 6 کانتینر چارچوب یادگیری عمیق برای PyTorch، TensorFlow و MXNet اولین نسخه‌هایی هستند که از به‌روزترین GPUهای A100 (متعلق به NVIDIA) و کتابخانه‌های CUDA 11 و cuDNN 8 پشتیبانی می‌کنند. TF32، قابلیت جدیدی است که به صورت پیش فرض در کانتینر در دسترس است و سرعت و عملکرد آموزش یادگیری عمیق را نسبت به V100 FP32 تا 6 برابر افزایش می‌دهد.
کانتینرهای PyTorch از cuda.amp پشتیبانی می‌کنند؛ torch.cuda.amp قابلیتی mixed-precision است و همانند پکیج AMP در هسته Pytorch در دسترس است. torch.cuda.amp در مقایسه با apex.amp انعطاف‌پذیر و بهتر است.

https://hooshio.com/?p=12786

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

NVIDIA نسخه به‌روزرسانی‌شده کتابخانه‌های هوش مصنوعی CUDA-X را عرضه کرد