NVIDIA نسخه بهروزرسانیشده کتابخانههای هوش مصنوعی CUDA-X را عرضه کرد
انویدیا نسخه بهروزرسانی شده کتابخانههای هوش مصنوعی CUDA-X را عرضه کرده که در این نوشتار میخواهیم به آنها بپردازیم.
TensorFlow
NVIDIA پروژهای متنباز برای عرضه TensorFlow 1.x منتشر کرد. TensorFlow 1.x به وسیله GPUها شتاب داده میشود و برای GPUهای A100، V100 و T4 بهینهسازی شده است. این نسخه از تنسورفلو بر پایه TensorFlow 1.15 شکل گرفته است. ویژگیهای نسخه جدید عبارتند از:
- تازهترین ویژگیها در CUDA 11
- بهینهسازیهایی برای کتابخانههایی همچون cuDNN 8
- قابلیتهای پیشرفتهای برای XLA:GPU، AMP و ادغام Tensorflow با TensorRT
TensorRT 7.1 هماکنون در دسترس است
TensorRT (متعلق به NVIDIA) نوعی SDK برای استنباط یادگیری عمیق با عملکرد بالا است که تأخیر را به حداقل میرساند و میزان خروجی را به حداکثر میرساند. علاوه بر حل مشکلات (bug) و بهروزرسانیهای جزئی، این نسخه ویژگیها و قابلیتهای مقابل را نیز شامل میشود:
- پشتیبانی از بهروزترین GPUهای A100
- بهینهسازیهای دقیق INT8 برای BERT؛ در نتیجه این بهینهسازیها، عملکرد INT8 6 برابر بهتر از GPUهای V100 شده است
برای دانلود TensorRT 7.1 بر روی این لینک کلیک کنید.
cuDNN 8 GA هماکنون در دسترس است
cuDNN، کتابخانه شبکه عصبی عمیق CUDA است و در مالکیت NVIDIA قرار دارد. cuDNN کتابخانهای حاوی عناصر ابتدایی برای شبکه های عصبی عمیق است و توسط GPUها شتاب داده میشود. ویژگیهای این نسخه از cuDNN عبارتند از:
- برای دستیابی به بالاترین سطح عملکرد در GPUهای A100 (متعلق به NVIDIA) از جمله TensorFloat-32، FP16 و FP32 تنظیم شده است
- APIهای سطح پایین که مجدداً طراحی شدهاند امکان دسترسی مستقیم به کرنلهای cuDNN را برای کنترل بیشتر و ارتقای عملکرد فراهم میکنند.
- بهینهسازیهای جدید برای بینایی ماشین، گفتار و شبکههای درک زبان
- ادغام عملگرها Operators برای شتابدهی به شبکههای عصبی کانولوشن به وسیله یک API جدید
برای دانلود cuDNN بر روی این لینک کلیک کنید.
NeMo 0.11
NeMo جعبهابزاری متنباز است که به وسیله ماژولهای سازگار API به ساخت، آموزش و تنظیم دقیق مدلهای پیشرفته هوش مصنوعی مکالمهای که به وسیله GPUها شتابدهی میشوند، کمک میکند. ویژگیها و قابلیتهای این نسخه از NeMo عبارتند از:
- شبکههای عصبی گراف برای ذخیرهسازی و بارگذاری ماژولها و پیکربندیهای NeMo که به وسیله GPUها شتاب داده میشوند.
- مجموعهها و مدلهای جدید و از پیش آموزش داده شده گفتار برای تشخیص فعالیت صوتی Voice Activity Detection (VAD) و Matchboxnet که میتوانند سرعت آموزش و تنظیم دقیق را تا 3 برابر افزایش دهند.
- معرفی مجموعهها و موارد کاربرد SOTA NLP برای BioBERT و MegatronBERT
برای دانلود NeMo 0.11 بر روی این لینک کلیک کنید.
DALI 0.23
DALI یا کتابخانه بارگذاری داده به NVIDIA تعلق دارد. DALI کتابخانهای قابل حمل Portable، متنباز برای رمزگشایی و ارتقای کیفیت تصاویر و ویدئوها است و بدین وسیله به تسریع برنامههای یادگیری عمیق کمک میکند؛ این کتابخانه به وسیله GPUها شتاب داده میشود. این نسخه از DALI ویژگیها و قابلیتهای مقابل را شامل میشود:
- پشتبانی از GPUهای A100 و دستیابی به سرعتی بیش از دو برابر با استفاده از دیکودرهای سختافزاری JPEG
- عملگرهای جدید پردازش صوت برای تسریع روالهای پردازشی ASR
- نوتبوکهای جدید Jupyter که نحوه بارگذاری و رمزگشایی دادههای صوتی و انجام عملیاتهای استخراج ویژگیهای صوتی را نشان میدهند
برای دانلود DALi 0.23 بر روی این لینک کلیک کنید.
بهروزرسانیهای NGC (در این نسخه چارچوبها نیز بهروز رسانی شدهاند)
NGC کانتینرها، مدلها و اسکریپتهایی با عملکرد بالا عرضه میکند. بهروزرسانیهایی جدید NGC عبارتند از:
- نسخههای 6 کانتینر چارچوب یادگیری عمیق برای PyTorch، TensorFlow و MXNet اولین نسخههایی هستند که از بهروزترین GPUهای A100 (متعلق به NVIDIA) و کتابخانههای CUDA 11 و cuDNN 8 پشتیبانی میکنند. TF32، قابلیت جدیدی است که به صورت پیش فرض در کانتینر در دسترس است و سرعت و عملکرد آموزش یادگیری عمیق را نسبت به V100 FP32 تا 6 برابر افزایش میدهد.
- کانتینرهای PyTorch از cuda.amp پشتیبانی میکنند؛ torch.cuda.amp قابلیتی mixed-precision است و همانند پکیج AMP در هسته Pytorch در دسترس است. torch.cuda.amp در مقایسه با apex.amp انعطافپذیر و بهتر است.