CUDA
آموزش‌های پیشرفته هوش مصنوعیاخباررایانش ابری و HPC

NVIDIA نسخه به‌روزرسانی‌شده کتابخانه‌های هوش مصنوعی CUDA-X را عرضه کرد

    0
    مدت زمان مطالعه: ۳ دقیقه

    انویدیا نسخه به‌روزرسانی شده کتابخانه‌های هوش مصنوعی CUDA-X را عرضه کرده که در این نوشتار می‌خواهیم به آن‌ها بپردازیم.

    TensorFlow

    NVIDIA پروژه‌ای متن‌باز برای عرضه TensorFlow 1.x منتشر کرد.  TensorFlow 1.x به وسیله GPUها شتاب داده می‌شود و برای GPUهای A100، V100 و T4 بهینه‌سازی شده است. این نسخه از تنسورفلو بر پایه‌ TensorFlow 1.15 شکل گرفته است. ویژگی‌های نسخه جدید عبارتند از:

    • تازه‌ترین ویژگی‌ها در CUDA 11
    • بهینه‌سازی‌هایی برای کتابخانه‌هایی همچون cuDNN 8
    • قابلیت‌های پیشرفته‌ای برای XLA:GPU، AMP و ادغام Tensorflow با TensorRT

     

    TensorRT 7.1 هم‌اکنون در دسترس است

    TensorRT (متعلق به NVIDIA) نوعی SDK برای استنباط یادگیری عمیق با عملکرد بالا است که تأخیر را به حداقل می‌رساند و میزان خروجی را به حداکثر می‌رساند. علاوه بر حل مشکلات (bug) و به‌روزرسانی‌های جزئی، این نسخه ویژگی‌ها و قابلیت‌های مقابل را نیز شامل می‌شود:

    • پشتیبانی از به‌روزترین GPUهای A100
    • بهینه‌سازی‌های دقیق INT8 برای BERT؛ در نتیجه این بهینه‌سازی‌ها، عملکرد INT8 6 برابر بهتر از GPUهای V100 شده است

     

    برای دانلود TensorRT 7.1 بر روی این لینک کلیک کنید.

     

    cuDNN 8 GA هم‌اکنون در دسترس است

    cuDNN، کتابخانه شبکه عصبی عمیق CUDA است و در مالکیت NVIDIA قرار دارد. cuDNN کتابخانه‌ای حاوی عناصر ابتدایی برای شبکه های عصبی عمیق است و توسط GPUها شتاب داده می‌شود. ویژگی‌های این نسخه از cuDNN عبارتند از:

    • برای دستیابی به بالاترین سطح عملکرد در GPUهای A100 (متعلق به NVIDIA) از جمله TensorFloat-32، FP16 و FP32 تنظیم شده است
    • APIهای سطح پایین که مجدداً طراحی شده‌اند امکان دسترسی مستقیم به کرنل‌های cuDNN را برای کنترل بیشتر و ارتقای عملکرد فراهم می‌کنند.
    • بهینه‌سازی‌های جدید برای بینایی ماشین، گفتار و شبکه‌های درک زبان
    • ادغام عملگرها Operators برای شتاب‌دهی به شبکه‌های عصبی کانولوشن به وسیله یک API جدید

     

    برای دانلود cuDNN بر روی این لینک کلیک کنید.

    CUDA

    NeMo 0.11

    NeMo جعبه‌ابزاری متن‌باز است که به وسیله‌ ماژول‌های سازگار API به ساخت، آموزش و تنظیم دقیق مدل‌های پیشرفته هوش مصنوعی مکالمه‌ای که به وسیله GPUها شتاب‌دهی می‌شوند، کمک می‌کند. ویژگی‌ها و قابلیت‌های این نسخه از NeMo عبارتند از:

    • شبکه‌های عصبی گراف برای ذخیره‌سازی و بارگذاری ماژول‌ها و پیکربندی‌های NeMo که به وسیله GPUها شتاب داده می‌شوند.
    • مجموعه‌ها و مدل‌های جدید و از پیش آموزش داده شده گفتار برای تشخیص فعالیت صوتی Voice Activity Detection (VAD) و Matchboxnet که می‌توانند سرعت آموزش و تنظیم دقیق را تا ۳ برابر افزایش دهند.
    • معرفی مجموعه‌ها و موارد کاربرد SOTA NLP برای BioBERT و MegatronBERT

     

    برای دانلود NeMo 0.11 بر روی این لینک کلیک کنید.

     

    DALI 0.23

    DALI یا کتابخانه بارگذاری داده به NVIDIA تعلق دارد. DALI  کتابخانه‌ای قابل حمل Portable، متن‌باز برای رمزگشایی و ارتقای کیفیت تصاویر و ویدئوها است و بدین وسیله به تسریع برنامه‌های یادگیری عمیق کمک می‌کند؛ این کتابخانه به وسیله GPUها شتاب‌ داده می‌شود. این نسخه از DALI ویژگی‌ها و قابلیت‌های مقابل را شامل می‌شود:

    • پشتبانی از GPUهای A100 و دستیابی به سرعتی بیش از دو برابر با استفاده از دیکودرهای سخت‌افزاری JPEG
    • عملگرهای جدید پردازش صوت برای تسریع روال‌های پردازشی ASR
    • نوت‌بوک‌های جدید Jupyter که نحوه بارگذاری و رمزگشایی داده‌های صوتی و انجام عملیات‌های استخراج ویژگی‌های صوتی را نشان می‌دهند

    برای دانلود DALi 0.23 بر روی این لینک کلیک کنید.

     

    به‌روزرسانی‌های NGC ( در این نسخه چارچوب‌ها نیز به‌روز رسانی شده‌اند)

    NGC کانتینرها، مدل‌ها و اسکریپت‌هایی با عملکرد بالا عرضه می‌کند. به‌روز‌رسانی‌هایی جدید NGC عبارتند از:

    • نسخه‌های ۶ کانتینر چارچوب یادگیری عمیق برای PyTorch، TensorFlow و MXNet اولین نسخه‌هایی هستند که از به‌روزترین GPUهای A100 (متعلق به NVIDIA) و کتابخانه‌های CUDA 11 و cuDNN 8 پشتیبانی می‌کنند. TF32، قابلیت جدیدی است که به صورت پیش فرض در کانتینر در دسترس است و سرعت و عملکرد آموزش یادگیری عمیق را نسبت به V100 FP32 تا ۶ برابر افزایش می‌دهد.
    • کانتینرهای PyTorch از cuda.amp پشتیبانی می‌کنند؛ torch.cuda.amp قابلیتی mixed-precision است و همانند پکیج AMP در هسته Pytorch در دسترس است. torch.cuda.amp در مقایسه با apex.amp انعطاف‌پذیر و بهتر است.
    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    ثبت ۱۶ رکورد جدید توسط Nvidia در تازه‌ترین شاخص‌های MLPerf

    مقاله قبلی

    محافظت از کاربران شبکه‌ های اجتماعی با کمک هوش مصنوعی

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *