مقدمه
آموزش پردازش زبان طبیعیآموزش‌های پیشرفته هوش مصنوعیپردازش زبان طبیعی

آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس ؛ مقدمه (قسمت اول فصل دوم)

    0
    مدت زمان مطالعه: ۲ دقیقه

    به بخش مقدمه فصل دوم از دوره آموزشی پردازش زبان طبیعی خوش آمدید. در فصل اول از مدل‌های ترنسفورمر برای انجام کارهای مختلفی استفاده شد و از API در pipeline کمک گرفته شد. این API از سادگی و توان بالایی برخوردار است، اما باید از کارکرد دقیق آن آگاهی پیدا کنیم تا امکان حل مسائل دیگر فراهم شود. در فصل جاری، موارد زیر را یاد خواهید گرفت:

    • نحوه استفاده از توکن‌کننده‌ها و مدل‌ها برای تکرار رفتار API در pipeline

    • نحوه بارگذاری و دخیره مدل‌ها و توکن‌کننده‌ها

    • روش‌های توکن‌سازی مختلف (بر اساس کاراکتر، کلمه یا زیرکلمه)

    • نحوه مدیریت جملات مختلف با طول متغیر

    مدل‌های ترنسفورمر

    شایان ذکر است که این قسمت تنها مقدمه فصل دوم است و برای دسترسی به قسمت‌های دیگر از این دوره آموزشی می‌توانید از لینک انتهای مطلب اقدام کنید. آن‌طور که در فصل اول ذکر شد، مدل‌های ترنسفورمر معمولاً بسیار بزرگ‌اند. آموزش و به‌کارگیری این مدل‌ها به دلیل برخورداری از ده‌ها میلیارد پارامتر یکی از کارهای بسیار پیچیده برشمرده می‌شود.

    با توجه به اینکه همه روزه مدل‌های جدیدی روانه بازار می‌شود و هر کدام دارای شیوه‌های اجرایی خاص خود هستند، بررسیِ تک به تک آنها کار آسانی نیست. کتابخانه ترنسفورمرها با هدفِ حل این مشکل ساخته شده است. این کتابخانه یک API عرضه می‌کند تا امکان بارگذاری، آموزش و ذخیره مدل‌های ترنسفورمر مهیا شود. از جمله ویژگی‌های کلیدی کتابخانه مذکور به شرح زیر می‌باشد:

    • کاربری آسان: دانلود، بارگذاری و استفاده از یک مدل نوین NLP (پردازش زبان طبیعی) تنها با دو خط کُد انجام می‌گیرد.

    • انعطاف‌پذیری: کلیه مدل‌ها در زمره‌ی PyTorch nn.Module یا TensorFlow tf.keras.Model قرار می‌گیرند و به مانند هر مدل دیگری در چارچوب یادگیری ماشین مدیریت می‌شوند.

    • سادگی: مفاهیم انتزاعی متنوعی در این کتابخانه ساخته می‌شوند.

    ویژگی آخر، وجه تمایز ترنسفورمرها با سایر کتابخانه‌های یادگیری ماشین است. مدل‌ها در ماژول‌هایی که در کل فایل به اشتراک گذاشته شوند، ساخته نمی‌شوند؛ بلکه هر مدل دارای لایه‌های مخصوص خود می‌باشد.

    این ویژگی نه تنها باعث می‌شود مدل‌ها قابل فهم‌تر باشند، بلکه امکان آزمایشِ آسان در یک مدل را نیز فراهم می‌کند؛ بدون اینکه سایر مدل‌ها تحت تاثیر قرار گیرند.

    نمونه‌های end-to-end که در ابتدای فصل جاری آورده شده نشان می‌دهد که از یک مدل و توکن‌کننده برای تکرار مجدد API استفاده شده است. جزئیات این امر در فصل اول شرح داده شد. در گام بعدی، به بحث درباره API مدل خواهیم پرداخت.

    بررسی جامع مدل و دسته‌های پیکربندی در مراحل بعدی قرار دارد. نحوه‌ی بارگذاری مدل و نحوه پردازش ورودی‌های عددی به منظور پیش‌بینی خروجی‌ها نیز در دستور کار می‌باشد.

    API توکن‌کننده

    همان‌طور که در این مطلب با عنوان مقدمه فصل دوم اشاره شد، در ادامه، API توکن‌کننده معرفی و توضیح داده خواهد شد که یکی دیگر از مولفه‌های اصلیِ pipeline است.

    توکن‌کننده‌ها می‌توانند به خوبی از پسِ مراحل پردازش نخست و پایانی برآیند. بنابراین، متن در شبکه‌های عصبی به ورودی‌های عددی تبدیل می‌شود (و بالعکس).

    در نهایت، چگونگی ارسال چندین جمله از طریق یک مدل در دسته‌ی آماده نیز برای کاربران توضیح داده می‌شود. کار را با بررسی دقیقِ تابع توکن‌کننده به پایان خواهیم برد.

    از طریق لینک زیر می‌توانید به دیگر قسمت‌های دوره آموزشی پردازش زبان طبیعی دسترسی داشته باشید:

    آموزش پردازش زبان طبیعی

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    آیا BorutaShap بهترین الگوریتم انتخاب ویژگی است؟

    مقاله قبلی

    راه کار سرزمین هوشمند ؛ متخصص راه کارهای سازمانی

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *