جمع‌بندی فصل دوم
آموزش پردازش زبان طبیعیآموزش‌های پیشرفته هوش مصنوعیپردازش زبان طبیعی

آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ‌فیس؛جمع‌بندی فصل دوم (قسمت‌ششم فصل‌دوم)

    0
    زمان مطالعه: ۳ دقیقه

    در این قسمت از آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس به جمع‌بندی فصل دوم خواهیم پرداخت. در چند بخش گذشته، بخش اعظم کارها به صورت دستی انجام شد. نحوه کارکرد توکن‌کننده‌ها، فرایند توکن‌سازی Tokenization، تبدیل به شناسه‌های ورودی input IDs، پَدینگ، کوتاه‌سازی Truncation و ماسک‌های توجه Attention masks نیز به طور جامع توضیح داده شدند. آن‌طور که در بخش ۲ ملاحظه کردید، API ترنسفورمر می‌تواند با تابع مناسبی کلیه این کارها را مدیریت کند. اگر توکن‌کننده را به طور مستقیم در جمله فراخوانی کنید، ورودی‌هایی به دست می‌آورید که آماده‌ی انتقال به مدل هستند:

    در اینجا، متغیر model_inputs  محتوای لازم برای عملکرد مناسب مدل را دارای می‌باشد. DistilBERT نیز دربردارنده‌ی شناسه‌های ورودی و ماسک توجه است. سایر مدل‌هایی که ورودی‌های بیشتری می‌پذیرند، با شیء توکن‌کننده tokenizer  به این خروجی دست خواهند یافت. در مثال‌های زیر خواهید دید که این روش از توان بالایی برخوردار است. اول اینکه، امکان توکن‌سازی یک توالی با این روش وجود دارد:

    در این روش، چندین توالی به یک‌باره و بدون تغییرِ API مدیریت می‌شوند:

    در این روش، عمل پَدینگ بر اساس چندین هدف انجام می‌گیرد:

    این روش نقش موثری در کوتاه‌سازی توالی‌ها دارد:

    شیء توکن‌کننده Tokenizer object می‌تواند نقش موثری در عمل تبدیل به تنسورهای چارچوب ویژه داشته باشد که بعدها می‌تواند به طور مستقیم به مدل ارسال شود. برای نمونه، در نمونه کد زیر، از توکن‌کننده خواسته می‌شود تا تنسورهایی را از چارچوب‌های مختلف به دست آورد؛ “pt” ، “tf”  و “np”  به ترتیب تنسورهای پای‌تورچ، تنسورهای تنسورفلو و آرایه‌های NumPy را به عنوان خروجی ارائه می‌دهند:

    توکن‌های ویژه

    اگر به شناسه‌های ورودی به دست آمده با توکن‌کننده نگاه کنید، می‌بینید که قدری با آنچه پیشتر به دست آمده بود، فرق دارند:

    یک شناسه توکن Token ID در آغاز و یک شناسه در پایان اضافه شده است. بیایید دو توالی شناسه فوق را رمزگشایی کنیم:

    توکن‌کننده واژه خاص [CLS]  را در آغاز و واژه خاص [SEP]  را در انتها اضافه کرده است زیرا مدل با این دو مرحله پیش‌آموزش را پشت سر گذاشته است. بنابراین، برای اینکه نتایج یکسانی برای عمل استنباط inference به دست آید، باید آنها را نیز اضافه کرد. توجه داشته باشید که برخی مدل‌ها واژه‌های خاص یا متفاوتی اضافه نمی‌کنند. ممکن است مدل‌ها این واژه‌ها را فقط در آغاز یا پایان کار اضافه کنند. در هر صورت، توکن‌کننده می‌داند که کدام موارد مورد نیاز هستند. بنابراین، تدبیری برای این کار اندیشیده خواهد شد.

    از توکن‌کننده به مدل

    حال که تمامی مراحل توکن‌کننده در زمان کار بر روی متون بررسی شده است، بیایید برای آخرین بار به نحوه‌ی مدیریت چندین توالی بسیار طویل و انواع مختلف تنسورها بپردازیم:

    این قسمت از آموزش پردازش زبان طبیعی با محوریت جمع‌بندی فصل دوم به پایان رسید و شما می‌توانید از طریق لینک زیر به دیگر قسمت‌های این آموزش دسترسی داشته باشید:

    آموزش پردازش زبان طبیعی

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    اگر در بحث هوش مصنوعی رقابت نکنیم، بازنده رقابت تکنولوژی حوزه حمل‌ونقل خواهیم شد

    مقاله قبلی

    آموزش قایم باشک به ربات ها؛ کلید دستیابی به نسل بعدی AI

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.