توالی
آموزش پردازش زبان طبیعیآموزش‌های پیشرفته هوش مصنوعیپردازش زبان طبیعی

آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس ؛ مدیریت چندین توالی ورودی (قسمت پنجم فصل دوم)

    0
    زمان مطالعه: ۵ دقیقه

    در این قسمت از دوره رایگان آموزش پردازش زبان طبیعی به مدیریت چندین توالی ورودی خواهیم پرداخت. ساده‌ترین موارد کاربرد (یعنی استنباط گیری از یک توالی با طول اندک) در بخش پیشین بررسی شد. با این حال، باید پاسخ مناسبی به پرسش‌های زیر داده شود:

    • مدیریت چندین توالی چگونه است؟
    • مدیریت چندین توالی با طول مختلف چگونه است؟
    • آیا شاخص‌های واژگانی تنها ورودی‌هایی هستند که زمینه را برای کارکرد خوبِ مدل فراهم می‌کنند؟
    • آیا امکان دارد یک توالی بیش از حد طولانی باشد؟

    در بخش زیر خواهید دید که این قبیل از پرسش‌ها به چه مسائلی می‌انجامد. نحوه‌ی حل این مسائل با ترنسفورمر API نیز توضیح داده می‌شود. ابتدا ویدئو زیر را تماشا کنید:

    مدل‌ها به دسته‌ یا بچ از ورودی‌ها نیاز دارند

    در تمرین پیشین، دیدید که توالی‌ها چگونه به لیستی از اعداد تبدیل می‌شوند. اینک، بیایید این لیست اعداد را به یک تنسور تبدیل و به مدل ارسال کنیم:

    وای! چرا این کار با موفقیت به پایان نرسید؟  مراحل پایپ‌لاین در بخش ۲ پیاده‌سازی شدند. (در انتهای مطلب می‌توانید به دیگر قسمت‌های این دوره آموزش پردازش زبان طبیعی دسترسی داشته باشید).

    مشکل اینجاست که یک توالی به مدل ارسال کردیم، اما مدل‌های ترنسفورمر به طور پیش‌فرض نیازمند چندین توالی هستند. در این بخش سعی کردیم تمام کارهای پشت صحنه توکن‌کننده را در صورت به‌کارگیری در توالی پوشش دهیم. اما اگر با دقت به این موضوع نگاه کنید، می‌بینید که توکن‌کننده صرفاً لیست شناسه‌های ورودی را به تنسور تبدیل نکرده است، بلکه شاهد اضافه شدن یک بُعد در بالای آن هستیم:

    اینک، بیایید دوباره امتحان کنیم و بُعد جدیدی بیفزاییم:

    باید شناسه‌های ورودی و توابع لوجیت را چاپ کرد. به خروجی کار توجه کنید:

    دسته‌بندی Batching به عمل ارسالِ همزمان چندین توالی به مدل اطلاق می‌شود. اگر فقط یک جمله داشته باشید، می‌توانید دسته‌ای با یک توالی ایجاد کنید:

    این دسته دو توالی مشابه دارد.

     

    خودتان امتحان کنید: لیست batched_ids  را به تنسور کرده و به مدل انتقال دهید. به این موضوع توجه داشته باشید که باید توابع لوجیت یکسانی مثل قبل به دست بیاورید. عمل دسته‌بندی این امکان را در اختیار مدل قرار می‌دهد تا در صورت رویارویی با چندین توالی به فعالیت عادی خود ادامه دهد. استفاده از چندین توالی هم مثل ساختن دسته با یک توالی آسان است. البته مسئله دیگری هم وجود دارد. اگر می‌خواهید دو جمله را به صورت دسته‌ای کنار یکدیگر قرار دهید، ممکن است آن جملات طول متفاوتی داشته باشند. اگر پیشتر با تنسورها کار کرده باشید، احتمالاً می‌دانید که آنها باید شکل مستطیلی داشته باشند؛ بنابراین، قادر نخواهید بود این لیست شناسه‌های ورودی را به طور مستقیم به تنسور تبدیل کنید. شاید بهتر است از عمل پدینگ Padding استفاده کنید.

    پدینگ کردن ورودی‌ها

    امکان تبدیل لیست زیر به تنسور وجود ندارد:

    برای اینکه در این بخش به اهداف مورد نظر دست یابیم، باید از عمل پدینگ برای اطمینان حاصل کردن از شکل مستطیلیِ تنسورها استفاده کنیم. پدینگ با افزودن واژه خاصی به نام padding token به جملات این اطمینان را می‌دهد که کلیه جملات طول یکسانی خواهند داشت. برای نمونه، اگر ۱۰ جمله با ۱۰ واژه و یک جمله با ۲۰ واژه داشته باشید، پدینگ به نحوی عمل خواهد کرد که کلیه جملات ۲۰ واژه داشته باشند. در مثال ما، تنسورِ بدست آمده به شکل زیر خواهد بود:

    شناسه‌ پدینگ توکن padding token ID در tokenizer.pad_token_id قابل دسترس است. بیایید از این ابزار استفاده کرده و دو جمله را به طور جداگانه در اختیار مدل قرار دهیم:

    .

    توابع لوجیت در پیش‌بینی‌های ما ایراد دارند؛ سطر دوم باید مثل لوجیت‌های جمله‌ی دوم باشد، اما مقادیر کاملاً متفاوتی به دست آمده است. دلیل مشکل فوق این است که لایه‌های توجه به عنوان ویژگی کلیدیِ مدل‌های ترنسفورمر به شمار می‌روند. این لایه‌ها نقش موثری در مفهوم‌سازی زمینه‌ای Contextualize هر یک از توکن‌ها دارند. در این فرایند، توکن‌های پدینگ حتماً مد نظر قرار خواهند گرفت زیرا به همه توکن‌های توالی Sequence می‌پردازند. برای اینکه هنگام انتقال تک‌تک جملات به مدل که طول مختلفی دارند، نتیجه یکسانی بگیرید، باید به کلیه‌ لایه‌های توجه دستور دهید تا از توکن‌های پدینگ چشم‌پوشی کنند. این کار با استفاده از ماسک توجه Attention mask صورت می‌پذیرد.

    ماسک‌های توجه

    ماسک‌های توجه به تنسورهایی گفته می‌شود که شکل‌شان دقیقاً مثل تنسور شناسه‌های ورودی است و با صفر و یک پر شده‌اند. اعداد ۱ نشان‌دهنده‌ی توکن‌هایی هستند که نیاز به بررسی دارند و اعداد صفر به توکن‌هایی اشاره دارد که نیازمند بررسی نیستند. حال بیایید نمونه پیشین را با یک ماسک توجه تکمیل کنیم:

    .

    اینک، لوجیت‌های یکسانی برای جمله دوم در دسته به دست می‌آید. توجه داشته باشید که رقم آخرِ توالی دوم یک شناسه پدینگ به حساب می‌آید و در ماسک توجه از مقدار صفر برخوردار است.

    خودتان امتحان کنید: عمل توکن‌سازی را به صورت جداگانه در دو جمله‌ی مورد استفاده در بخش ۲ انجام دهید. آنها را به مدل انتقال دهید و مطمئن شوید که لوجیت‌های یکسانی در بخش ۲ به دست می‌آیند. اکنون، آنها را با استفاده از padding token کنار یکدیگر قرار دهید؛ سپس، ماسک توجه مناسبی ایجاد کنید. مطمئن شوید که با به‌کارگیری مدل به نتایج یکسانی می‌رسید.

    توالی‌های طولانی‌تر

    یکی از ویژگی‌های مدل‌های ترنسفورمر این است که طول جملاتی که در اختیار مدل قرار می‌گیرد، باید محدود باشد. اکثر مدل‌ها می‌توانند توالی‌هایی با ۵۱۲ یا ۱۰۲۴ توکن را به خوبی مدیریت کنند. اما اگر توالی‌های طولانی‌تری برای پردازش در اختیارشان قرار داده شود، کارایی لازم را نخواهند داشت. دو راهکار برای این مسئله پیشنهاد شده است:

    • استفاده از مدلی با طول توالی بیشتر
    • کاهش طول توالی‌ها

    مدل‌ها طول توالی متفاوتی دارند و برخی از آنها توالی‌های بسیار طویل را به خوبی مدیریت می‌کنند. Longformer  و LED نمونه بارزی از این مدل‌ها برشمرده می‌شوند. اگر بر روی پروژه‌ای کار می‌کنید که به توالی‌های بسیار بلندی نیاز دارد، پیشنهاد می‌کنیم به این مدل‌ها نگاه کنید. در غیر این صورت، توصیه‌مان این است که توالی‌هایتان را با تصریح پارامتر max_sequence_length   کوتاه‌تر کنید:

     

    برای مشاهده باقی قسمت‌های این دوره وارد لینک زیر شوید:

    آموزش پردازش زبان طبیعی

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    متدهایی برای ارزیابی عملکرد مدل طبقه بندی

    مقاله قبلی

    کنگره هوش مصنوعی به همت پردیس بین‌المللی کیش، دانشگاه شیراز و صنعتی شریف برگزار می‌شود

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.