مدل
آموزش پردازش زبان طبیعیآموزش‌های پیشرفته هوش مصنوعیپردازش زبان طبیعی

آموزش پردازش زبان طبیعی با اکوسیستم هاگینگ فیس ؛ مدل ها (قسمت سوم فصل دوم)

    0
    زمان مطالعه: ۴ دقیقه

    ساخت و استفاده از مدل در این بخش به طور جامع توضیح داده خواهد شد. در این راستا، از کلاس TFAutoModel استفاده خواهیم کرد. هر گاه تصمیم به نمایش یک مدل از چک‌پوینت موجود داشته باشید، کلاس فوق می‌تواند مفید واقع شود. اگر با نوع مدلی که قصد استفاده از آن را دارید به خوبی آشنا باشید، می‌توانید از کلاسی استفاده کنید که معماری‌اش را به طور مستقیم تعریف می‌کند. بگذارید نحوه‌ی عمل این روش را در مدل برت بررسی کنیم.

    ایجاد ترنسفورمر

    اولین اقدام برای راه‌اندازی مد‌‌‌‌‌ل برت این است که یک شیء از کانفیگ configuration object بارگذاری کنیم:

    این کانفیگ حاوی ویژگی‌های بسیاری است که برای ساخت مد‌‌‌‌‌‌‌ل استفاده می‌شوند:

    .

    چون تا بدین‌جای کار نمی‌دانید که این ویژگی‌ها چه کارکردی دارند، باید برخی از آنها را بشناسید. ویژگی «hidden_size» اندازه بردار «hidden_states» را تعریف می‌کند، اما «num_hidden_layers» تعداد لایه‌های مد‌‌‌‌‌‌‌ل ترنسفورمر را تعریف می‌کند.

    روش‌های بارگذاری مختلف

    ساخت مد‌‌‌‌‌‌‌ل از پیکربندی پیش‌فرض آن را با مقادیر تصادفی راه می‌اندازد:

    مد‌‌‌‌‌‌‌‌ل می‌تواند در این حالت استفاده شود، اما خروجی مناسبی نخواهد داشت. در ابتدا باید آموزش‌های لازم را ببیند. امکان آموزش مدل از همان نقطه‌ی اول نیز وجود دارد. اما آن‌طور که در فصل اول ملاحظه کردید (لینک دسترسی به همه قسمت‌های این دوره آموزشی در انتهای مطلب قرار دارد)، این کار به زمان و داده‌های بسیاری نیاز دارد. برای اینکه از کارهای تکراری و غیرضروری پرهیز کنیم، باید مدل‌های آموزش دیده را به اشتراک گذاشته و مجدداً از آنها استفاده کنیم. بارگذاری مدل ترنسفورمری که از پیش آموزش دیده، کار آسانی است. این کار با روش from_pretrained  قابل انجام است:

    همان‌طور که پیشتر مشاهده کردید، امکان جایگزین‌سازی TFBertModel با کلاس TFAutoModel وجود دارد. از این به بعد باید این اقدام را در دستور کارمان قرار دهیم. اگر کدتان برای یک چک‌پوینت در نظر گرفته شده است، باید با چک‌پوینت دیگر نیز بدون مشکل عمل کند. حتی در صورتی که معماری متفاوت باشد، این عمل موثر واقع می‌شود (البته در صورتی که چک‌پوینت برای کار مشابهی آموزش دیده باشد؛ مثلاً عمل تحلیل احساسات).

    در نمونه کد بالا، از BertConfig استفاده نشد؛ بلکه یک مدلِ از پیش آموزش یافته با استفاده از bert-base-cased بارگذاری شد. این یک چک‌پوینت نمونه است که به دست نویسندگان برت آموزش یافته است. جزئیات بیشتر در کارت مدل قرار داده شده است. این مدل با تمامی وزن‌های چک‌پوینت به اجرا درمی‌آید و امکان استفاده مستقیم از آن برای نتیجه‌گیری وجود دارد. همچنین، در کارهای جدید نیز به طور دقیق تنظیم Fine-tune می‌شود. زمانی می‌توان به نتایج خوبی دست پیدا کرد که از وزن‌هایِ از پیش آموزش یافته برای پیاده‌سازی عمل آموزش استفاده کنیم.

    وزن‌ها دانلود شده و در پوشه «cache» ذخیره شده‌اند. می‌توانید پوشه اختصاصی خودتان را با تنظیم متغیر محیط HF_HOME  ایجاد کنید. نام  استفاده شده برای بارگذاری مدل می‌تواند نام هر مدلی در Model Hub باشد؛ به شرطی که با معماری برت سازگار باشد. کل لیست چک‌پوینت‌های برت در این لینک قرار داده شده است.

    روش‌های ذخیره‌سازی

    ذخیره‌سازی مدل نیز مثل بارگذاری آن ساده است. باید از روش save_pretrained برای انجام این کار استفاده کرد که شباهت بسیاری به روش from_pretrained دارد:

    این کار باعث ذخیره‌سازی دو فایل در دیسک می‌شود:

    اگر به فایل config.json نگاه کنید، با ویژگی‌های لازم برای ساخت معماری مدل آشنا خواهید شد. این فایل حاوی متاداده نیز می‌باشد؛ برای نمونه، منشاء چک‌پوینت و نسخه ترنسفورمر مورد استفاده در هنگام ذخیره چک‌پوینت آخر از جمله این داده‌ها هستند. فایل tf_model.h5 با عنوان state dictionary شناخته می‌شود و دربرگیرنده‌ی کلیه وزن‌های مدل است. این دو فایل بارها و بارها به کار برده می‌شوند. این نوع پیکربندی برای شناخت معماری مدل ضروری است، اما وزن‌های مدل پارامترهای مدل شما هستند.

    استفاده از مدل ترنسفورمر برای استنباط

    حال که با نحوه‌ی بارگذاری و دخیره‌ی مدل آشنا شده‌اید، زمان استفاده از آن برای انجام پیش‌بینی فرا رسیده است. مدل‌های ترنسفورمر فقط قادر به پردازش اعداد هستند؛ اعدادی که توکن‌کننده تولید می‌کند. اما پیش از آنکه درباره توکن‌کننده‌ها بحث کنیم، بیایید ببینیم مدل چه نوع ورودی‌هایی را می‌پذیرد. توکن‌کننده‌ها می‌توانند ورودی‌ها را در اختیار تنسورهای چارچوب مناسب قرار دهند. برای اینکه درک عمیق‌تری درباره این موضوع به دست آورید، باید ببینیم انجام چه کاری پیش از ارسال ورودی به مدل ضرورت دارد. فرض کنید چند توالی داریم:

    توکن‌کننده اینها را به شاخص‌های واژگانی تبدیل می‌کند که معمولاً input Ids نام دارند. هر توالی لیستی از اعداد است. خروجی نهایی به ترتیب زیر است:

    لیستی از توالی‌های رمزگذاری شده در زیر آورده شده است. تنسورها فقط اَشکال مستطیلی (ماتریسی فکر کنید!) را می‌پذیرند.  آرایه بالا شکل مستطیلی دارد؛ بنابراین، تبدیل آن به تنسور کار آسانی است:

    استفاده از تنسورها به عنوان ورودی مدل

    تنسورها به آسانی در مدل‌ها به کار برده می‌شوند. مدل با ورودی‌های آن فراخوانی می‌شود:

    مدل پذیرایِ آرگومان‌های بسیار متفاوتی است، اما فقط input IDها ضرورت دارند. در فصول بعد به توضیح کارکرد سایر آرگومان‌ها و زمان نیاز به آنها خواهیم پرداخت. اما در ابتدا باید نگاه دقیق‌تری به توکن‌کننده‌ها بیندازیم.

    از طریق لینک زیر می‌توانید به قسمت‌های دیگر دوره آموزشی پردازش زبان طبیعی دسترسی داشته باشید:

    آموزش پردازش زبان طبیعی

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    پیش‌بینی نیاز بیماران کرونایی به ونتیلاتور از طریق هوش مصنوعی

    مقاله قبلی

    پیش‌بینی فناوری جدید هوش مصنوعی برای جهش ویروس و روش‌های درمانی آن

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.