40 گام به سوی آینده‌ای هوشمند - مجموعه وبینارهای رایگان در حوزه هوش مصنوعی
Filter by دسته‌ها
chatGTP
آموزش هوش مصنوعی و انواع آن
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
پایتون و ابزارهای یادگیری عمیق
کتابخانه‌ های یادگیری عمیق
یادگیری با نظارت
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
اخبار
تیتر یک
رسانه‌ها
آموزش پردازش زبان طبیعی
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
رویدادها
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
 یادگیری انتقالی در پردازش زبان طبیعی – بخش دوم

یادگیری انتقالی در پردازش زبان طبیعی – بخش دوم

مقاله حاضر دومین بخش از سری مقالات یادگیری انتقالی در پردازش زبان طبیعی است. چنان‌چه به تازگی به حوزه پردازش زبان طبیعی ورود پیدا کرده‌اید، به شما توصیه می‌کنم اولین بخش از این سری مقالات که لینک آن در انتهای مطلب قرار دارد را هم مطالعه کنید.

از زمان انتشار مدل زبانی BERT (ماه اکتبر سال ۲۰۱۸) اتفاقات گوناگونی روی داده است.

  • آیا می‌دانستید مدل‌سازی زبانی مخفی Masked language modelling BERT کارایی سابق را ندارد؟
  • آیا می‌دانستید لازم نیست مکانیزم توجه به لحاظ زمانی درجه دوم باشد؟
  • آیا می‌دانستید می‌توانید بدون کسب اجازه از مدل گوگل استفاده کنید؟

برخی از باهوش‌ترین افراد دوران معاصر زمان خود را وقف تحقیق و پژوهش کرده‌اند و آثار علمی زیادی به چاپ رسانده‌اند. شاید بتوان گفت در حال حاضر NLP جذاب‌ترین حوزه‌ای است که می‌توان وقت خود را صرف آن کرد .

  • NLProc مسیر طولانی را پشت سر گذاشته است.
  • به خلاصه و جمع‌بندی دیگری احتیاج داریم.

پاسخ‌های شما به این ۲۰ سؤال نشان می‌دهد چقدر اطلاعات‌تان راجع به وضعیت کنونی یادگیری انتقالی در پردازش زبان طبیعی به روز است و شما را برای وارد شدن به یک بحث و گفت‌و‌گوی تخصصی آماده می‌کند.

فهرست مقاله پنهان

۱- وضعیت کنونی مدل‌های از پیش آموزش داده شده (PTM) به چه صورت است؟

یادگیری انتقالی در پردازش زبان طبیعی
طبقه‌بندی PTMها با ذکر نمونه

 

https://arxiv.org/pdf/2003.08271.pdf

۲- از چه مسائلی برای آموزش PTMها استفاده می‌شود؟

مسائلی برای آموزش PTM

https://arxiv.org/pdf/2003.08271.pdf

۳- بهترین عملکرد PTMها بر روی GLUE به چه صورت است؟

بهترین عملکرد PTM

https://arxiv.org/pdf/2003.08271.pdf

۴- آیا استفاده از داده‌های بیشتر همیشه به معنای مدل زبانی بهتر است؟

نتایج حاصل از مطالعه T5 نشان می‌دهد که استفاده از داده‌های بیشتر لزوماً به معنای مدلی بهتر نیست. کیفیت داده ها بر کمیت آن‌ها ارجحیت دارد.

نتایج حاصل از مطالعه T5

https://arxiv.org/pdf/1910.10683.pdf

۵- بهترین متد توکن‌سازی برای آموزش مدل‌های زبانی کدام است؟

نتایج حاصل از این مقاله نشان می‌دهد که متد جدید Unigram LM بهتر از BPE و WordPiece است.

[irp posts=”۱۱۹۰۹″]

۶- بهترین مسئله برای آموزش یک مدل زبانی کدام است؟

در حال حاضر بهترین رویکرد موجود ELECTRA است؛ در این رویکرد به کمک مولد، توکن ورودی جایگزین می‌شود و متمایزکننده توکنی که مشکل‌ داشته را پیش‌بینی می‌کند.

هترین مسئله برای آموزش یک مدل زبانی

https://arxiv.org/pdf/2003.10555.pdf

هترین مسئله برای آموزش یک مدل زبانی2

https://arxiv.org/pdf/2003.10555.pdf

علاوه بر این، نتایج حاصل از مقاله T5 نشان می‌دهد اگر مسائل تشخیص span را ۳ بار کاهش دهیم هم به نتایج خوبی دست پیدا می‌کنیم.

عکس مربوط به یادگیری انتقالی در پردازش زبان طبیعی

https://arxiv.org/pdf/1910.10683.pdf

۷- آیا برای آموزش ترنسفورمر بر روی یک مسئله حتماً باید عملیات unfreeze کردن تدریجی را انجام دهیم؟

نتایج حاصل از مقاله T5 نشان می‌دهد که unfreeze کردن تدریجی ضروری نیست.

آموزش ترنسفورمر بر روی یک مسئله

https://arxiv.org/pdf/1910.10683.pdf

۸- اگر برای آموزش مدل یک بودجه مشخص داشته باشید، برای رسیدن به یک مدل زبانی بهتر چه چیزی را می‌توانید تغییر دهید؟

نویسندگان مقاله T5 پیشنهاد می‌کنند برای ساخت یک مدل زبانی بهتر، مدت زمان و تعداد مراحل آموزشی را افزایش دهیم.

آموزش مدل یک بودجه

https://arxiv.org/pdf/1910.10683.pdf

۹- چنان‌چه توالی شما طولانی‌تر از ۵۱۲ توکن باشد از چه مدلی استفاده می‌کنید؟

Transformer-Xl یا Longformer

۱۰- مدت زمان پردازش ترنسفورمر چگونه با طول توالی تطبیق پیدا می‌کند؟

Quadratic

۱۱- با توجه به اینکه در توالی‌های طولانی، مدت زمان پردازش ماهیتی درجه دوم دارد، چگونه می‌توانیم مدت زمان پردازش اسناد طولانی را برای ترنسفورمرها کاهش دهیم؟

Longformer از یک مکانیزم توجه استفاده می‌کند که به صورت خطی با طول توالی مطابقت پیدا می‌کند.

مدت زمان پردازش اسناد طولانی

https://arxiv.org/pdf/2004.05150.pdf

Longformer می‌تواند در کدگذاری اسناد طولانی (برای انجام جست‌وجوهای معنایی) عملکرد خوبی داشته باشد. جدول مقابل عملکرد آن را تا به امروز نشان می‌دهد.

عملکرد انجام جست‌وجوهای معنایی

https://arxiv.org/pdf/2004.05150.pdf

۱۱- آیا عملکرد فوق‌العاده BERT به دلیل استفاده از لایه توجه است؟

نویسندگان مقاله Attention is not Explanation معتقدند توجه تأثیر چندانی بر روی خروجی ندارد و به همین دلیل نمی‌توانیم بگوییم عملکرد مدل به صورت مستقیم از آن تأثیر می‌پذیرد.

[irp posts=”۸۱۴۲″]

۱۲- اگر یک شاخه (Head) را حذف کنیم، عملکرد BERT شدیداً افت پیدا می‌کند؟

نتایج حاصل از مقاله Revealing the Dark Secrets of Bert نشان می‌دهد که حذف یک شاخه منجر به افت شدید عملکرد مدل نمی‌شود.

۱۳- اگر یک لایه را حذف کنیم، عملکرد BERT شدیداً افت پیدا می‌کند؟

نتایج حاصل از مقاله Revealing the Dark Secrets of Bert نشان می‌دهد که حذف یک لایه منجر به افت شدید عملکرد مدل نمی‌شود.

۱۴- اگر BERT را به صورت تصادفی مقداردهی کنیم, عملکرد آن به شدت افت پیدا می‌کند؟

نتایج حاصل از مقاله Revealing the Dark Secrets of Bert نشان می‌دهد که مقداردهی تصادفی مدل، عملکرد آن را تحت الشعاع قرار نمی‌دهد.

۱۵- آیا فشرده‌سازی مدل لازم و ضروری است؟

احتمالاً نه! نکات زیر برگرفته از این مقاله فوق‌العاده هستند.

«تکنیک‌های فشرده سازی شبکه عصبی با معرفی راهکارهایی که مدل‌های بیش پارامترسازی‌ شده تمایل دارند با آن‌ها همگرا شوند، ما را در امر آموزش مدل‌های پارامترسازی شده کمک می‌کنند. انواع زیادی از فشرده سازی مدل وجود دارد و هر یک از آن‌ها از نوع متفاوتی از «سادگی» استفاده می‌کنند که در شبکه های عصبی آموزش دیده یافت می‌شود.»

  • بسیاری از وزن‌ها نزدیک به صفر هستند (هرس کردن)
  • ماتریس‌های وزنی سطح پایین هستند (فاکتورگیری وزنی)
  • وزن‌ها را فقط با چند بیت می‌توان نشان داد ( کوانتومی کردن)
  • به طور معمول لایه‌ها توابع مشابه را یاد می‌گیرند ( اشتراک گذاری وزنی)

۱۶- آیا می‌توانیم بدون اجازه از مدلی که دسترسی به آن از طریق API فراهم شده، استفاده کنیم؟

بله، می‌توانیم! برای کسب اطلاعات بیشتر این مطلب فوق‌العاده را مطالعه کنید.

۱۸- وضعیت کنونی Distillation به چه صورت است؟

وضعیت کنونی Distillation

https://arxiv.org/pdf/2003.08271.pdf

۱۹- مدل‌های بزرگ‌تر ترنسفورمر را سریع‌تر آموزش می‌دهند یا مدل‌های کوچک‌تر؟

بر اساس یافته‌های این مقاله، مدل‌های بزرگ‎تر.

۲۰- چارچوب student-teacher چه کاربردی دارد؟

تقطیر دانش برای ساخت مدل‌های کوچک‌تر

چارچوب student-teacher

https://arxiv.org/pdf/1909.10351.pdf

ایجاد تعبیه‌های جمله‌ای Sentence embeddings یکسان برای زبان‌های مختلف

عبیه‌های جمله‌ای Sentence embeddings

https://arxiv.org/pdf/2004.09813v1.pdf

آخرین سوالی که برای محک زدن اطلاعاتتان درباره مبحث یادگیری انتقالی در پردازش زبان طبیعی باید از خودتان بپرسید این است که چگونه مدل طراحی کنیم؟ کدام پارامترها مهم‌تر هستند؟

سؤال دشواری است!

در مقاله Scaling Laws for Neural Language Models به طور کامل به این سؤال پاسخ داده شده و توضیح داده شده که میان موارد زیر همبستگی وجود دارد:

  • زیان آزمایش و محاسبه
  • زیان آزمایش و اندازه دیتاست
  • زیان آزمایش و پارامترها

برای طراحی و آموزش یک مدل، پیش از هر چیز باید معماری مدل و سپس تعداد پارامترهای آن را مشخص کنیم. در گام بعدی هم می‌توانیم زیان را محاسبه کنیم. سپس اندازه داده‌ها را انتخاب کرده و داده‌های مورد نیاز را محاسبه می‌کنیم.

معادله‌های مقیاس‌بندی در نمودار زیر نشان داده شده است.

معادله‌های مقیاس‌بندی

 

برای مطالعه بخش اول وارد لینک زیر شوید:

یادگیری انتقالی در پردازش زبان طبیعی – بخش اول

میانگین امتیاز / ۵. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]