با الگوریتم‌های بهینه‌سازی مختلف برای آموزش شبکه عصبی آشنا شویم

تیم تحریریه
۱۸ اردیبهشت ۱۴۰۱

زمان مطالعه: 5 دقیقه

ممکن است بسیاری از افراد بدون اطلاع از روش بهینه‌سازی، از بهینه‌سازها هنگام آموزش شبکه عصبی استفاده کنند. بهینه‌سازها به الگوریتم‌ها یا روش‌هایی اطلاق می‌شود که برای تغییر ویژگی‌های شبکه عصبی از قبیل وزن و نرخ یادگیری کار برده می‌شوند. این کار، نقش موثری در کاهش زیان losses دارد. نحوه تغییر وزن‌ها یا نرخ یادگیری شبکه عصبی به ابزارهای بهینه‌سازیِ مورد استفاده بستگی دارد. راهبردها یا الگوریتم‌های بهینه‌سازی مسئول کاهش زیان هستند و دقیق‌ترین نتایج ممکن را به ارمغان می‌آورند. در مقاله حاضر، انواع مختلف بهینه‌سازها و مزایای آنهابرای آموزش شبکه عصبی توضیح داده خواهد شد.

فهرست مقاله پنهان

1 گرادیان کاهشی

2 گرادیان کاهشی تصادفی

3 گرادیان کاهشی Mini-Batch

4 تکانه(مومنتوم)

5 گرادیان شتاب‌یافته‌ی نستروف

6 روش گرادیان انطباقی (AdaGrad)

7 AdaDelta

8 روش Adam

گرادیان کاهشی

گرادیان کاهشی Gradient Descent اساسی‌ترین و پرکاربردترین الگوریتم بهینه‌سازی به حساب می‌آید که به طور گسترده در رگرسیون خطی و الگوریتم‌های طبقه‌بندی استفاده می‌شود. روش پس‌انتشار Backpropagation در شبکه‌های عصبی نیز از الگوریتم گرادیان کاهشی استفاده می‌کند. گرادیان کاهشی به الگوریتم بهینه‌سازی مرتبه اول گفته می‌شود که به مشتق مرتبه اولِ first order derivative تابع زیان بستگی دارد. محاسبات این الگوریتم تعیین می‌کند که وزن‌ها چگونه باید تغییر یابند تا تابع به مقدار کمینه برسد. با روش پس‌انتشار، زیان از یک لایه به لایه دیگر انتقال یافته و پارامترهای مدل (موسوم به وزن) نیز بسته به زیان تغییر می‌یابند تا زیان به حداقل برسد.

الگوریتم

مزایا:

محاسبه آسان
اجرای آسان
درک آسان

معایب:

احتمالِ گیر افتادن در دام کمینه محلی local minima.
وزن‌ها پس از محاسبه گرادیان در کل مجموعه‌داده تغییر می‌یابند. بنابراین، اگر مجموعه‌داده بسیار بزرگتر از این باشد، ممکن است سال‌ها طول بکشد تا مقدار کمینه بدست آید.
نیاز به حافظه بزرگ برای محاسبه گرادیان در کل مجموعه‌داده.

گرادیان کاهشی تصادفی

گرادیان کاهشی تصادفی Stochastic Gradient Descent یکی از گونه‌های گرادیان کاهشی است. این گرادیان، پارامترهای مدل را به طور پیوسته به‌روزرسانی می‌کند. در این روش، پارامترهای مدل پس از محاسبه زیان در هر نمونه آموزش تغییر می‌یابند. بنابراین، اگر مجموعه‌داده 1000 ردیف داشته باشد، گرادیان کاهشی تصادفی پارامترهای مدل را 1000 بار در یک چرخه از مجموعه‌داده به‌روزرسانی می‌کند؛ برخلاف گرادیان کاهشی که عمل به‌روزرسانی فقط یک بار در آن انجام می‌شد.

بر این اساس، {x(i) ,y(i)} نمونه‌های آموزشی هستند.

از آنجایی که پارامترهای مدل به طور مرتب به‌روزرسانی می‌شوند، پارامترها واریانس و نوسان بالایی در توابع زیان دارد؛ شدت آن فرق می‌کند.

مزایا:

به‌روزرسانی پیوسته‌ی پارامترهای مدل؛ نتیجه: همگرایی در زمان کمتر
نیاز به حافظه کمتر زیرا ذخیره‌سازیِ مقادیر توابع زیان الزامی نیست.
احتمال بدست آوردن کمینه‌ی جدید

معایب:

واریانس بالا در پارمترهای مدل
احتمال ادامه فعالیت حتی پس از بدست آوردن کمینه کلی.
برای اینکه همگراییِ شبیه به گرادیان کاهشی به دست آید، مقدار نرخ یادگیری به آرامی کاهش می‌یابد.

گرادیان کاهشی Mini-Batch

بهترین نوع گرادیان در میان کلیه الگوریتم‌های گرادیان کاهشی است. این الگوریتم نسخه‌ پیشرفته‌یِ گرادیان کاهشی تصادفی و گرادیان کاهشی استاندارد است. این گرادیان پس از هر دسته اقدام به به‌روزرسانی پارامترهای مدل می‌کند. بنابراین، مجموعه‌داده به دسته‌های (batch) مختلفی تقسیم می‌شود. پارامترها پس از هر دسته به‌روزرسانی می‌شوند.

بر این اساس، {B(i)} به عنوان دسته یا batch شناخته می‌شوند.

مزایا:

پارامترهای مدل را به طور مرتب به‌روزرسانی می‌کند و واریانس کمتری دارد.
به حافظه متوسط نیاز دارد.

همه الگوریتم‌ها گرادیان کاهشی با چالش‌هایی روبرو هستند:

انتخاب مقدار بهینه‌ی نرخ یادگیری. اگر نرخ یادگیری خیلی کوچک باشد، ممکن است همگرایی مدت زمان بسیاری به طول انجامد.
داشتن نرخ یادگیری ثابت برای همه پارامترها. ممکن است پارامترهایی وجود داشته باشیم که شاید تمایلی به تغییرشان با نرخ یکسان نداشته باشیم.
احتمالِ گیر افتادن در دام کمینه محلی

تکانه(مومنتوم)

تکانه Momentum با هدفِ کاهش واریانس در گرادیان کاهشی تصادفی ابداع شد. تکانه، همگرایی به جهت مورد نظر را تسریع بخشیده و از گرایش به جهات نامربوط پیشگیری می‌کند. در این روش به جای اینکه تنها از مقدار گرادیان در مرحله ی فعلی به منظور هدایت جستجو استفاده شود، تکانه گرادیان مراحل گذشته را نیز محاسبه می کند و از آن برای تعیین جهت گرادیان استفاده می کند. هایپرپارامتر دیگری موسوم به تکانه در این روش استفاده می‌شود.

اکنون، وزن‌ها با $\inline \theta -\theta =_{vt}$ به‌روزرسانی می‌شوند.

عبارت تکانه معمولاً 9/0 یا مقداری مشابه در نظر گرفته می‌شود.

مزایا:

کاهشِ نوسانات و واریانس بالای پارامترها
همگرایی سریع در مقایسه با گرادیان کاهشی.

معایب:

هایپرپارامتر دیگری افزوده می‌شود. باید آن را به صورت دستی و دقیق انتخاب کرد.

گرادیان شتاب‌یافته‌ی نستروف

شاید تکانه روش خوبی باشد، اما اگر تکانه خیلی زیاد باشد، ممکن است الگوریتم کمینه محلی را از دست دهد و حتی به افزایش خود ادامه دهد. بنابراین، محاسبه‌ی θ−γυ_t-1 تقریبی از مقدار بعدی بردار پارامترها را به دست می‌دهد (گرادیان که در میزان تغییرات موثر است در اینجا در نظر گرفته نشده)؛ با این کار درکی مناسب از مقادیر بعدی پارامترها به دست می‌آوریم. اکنون می‌توانیم با محاسبه گرادیان نسبت به مقدار تقریبی بعدی پارامترها، نه مقدار فعلی آن‌ها، به طور موثری مقدار بعدی داده‌ها را در محاسبات دخیل کنیم:

امکان به‌روزرسانی پارامترها با استفاده از $\inline \theta =\theta -_{vt}$ نیز وجود دارد.

مقایسه گرادیان شتاب‌یافته‌ی نستروف و تکانه در کمینه محلی

مزایا:

کمینه محلی را از دست نمی‌دهد.
اگر کمینه‌ای در کار باشد، آهسته‌تر عمل می‌کند.

معایب:

هایپرپارامتر کماکان باید به صورت دستی انتخاب شود.

روش گرادیان انطباقی (AdaGrad)

یکی از معایب همه بهینه‌سازهایی که تا بدین‌جا توضیح داده شد، این است که نرخ یادگیری در همه پارامترها و چرخه‌ها ثابت است. روش فعلی، نرخ یادگیری $\inline \eta$ را برای هر پارامتر و هر بازه زمانی تغییر می‌دهد و یک الگوریتم بهینه‌سازی مرتبه دوم به شمار می‌آید که با مشتق تابع خطا کار می‌کند.

مشتق تابع زیانِ پارامترهای مشخص در زمانی مشخص t

به‌روزرسانی پارامترها با ورودی مشخص i و زمان/تکرار t

در اینجا، η نرخ یادگیری است که بر اساس گرادیان‌های پیشین، در پارامتر θ(i) و زمانی مشخص تغییر می‌یابد. هر درایه‌ی قطری i,i جمع مربعات گرادیان‌ها نسبت به θi در گام زمانی t است و ϵ یک ضریب هموارسازی است که از ایجاد صفر در مخرج جلوگیری می‌کند (معمولا در مقیاس 10-8 است). جالب است که بدون جذر گرفتن، الگوریتم عملکرد بسیار ضعیف‌تری دارد.

مزایا:

1. تغییر نرخ یادگیری در هر پارامتر آموزش
2. عدم نیاز به تنظیم دستیِ نرخ یادگیری
3. امکان آموزش با داده‌های پراکنده

معایب:

1. نیاز به محاسبات سنگین در هنگام محاسبه مشتق مرتبه دوم
2. کاهش نرخ یادگیری در پی آموزش کُند

AdaDelta

روش AdaDelta بسطی از روش AdaGrad است که هدف آن کمتر کردن کاهش فزاینده و یکنواخت نزخ یادگیری در این روش است. به جای تجمع مربعات همه‌ی گرادیان‌های قبلی، روش AdaDelta تعداد مربعات جمع شده را به تعداد محدودی مثل w محدود می‌کند. به جای ذخیره‌ی غیربهینه‌ی wتا از مربعات گرادیان‌ها، جمع گرادیان به صورت بازگشتی، میانگین میراشونده‌ی همه‌ی مربعات گرادیان‌های قبلی تعریف می‌شود. میانگین در لحظه‌ی t یعنی E[g2]t فقط (با یک کسر γ که شبیه به ثابت شتاب است) به میانگین قبلی و گرادیان فعلی بستگی دارد:

به γ مقداری شبیه به ثابت سرعت یعنی حدود 9/0 می‌دهیم.

مزایا:

1. حال، نرخ یادگیری کاهش نمی‌یابد و آموزش متوقف نمی‌شود.

معایب:

1. نیازمند محاسبات زیاد

روش Adam

روش تخمین تکانه تطبیق‌پذیر (Adam) با تکانه‌های مرتبه اول و دوم کار می‌کند. علاوه بر ذخیره کردن میانگین میراشونده‌ی نمایی مربعات گرادیان‌های قبلی، یعنی vt مثل روش‌های AdaDelta و RMSprop، روش Adam میانگین میراشونده‌ی نمایی گرادیان ها mt را هم مثل روش شتاب حفظ می‌کند. mt و vt به ترتیب تخمین تکانه اول (میانگین) و تکانه دوم (واریانس غیرمرکزی) گرادیان‌ها هستند که نام‌گذاری روش هم به همین خاطر است. به خاطر این که حالت اولیه ی بردارهای mt و vt صفر است، سازندگان روش مشاهده کردند که نتایج به صفر متمایل می‌شوند، به خصوص در گام‌های اولیه و مخصوصاً وقتی نرخ میراشوندگی کوچک است (یا به عبارت دیگر β1 و β2 نزدیک 1 هستند).

به‌روزرسانی پارامترها:

مقادیر پیشفرض 9/0 برای β1، 999/0 برای β2 و ^8-10 برای ϵ پیشنهاد شده است.

مزایا:

1. این روش بسیار سریع است و به سرعت همگرایی پیدا می‌کند.
2. نرخ یادگیری و واریانس بالا را اصلاح می‌کند.

معایب:

1. هزینه‌های محاسباتی بالا

مقایسه دوم هزینه‌های محاسباتی بالا — مقایسه 2

جمع‌بندی

در این مقاله انواع مختلف بهینه‌سازها و مزایای آنها برای آموزش شبکه عصبی توضیح داده شد. Adam بهترین الگوریتم بهینه‌سازی است. با Adam می‌توانید آموزش شبکه عصبی را در زمان کمتر و کارایی بالاتر انجام دهید.

https://hooshio.com/?p=14096

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

با الگوریتم‌های بهینه‌سازی مختلف برای آموزش شبکه عصبی آشنا شویم

گرادیان کاهشی

گرادیان کاهشی تصادفی

گرادیان کاهشی Mini-Batch

تکانه(مومنتوم)

گرادیان شتاب‌یافته‌ی نستروف

روش گرادیان انطباقی (AdaGrad)

AdaDelta

روش Adam

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

گرادیان کاهشی

گرادیان کاهشی تصادفی

گرادیان کاهشی Mini-Batch

تکانه(مومنتوم)

گرادیان شتاب‌یافته‌ی نستروف

روش گرادیان انطباقی (AdaGrad)

AdaDelta

روش Adam

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید