زمان کنار گذاشتن شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی فرا رسید

تیم تحریریه
۱۰ مهر ۱۴۰۰
زمان مطالعه 6 دقیقه

برای مدتی شبکه های عصبی بازگشتی Recurrent Neural Networks و حافظه‌ کوتاه‌مدت طولانی Long Short-Term Memory از جذابیت زیادی برخوردار بودند و اکنون زمان آن رسیده که آن‌ها را کنار بگذاریم.

در سال 2014، شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی بازگشت باشکوهی به عرصه‌ یادگیری ماشین داشتند. اما این مربوط به سال‌ها قبل است، زمانی که تجربه‌ کافی نداشتیم. راهکاری که در گذشته برای Sequence learning و یادگیری توالی‌هاSequence translation (seq2seq) و ترجمه توالی Sequence translation وجود داشت،

استفاده از همین شبکه‌ها بود که در تبدیل گفتار به نوشتار و خلق Siri، Cortana، دستیار صوتی گوگل و Alexa نیز به نتایج بسیار خوبی دست یافت. علاوه بر این‌ها، شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی در ترجمه‌ ماشینی (ترجمه‌ اسناد و مدارک به زبان‌های مختلف)، ترجمه‌ ماشینی عصبی Neural Machin Translation، برگردان تصاویر به نوشتار، نوشتار به تصاویر، زیرنویس‌گذاری برای ویدئوها Captioning videos و مواردی از این دست نیز کاربرد دارند.

سپس در سال‌های 2015-2016 شبکه‌ ResNet و مکانیزم توجه attention مطرح شدند. بر اساس این دستاوردها راحت‌تر می‌شد دریافت که حافظه‌ کوتاه‌مدت طولانی یک راهبرد میانبر هوشمندانه است. علاوه بر این، مکانیزم توجه نشان داد که شبکه‌ پرسپترون چندلایه‌ای Multilayer Perceptron را می‌توان با شبکه‌های میانگین‌گیری Averaging networks که تحت تأثیر یک بردار زمینه‌ای Context vector قرار گرفته‌اند، جایگزین کرد.

اکنون بعد از دو سال می‌توانیم با قطعیت بگوییم شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی را رها کنید، چون دیگر سودی ندارند!

برای دیدن شواهد این گفته می‌توانید به Google، Facebook و یا Salesforce مراجعه کنید؛ این شرکت‌ها شبکه های عصبی بازگشتی و مشتقات آن را با مدل‌های توجه‌محور Attention-based models جایگزین کرده‌اند؛ اما این هنوز آغاز کار است. شبکه های عصبی بازگشتی در حال حذف شدن از همه‌ برنامه‌های کاربردی است؛ زیرا نسبت به مدل‌های توجه‌محور، آموزش و اجرای آن‌ها نیازمند منابع بیشتری است.

فهرست مقاله پنهان

1 چرا شبکه های عصبی بازگشتی در حال حذف شدن است؟

2 چه باید کرد؟

3 اطلاعات بیشتر در مورد شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی

4 یادداشت‌ها

چرا شبکه های عصبی بازگشتی در حال حذف شدن است؟

اگر به خاطر داشته باشید، شبکه های عصبی بازگشتی، حافظه‌ کوتاه‌مدت طولانی و شبکه‌هایی که از آن‌ها مشتق شده‌اند عمدتاً از پردازش ترتیبی Sequential processing طی زمان استفاده می‌کنند. به فلش افقی شکل پایین توجه کنید:

همانطور که در تصویر مشاهده می‌کنید، اطلاعات بلندمدت قبل از رسیدن به سلول پردازشی فعلی باید به ترتیب از همه‌ سلول‌ها بگذرند. این مسیر به خاطر ضرب چندین باره در اعداد کوچک (کوچک‌تر از 0)، به راحتی می‌تواند مختل شود. این مشکل دلیل ناپدیدشدگی گرادیان‌ها Vanishing gradients می‌باشد.

ماژول حافظه‌ کوتاه‌مدت طولانی برای حل این مسئله طراحی شد. حافظه‌ کوتاه‌مدت طولانی را امروزه به صورت چندین دریچه‌ تبدیل Switch gate می‌بینید که (تا حدودی شبیه ResNet) می‌تواند واحدها را میانبر زده و بدین ترتیب برای گام‌های زمانی طولانی‌تری (اطلاعات را) به خاطر داشته باشد. بنابراین حافظه‌ کوتاه‌مدت طولانی قادر است برخی از مشکلات مربوط به ناپدیدشدگی گرادیان‌ها را حل کند.

[irp posts=”23395″]

اما همانطور که در تصویر بالا می‌بینید، حافظه‌ کوتاه‌مدت طولانی برای همه‌ مشکلات شبکه های عصبی بازگشتی هم راه‌حلی ندارد. در این شبکه‌ها همچنان یک مسیر متوالی از سلول‌های قبلی تا سلول فعلی وجود دارد. اینجا این مسیر متوالی پیچیده‌تر هم شده است، زیرا شاخه‌های فراموشی Forget branches و اضافی نیز به آن متصل شده‌اند.

بدون شک حافظه‌ کوتاه‌مدت طولانی، GRU و مشتقات آن‌ها می‌توانند اطلاعات بسیار بلندمدت‌تری را بیاموزند. با این حال، تنها می‌توانند توالی‌های 100 تایی را به یاد آورند و نه توالی‌های 1000 تایی و 10000 تایی (یا بیشتر).

یکی از مشکلات شبکه های عصبی بازگشتی این است که برای کار با سخت‌افزارها مناسب نیستند. یعنی برای آموزش این شبکه‌ها و اجرای مدل در فضای ابری به منابع بسیار زیادی نیاز داریم و همانطور که می‌دانیم، با توجه به رشد فزاینده‌ فناوری تبدیل گفتار به نوشتار، فضای ابری ظرفیت کافی را ندارد.

چه باید کرد؟

در حال حاضر ما این روش را پیشنهاد می‌کنیم: شبکه‌ عصبی مبتنی بر یک کانولوشن دوبُعدی 2-D convolution همراه با یک کانولوشن معمولی Casual convolution؛ این شبکه می‌تواند عملکرد بهتری از مدل‌هایی داشته باشد که بر مبنای RNN/LSTM و مکانیزم توجه (همچون مدل‌های transformer) عمل می‌کنند.

مدل transformer از سال 2017 تا زمانی که مقاله‌ مذکور منتشر شد از محبوبیت خوبی برخوردار بود. این مدل‌ها از نظر آزمایش و تعداد پارامترها مزایای زیادی دارند.

اگر از پردازش ترتیبی اجتناب شود، می‌توانیم از واحدهای نگاه به جلو Look-ahead (آینده) یا نگاه به عقب Look-back (گذشته) استفاده کنیم؛ از آنجا که ما بیشتر اوقات با دادگان بلادرنگ علی سروکار داریم، داده‌های گذشته را می‌دانیم و قصد داریم بر روی تصمیمات آینده تأثیر بگذاریم.

اما در مسائلی همچون ترجمه‌ جملات یا تجزیه و تحلیل ویدئوهای ضبط‌شده، همه‌ داده‌ها را در دست داریم و طی مدت زمان بیشتری می‌توانیم بر اساس آن داده‌ها استدلال انجام دهیم. این واحدهای نگاه به جلو و نگاه به عقب در واقع ماژول‌های عصبی توجه Neural attention modules هستند که قبلاً توضیح داده شده‌اند.

برای حل این مشکلات، رمزگذار عصبی سلسله‌مراتبی توجه Hierarchical neural attention encoder از طریق ترکیب چندین ماژول عصبی توجه طراحی شده است؛ به شکل پایین توجه کنید:

یک راه بهتر برای نگاه به گذشته استفاده از ماژول‌های توجه به منظور خلاصه‌سازی همه‌ بردارهای رمزگذاری‌شده در گذشته و تبدیل آن‌ها به یک بردار زمینه‌ای Ct است.

توجه داشته باشید که این‌جا یک سلسله‌ از ماژول‌های توجه داریم که شباهت زیادی به سلسله‌ شبکه‌های عصبی دارند. این ساختار به شبکه‌ پیچشی زمانی Temporal Convolutional Network (TCN) که در نوشتار 3 معرفی شده نیز شبیه هستند.

در رمزگذار عصبی سلسله‌مراتبی توجه، چندین لایه (ماژول) توجه وجود دارد که می‌توانند به قسمت کوچکی از گذشته‌ نزدیک (برای مثال 100 بردار) نگاه کنند، لایه‌های بالایی نیز می‌توانند به 100 عدد از این ماژول‌ها نگاه کنند؛ در نتیجه نهایتاً اطلاعات مربوط به 100×100 بردار به صورت یکپارچه جمع‌آوری می‌شود. بدین ترتیب قابلیت رمزگذار عصبی سلسله‌مراتبی تا 10000 بردار گذشته افزایش می‌یابد.

[irp posts=”23025″]

از این طریق می‌توان به گذشته نگاه کرد و قابلیت تأثیرگذاری بر آینده را به دست آورد.

اما نکته‌ مهم‌تر مربوط به طول مدتی از گذشته است که برای ورود بردار بازنمایی به خروجی شبکه لازم است؛ این مقدار در شبکه‌های سلسله مراتبی متناسب با مقدار log(N) است (N تعداد لایه‌های موجود در سلسله است). این ویژگی با تعداد گام‌هایی (T) که در یک شبکه عصبی بازگشتی لازم می‌باشد در تناقض است (T حداکثر طول توالی یادآوری‌شده است، و T >> N).

یادآوری توالی‌ها اگر از روی 3-4 گام پرش داشته باشید، نسبت به 100 گام، آسان‌تر خواهد بود.

این معماری شبیه به ماشین تورینگ عصبی Neural Turing Machine است، با این تفاوت که به شبکه‌ عصبی اجازه می‌دهد در مورد این‌که چه چیزی از حافظه از طریق مکانیزم توجه خوانده می‌شود، تصمیم بگیرد. در نتیجه یک شبکه‌ عصبی واقعی می‌تواند تصمیم بگیرد کدام بردارها از گذشته در تصمیم‌گیری در مورد آینده مهم هستند.

معماری بالا از لحاظ ذخیره‌سازی در حافظه، همه‌ بازنمایی‌های قبلی را در حافظه ذخیره می‌کند (برخلاف ماشین تورینگ عصبی). این کار می‌تواند کارآیی را کاهش دهد؛ برای مثال تصور کنید می‌خواهید بازنمایی همه‌ فریم‌ها را در یک ویدئو ذخیره کنید. از آن‌جایی که اغلب اوقات بردار بازنمایی فریم به فریم تغییر نمی‌کند، در این صورت مقدار زیادی از یک چیز را ذخیره خواهید کرد! می‌توان به منظور جلوگیری از ذخیره‌ داده‌های همبسته یک واحد دیگر اضافه کرد.

برای مثال ذخیره نکردن بردارهایی مشابه با بردارهایی که از پیش ذخیره شده‌اند. اما این روش تنها یک میانبر است. برای حل مسئله، بهترین کار این است که به برنامه اجازه دهیم شبکه را در انتخاب بردارهایی که باید ذخیره شوند راهنمایی کند. هدف مطالعات پژوهشی حاضر نیز همین است.

اطلاعات بیشتر در مورد شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی

آموزش شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی کار دشواری است، زیرا به محاسباتی نیاز دارند که محدود به پهنای باند حافظه Memory-bandwidth هستند؛ امری که کابوس هر طراح سخت‌افزاری است و می‌تواند کاربردی بودن راهکارهای شبکه‌ عصبی را محدود کند. حافظه‌ کوتاه‌مدت طولانی برای اجرا در هر سلول و هر گام زمانی متوالی به 4 لایه‌ خطی Linear layers (لایه‌ MLP) نیاز دارد. برای محاسبه‌ لایه‌های خطی به پهنای باند زیادی از حافظه نیاز داریم؛

در واقع لایه‌های خطی نمی‌توانند از واحدهای محاسباتی زیادی استفاده کنند، زیرا پهنای باند حافظه‌ سیستم برای تغذیه‌ این تعداد واحد محاسباتی Compute units کافی نیست. اضافه کردن واحدهای محاسباتی کار آسانی است، اما افزایش پهنای باند حافظه دشوار خواهد بود (خط‌های کافی روی یک تراشه Enough lines on a chip، سیم‌های بلند از پردازش‌گرها به حافظه، و غیره). در نتیجه می‌توان گفت شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی و مشتقات آن‌ها برای شتاب‌دهی به سخت‌افزارها مناسب نیستند. راهکاری که برای این مشکل مطرح می‌شود، انجام محاسبات در دستگاه‌های حافظه است.

[irp posts=”14096″]

یادداشت‌ها

عملکرد توجه عصبی سلسله‌مراتبی شبیه به ایده‌ای است که در شبکه‌ WaveNet مطرح شده است. با این تفاوت که به جای استفاده از شبکه‌ عصبی پیچشی از ماژول‌های توجه سلسله‌مراتبی استفاده می‌شود. علاوه بر این، توجه عصبی سلسله‌مراتبی می‌تواند دوسویه Bi-directional باشد.
شبکه های عصبی بازگشتی و حافظه‌ کوتاه‌مدت طولانی مشکلاتی مربوط به محدودیت پهنای باند حافظه دارند. واحد(های) پردازشی بسته به تعداد عملیات‌، نیاز به پهنای باند حافظه‌ دارند و این موضوع کاربرد کامل آن‌ها را غیرممکن می‌سازد. برای حل این مشکل، افزودن پهنای باند بیرونی کافی نیست؛ راهکار دیگری که ممکن است مفیدتر باشد استفاده از کش‌های داخلی Internal caches سریع با پهنای باند وسیع است. اما بهترین راه استفاده از تکنیک‌هایی است که برای حرکت در طول حافظه، به تعداد پارامترهای زیادی نیاز ندارند و می‌توانند برای چندبار محاسبه و به ازای تعداد بیت‌های منتقل‌شده چندین بار مورد استفاده قرار گیرند (شدت محاسباتی بالا).
پیش از این در مقالات CNN و شبکه های عصبی بازگشتی مقایسه شده‌اند. شبکه‌های پیچشی زمانی (TCN) در مقایسه با شبکه‌های بازگشتی متعارف (همچون حافظه‌ کوتاه‌مدت طولانی) در مسائل گوناگون و روی دیتاست‌های مختلف، عملکرد بهتر و حافظه‌ کارآمد و بلندمدت‌تری دارند.
در همین راستا باید گفت دانش کمی در مورد چگونگی یادگیری و یادآوری در مغز انسان در دست داریم. ما اغلب توالی‌های طولانی را به صورت قسمت‌های کوچک‌تر می‌آموزیم و به یاد می‌آوریم. برای مثال، شماره تلفن 8585342230 را به صورت چهار قسمت به خاطر می‌سپاریم. آزمایشات رفتاری نشان می‌دهند انسان‌ها و برخی از حیوانات برای تجزیه‌ توالی‌های رفتاری یا شناختی به مسائل کوچک گوناگون از همین راهکار استفاده می‌کنند. این قسمت‌ها (مسائل) کوچک مانند شبکه‌های پیچشی یا توجهی کوچکی هستند که در حل توالی‌های کوچک‌تر کاربرد دارند و می‌توانند در رمزگذارهای عصبی سلسله‌مراتبی توجه و شبکه‌های پیچشی زمانی (TCN) کنار یکدیگر قرار گیرند. با توجه به پژوهش‌های دیگر شاید بتوان نحوه‌ کارکرد حافظه را شبیه به شبکه های عصبی بازگشتی دانست که از شبکه‌های یاخته‌های عصبی بازگشتی واقعی استفاده می‌کنند و گنجایش بسیار پایینی دارند. از سوی دیگر، قشر مغز cortex و هیپوکامپ Hippocampus (بخش دیگری از مغز) ما را قادر می‌سازند توالی‌های خیلی طولانی از گام‌ها را به خاطر بیاوریم (برای مثال: محل پارک ماشین 5 روز قبل در فرودگاه). بنابراین هرچه توالی‌ها طولانی‌تر باشند، مسیرهای موازی‌تری برای یادآوری آن‌ها لازم است؛ مکانیزم توجه نیز مانند دروازه برای قسمت‌های مهم عمل می‌کند و قسمت‌هایی از توالی که به هدف یا مسئله‌ نهایی ربطی ندارند را در نظر نمی‌گیرد.
تجربه نشان داده ما به صورت متوالی نوشته‌ها را نمی‌خوانیم. بلکه حروف، کلمات و جملات را به عنوان یک گروه تفسیر می‌کنیم. یک ماژول توجه‌محور یا پیچشی توالی را ادراک کرده و یک بازنمایی در ذهن ما تصویر می‌کند.
اخیراً در مقاله‌ای یک مدل بدون نظارت transformer را با استفاده از مکانیزم توجه آموزش دادند و به عملکردی عالی در یادگیری انتقالی دست یافتند. این پژوهش در ادامه‌ مطالعات جرمی و سباستین Jeremy and Sebastian در مورد یک حافظه‌ کوتاه‌مدت طولانی با رویه‌های آموزشی بود که می‌توانست به صورت بدون نظارت بیاموزد کلمه‌ بعدی یک توالی در متن را پیش‌بینی کرده و این دانش را به سایر مسائل نیز منتقل کند.
پیش از این معماری transformer و گردش‌کار آن به خوبی توضیح داده شده است.