Inception
آموزش‌های پیشرفته هوش مصنوعیبینایی ماشین

معرفی ماژول Inception در شبکه‌ GoogleNet

    0
    زمان مطالعه: ۴ دقیقه

    GoogleNet یک شبکه‌ پیچشی عمیق با ۲۲ لایه است. معماری این شبکه در چالش ILSVRC سال ۲۰۱۴ معرفی شد (دو مسئله‌ی اصلی این چالش، تشخیص اشیاء Object detection و طبقه‌بندی تصویر Image classification بودند). جنبه‌ نوآورانه‌ی معماری GoogleNet مربوط به ماژولی به نام Inception است.

    برای این‌که بفهمیم این ابداع چرا تا این حد مورد توجه قرار گرفته است، ابتدا باید معماری شبکه های عصبی کانولوشنی (CNN) معمولی را مرور کرده و مصالحه‌ای که در ساخت همه‌ی شبکه‌ها باید برقرار شود را مورد مطالعه قرار دهیم. مطالبی که اینجا در مورد CNNها ارائه می‌دهیم، به زبان پیشرفته و سطح بالا هستند؛ به همین دلیل، در صورت تمایل، ابتدا این مقاله را در مورد معماری CNNها مطالعه کنید.

    برقراری توازن در ساخت CNNها

    اجزای تشکیل‌دهنده‌ی CNNها عبارت‌اند از:

    • لایه‌ی کانولوشن convolution (+ تبدیلات غیرخطی  Non-affine transformations که از طریق توابع فعالسازی اجرا می‌شوند)
    • لایه‌ی پولینگ pooling
    • لایه‌ی تراکم (کاملاً متصل)

    هر بار بخواهیم یک لایه‌ی جدید قبل از لایه‌های تراکم (که در انتهای شبکه قرار دارند) اضافه کنیم، دو نکته‌ی مهم را باید تعیین کنیم:

    • انتخاب بین عملیات کانولوشن و یا ادغام؛
    • تعیین اندازه و تعداد فیلترهایی که از خروجی لایه‌ی قبلی وارد لایه‌ی جدید خواهند شد.

    راهکار ایده‌آل این است که بتوان همه‌ی گزینه‌های موجود را در یک لایه به صورت یک‌جا امتحان کرد. در همین راستا، تیم پژوهشی گوگل، معماری جدیدی طراحی کردند که یک لایه‌ی جدید به نام Inception دارد.

    معرفی ماژول Inception

    هدف اصلی از طراحی ماژول Inception این بود که چندین عملیات (ادغام، کانولوشن) با فیلتر‌هایی با اندازه‌های گوناگون (۳×۳، ۵×۵ و …) را بتوان به صورت موازی ایجاد کرد و نیازی به انتخاب بین آن‌ها نباشد.

    قبل از این‌که معماری رسمی GoogleNet را نشان دهیم، ابتدا نحوه‌ی کارکرد ماژول Inception را با هم بررسی می‌کنیم؛ بدین منظور از این لایه استفاده می‌کنیم:

    ماژول Inception

    همانطور که مشاهده می‌کنید، ورودی اولیه (پشته‌ای stack از نقشه‌های ویژگی Feature maps که خروجی لایه‌ی قبلی هستند) تنسور tensor با ۶۴ نقشه‌ی ویژگی است، ابعاد همه‌ی این نگاشت‌ها ۳۲×۳۲ می‌باشد. سه عملیات، به صورت موازی، روی این تنسور اجرا می‌شوند:

    • عملیات کانولوشن با ۱۶ فیلتر ۱×۱: اندازه‌ی تنسور خروجی ۱۶×۳۲×۳۲ خواهد بود (عدد آخر، یعنی ۱۶، نشان‌دهنده‌ی تعداد نهایی نقشه‌های ویژگی است که برابر با تعداد فیلترهای اعمال شده روی تصویر می‌باشد).
    • عملیات کانولوشن با ۳۲ فیلتر ۳×۳: هدف از این عملیات این است که ابعاد خروجی هم‌اندازه با نگاشت‌های ویژگی اصلی باقی بماند. padding را می‌توان برابر با ۱ و stride (گام) را برابر با ۱ قرار داد (برای کسب اطلاعات بیشتر در مورد padding و strides و تأثیرات آن‌ها روی ابعاد نگاشت‌ها به این مقاله مراجعه کنید). اندازه‌ی تنسور خروجی ۳۲×۳۲×۳۲ خواهد بود.
    • عملیات پولینگ ماکزیمم با یک فیلتر ۳×۳ (مقادیر padding و stride طبق استدلال بیان شده در عملیات قبلی محاسبه می‌شوند): اندازه‌ی تنسور خروجی ۶۴×۳۲×۳۲ خواهد بود؛ از آن‌جایی که فیلتر پولینگ روی همه‌ی نقشه‌های ویژگی تنسور ورودی اجرا می‌شود، عمق تنسور خروجی برابر با عمق تنسور اصلی (=۶۴) است.

    بدیهی است که با افزودن این عملیات‌ها به تمام لایه‌ها، مدل از نظر تعداد پارامترها پیچیده‌تر می‌شود. اما خوشبختانه، نسخه‌ی دوم ماژول Inception تکنیک خوبی برای کاهش ابعاد نگاشت‌های ویژگی قبل از اجرای مدل ارائه داده است.

    حل مشکل پارامترهای زیاد

    هدف این است که قبل از ورود نگاشت‌های ویژگی به عملیات‌های موازی، یک فیلتر کانولوشن ۱×۱ روی آن‌ها اجرا کنیم. بدین طریق عمق تنسوری که این نگاشت‌ها را دربردارد، کاهش خواهد یافت. به بیان دقیق‌تر با اجرای این فیلتر، تعداد نقشه‌های ویژگی موجود در پشته‌ی ورودی را کاهش می‌دهیم.

    به عنوان مثال، در اجرای عملیات اول کانولوشن، با اجرای کانولوشن ۱×۱ می‌توانیم تعداد نگاشت‌ها را از ۶۴ به ۱۶ کاهش دهیم.

    پارامترهای زیاد

    با انجام این کار، فیلتر ۱۶×۱×۱ را روی یک تنسور کم‌عمق‌تر که حالا ابعادش ۱۶×۳۲×۳۲ است، اجرا می‌کنیم. بدین ترتیب تعداد پارامترها به طرز چشمگیری کاهش خواهد یافت.

    جمع‌بندی

    معرفی ماژول Inception یک نوآوری فوق‌العاده در حوزه‌ی بینایی کامپیوتری به شمار می‌رود. برای جمع‌بندی آن‌چه گفته شد از سه تصویر پایین استفاده می‌کنیم؛ دو تصویر اول نشان‌دهنده‌ی ماژول Inception هستند که روی یکی از آن‌ها، به منظور کاهش ابعاد، عملیات کانولوشن ۱×۱ اجرا شده است. تصویر سوم هم کل معماری GoogleNet را نشان می‌دهد.

    ماژول Inception

    ماژول Inception، نسخه‌ی ۱.۰

    ماژول Inception، نسخه‌ی 2.0

    ماژول Inception، نسخه‌ی ۲.۰

    Inception

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۱ میانگین: ۵]

    وب سرویس های آمازون یا مایکروسافت آژور و یا سکوی ابری گوگل؟ گواهینامه کدام دوره بهتر است؟

    مقاله قبلی

    دستیاران دیجیتال که خود را با نیازهای هر فروشگاه تطبیق می‌دهند

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.