استفاده از یادگیری عمیق
آموزشآموزش‌های پیشرفته هوش مصنوعیبینایی ماشینکاربردهای هوش مصنوعی

تشخیص اجزای اصلی گل با استفاده از یادگیری عمیق

    0

    در این نوشتار نحوه تشخیص اجزای اصلی در تصاویر گل را با استفاده از یادگیری عمیق و شبکه‌های عصبی پیچشی توضیح می‌دهیم. وجود برخی از اجزای اصلی از جمله ساقه و گل برای تبدیل تصاویر به مدل‌های سه بعدی لازم و ضروری است.

    BloomyPro

    ابتدا لازم است به معرفی Bloomy بپردازیم. کاربران با استفاده از نرم‌افزار Bloomy موسوم به BloomyPro  می‌توانند با استفاده از یک مدل ۳D، دسته‌گل مورد نظر خود را در مرورگر طراحی کنند. پرورش‌دهندگان گل و گیاه، خرده‌فروش‌ها، عمده‌فروش‌ها و توزیع‌کنندگان گل و سایر افراد و گروه‌های فعال در صنعت گل و گیاه از این نرم‌افزار استفاده می‌کنند.

    افراد و گروه‌های فعال در صنعت گل و گیاه با استفاده از این نرم‌افزار می‌توانند، به جای طراحی دسته‌گلی واقعی، از دسته‌گل عکس بگیرند و آن را برای مشتری خود ارسال کنند؛ این افراد می‌توانند تمامی این فرایند را به صورت آنلاین انجام دهند و در زمان و هزینه‌ها صرفه‌جویی کنند.

    استفاده از یادگیری عمیق

    استفاده از یادگیری عمیق

    رابط کاربری BloomyPro

    برای این‌که امکان تشخیص تصاویر ایجاد شده از تصاویر دسته‌گل‌های واقعی وجود نداشته باشد، تصاویر ایجادشده تا حد امکان باید به تصاویر واقعی شباهت داشته باشند. برای دستیابی به این هدف باید از تصاویر واقعی گل‌ها که از زوایای مختلف گرفته شده‌اند استفاده کرد و سپس آن‌ها را به مدل‌های ۳D تبدیل کرد.

    از هر گل جدید، از ۷ زاویه مختف عکس گرفته می‌شود. در اتاقک گل، گل‌ها با استفاده از موتوری که در کابین تعبیه شده است، به صورت خودکار چرخانده می‌شوند.

    در مقابل، فرایند پس پردازش Post-processing هنوز به طور کامل به صورت خودکار در نیامده است. در حال حاضر هزاران گونه گل در این دیتاست وجود دارد و روزانه گل‌های جدیدی به آن افزوده می‌شود. اگر تعداد گل‌های موجود در این دیتاست را در تعداد زوایا (زوایای عکس‌برداری از گل‌ها) ضرب کنید، می‌بینید تصاویر زیادی در اختیار دارید تا به صورت دستی پردازش کنید.

    یکی از مراحل پس پردازش، تعیین و تشخیص محل قرارگیری برخی از اجزای اصلی در تصاویر است، پیش از این نیز گفتیم برای تبدیل تصاویر به مدل‌های ۳D به این اجزا احتیاج داریم. مهمترین اجزا عبارتند از محل ساقه و گلبرگ‌ها. در حال حاضر تشخیص محل قرارگیری این اجزا به صورت دستی انجام می‌شود و هدف ما این است که این مرحله را به صورت خودکار درآوریم.

    دیتاست

    خوشبختانه در حال حاضر هزاران تصویر در این دیتاست وجود دارد که به صورت دستی با اجزای اصلی گل حاشیه‌نویسی شده‌اند. در نتیجه داده‌های آموزشی فراوانی داریم که می‌توانیم از آن‌ها استفاده کنیم.

    استفاده از یادگیری عمیق

    تصاویر حاشیه‌نویسی شده در زوایای مختلف

    در تصویر فوق، تعدادی از گل‌های حاشیه‌نویسی شده مجموعه آموزشی را مشاهده می‌کنید. در تصویر فوق یک تصویر از در زوایای مختلف نشان داده شده است. در تصویر فوق، ساقه با رنگ آبی و گلبرگ‌ها با رنگ سبز نشان داده شده است.

    در برخی از تصاویر ابتدای ساقه توسط گل پنهان شده است. در چنین مواردی باید محلی که بیشترین احتمال را دارد ساقه در آن قرار داشته باشد، حدس بزنیم.

    استفاده از یادگیری عمیق

    نمونه‌ای از ساقه پنهان‌شده

    معماری شبکه

    به دلیل این‌که مدل به جای کلاس باید عدد خروجی بدهد، از رگرسیون استفاده می‌کنیم. یکی از دلایل شهرت CNNها عملکرد فوق‌العاده آن‌ها در انجام و اجرای مسائل طبقه‌بندی است، اما این شبکه‌ها در رگرسیون هم عملکرد خوبی دارند. برای مثال، DensePose عملیات برآورد حالت‌های بدن انسان Human pose estimation را با بهره‌گیری از رویکردی مبتنی بر CNN انجام می‌دهد.

    در این مقاله نحوه عملکرد CNNها را به طور کامل شرح نمی‌دهیم، چنان‌چه به این موضوع علاقه‌مند هستید این مقاله را که حول موضوع اصول و مبنای CNN است مطالعه کنید.

    شبکه از چندین بلوک کانولوشن استاندارد تشکیل شده است. هر لایه از ۳ لایه کانولوشن، max-pooling، batch normalization  و لایه dropout تشکیل شده است.

    • لایه‌های کانولوشن از تعدادی فیلتر تشکیل شده‌اند. هر فیلتر همانند یک تشخیص ‌دهند الگو عمل می‌کند. لایه‌های کانولوشن بعدی فیلترهای بیشتری دارند و به همین دلیل این لایه می‌تواند الگوهایی درون الگوها پیدا کند.
    • Max-pooling وضوح تصویر را کاهش می‌دهد و در نتیجه تعداد پارامترهای مدل کاهش پیدا می‌کنند. اغلب، در مسائل طبقه‌بندی تصویر موضوعی که بیشترین اهمیت را دارد وجود یک شی در تصویر است، نه محل دقیق قرارگیری آن در تصویر. اما در این پروژه، محل دقیق قرارگیری شی در تصویر برای ما اهمیت دارد. با این حال، داشتن چندین لایه max-pooling تأثیر منفی بر عملکرد نخواهد داشت.
    • لایه‌های batch normalization به آموزش (همگرایی) سریع‌تر مدل کمک می‌کنند. در برخی از شبکه‌های عمیق، بدون وجود این لایه‌ها نمی‌توان مدل را آموزش داد.
    • لایه‌های dropout به صورت تصادفی گره‌ها را غیرفعال می‌کنند و از این طریق مانع بیش‌برازش Overfitting مدل می‌شوند.

    پس از بلوک‌های کانولوشن، تنسور را مسطح می‌کنیم تا با لایه‌های dense سازگار شود. global max-pooling و average max-pooling هم می‌توانند تنسور را مسطح کنند اما در این صورت تمامی اطلاعات مکانی از بین می‌روند. مسطح کردن تنسور در آزمایشات ما بهتر جواب داد، هرچند که در پایان مدلی با پارامترهای بیشتر داشتیم و در نتیجه آموزش این مدت زمان بیشتری طول کشید.

    پس از دو لایه پنهان dense که تابع فعال‌سازی Relu را دارند، لایه‌های خروجی قرار دارند. فرض کنید می‌خواهیم مختصات  x و y دو جز اصلی را پیش‌بینی کنیم، برای انجام این کار لایه خروجی باید ۴ گره داشته باشد.  تصاویر می‌توانند وضوح‌های متفاوتی داشته باشند، در نتیجه ما مختصات را بین ۰ و ۱ مقیاس‌بندی می‌کنیم و پیش از استفاده، مقیاس آن‌ها را  به حالت اولیه افزایش می‌دهیم.

    لایه خروجی تابع فعال‌سازی ندارد. هرچند متغیرهای هدف بین ۰ و ۱  هستند اما عدم وجود تابع فعال‌سازی در لایه خروجی برای ما بهتر از استفاده از سیگموید بود.

    در مقابل خلاصه کاملی از معماری مدلی از Keras که از آن استفاده کردیم، ارائه شده است:

    سوالی که ممکن است برای شما پیش بیاید این است که چرا ۳ لایه کانولوشن؟ یا چرا ۲ بلوک کانولوشنی؟ در جست‌و‌جو برای یک ابرپارامتر، این اعداد را به عنوان ابرپارامتر قرار دادیم. با استفاده از پارامترهایی همچون تعداد لایه‌های dense، سطح dropout، batch normalization و تعداد فیلترهای کانولوشن جست‌جویی تصادفی انجام دادیم تا ترکیب بهینه ابرپارمترها را پیدا کنیم.

    سوال دیگری که ممکن است برای شما پیش بیاید این است که چرا به جای جست‌وجوی شبکه‌ای، جست‌وجوی تصادفی انجام دادیم. این کار ممکن است کمی دور از انتظار باشد اما در عمل منجر به کاهش هزینه‌ها می‌شود. برای کسب اطلاعات بیشتر این مقاله را که حول موضوع تنظیم ابرپارامترها است مطالعه کنید.

    ما برای آموزش از بهینه‌ساز Adam با نرخ یادگیری ۰.۰۰۵ استفاده کردیم. اگر زیان اعتبارسنجی Validation loss برای چندین مرحله بهبود پیدا نکند، نرخ یادگیری به صورت خودکار کاهش پیدا می‌کند.

    ما از خطای میانگین مربعات Mean Square Error (MSE) به عنوان تابع زیان استفاده کردیم. در نتیجه خطاهای بزرگ نسبتاً بیشتر از خطاهای کوچک پاداش منفی دریافت می‌کنند.

    آموزش و عملکرد

    نمودار مقابل نشان‌دهنده زیان (خطا) پس از ۵۰ مرحله آموزش است:

    استفاده از یادگیری عمیق

    نمودار زیان

    پس از ۸ مرحله، زیان اعتبارسنجی بیشتر از زیان آموزش می‌شود. زیان اعتبارسنجی تا پایان آموزش کاهش خواهد یافت و در نتیجه مدل بیش‌برازش نخواهد شد.

    آخرین زیان (MSE) در مجموعه آموزشی ۰.۰۰۶۴ بود. توضیح و تفسیر MSE ممکن است کمی دشوار باشد. توضیح خطای میانگین متوسط Mean Average Error (MAE) برای انسان‌ها آسان‌تر است.

    • MAE برابر ۰۰۱۷ است؛ به عبارت دیگر، پیش‌بینی‌ها به طور متوسط ۱.۷ درصد صحیح نیستند.

    در مقابل چندین مجموعه آزمایشی را مشاهده می‌کنید. دایره‌های سفید اجزای اصلی مورد نظر را نشان می‌دهند و دایره‌های توپر پیش‌بینی‌های ما را نشان می‌دهند. در بسیاری موارد بسیار به هم نزدیک هستند ( با هم‌ همپوشانی دارند).

    نمودار زیان

    تعدادی تصور از مجموعه آزمایشی

    استقرار

    عملکرد مدل به اندازه‌ای خوب هست که ارزش محصول را افزایش دهد. در حال حاضر در هنگام بارگذاری تصاویر جدید از گل‌ها، از اجزای اصلی برای تنظیم مختصات استفاده می‌شود. در بسیاری از موارد نیازی نیست مختصات را به صورت دستی تنظیم کنیم.

    این مدل از طریق یک  API ارائه می‌شود و در یک کانتینتر docker قرار گرفته است. این کانتینر به وسیله پایپ‌لاین‌های bitbucket ساخته شده است. علاوه بر این، وزن‌های آموزش دیده‌ شده در image داکر قرار دارند. به دلیل این‌‌که نمی‌خواهیم فایل‌های بزرگی در Git قرار داشته باشد، از Git LFS برای ذخیره آن‌ها استفاده می‌کنیم.

    ارتقای عملکرد مدل

    برای بهبود عملکرد مدل به روش‌های دیگری نیز رسیدیم که در این پروژه نتوانستیم آن‌ها را اجرا کنیم:

    1. در حال حاضر یک مدل هر دو جز اصلی را تشخیص می‌دهد. به عقیده ما اگر برای هر جز یک مدل جداگانه آموزش دهیم، عملکرد مدل بهتر خواهد بود. مزیت دیگری که این کار برای شما دارد این است که می‌توانید در آینده بدون نیاز به آموزش مجدد کل مدل، اجزای بیشتری اضافه کنید.
    2. روش دیگر این است که زاویه عکس‌برداری را هم در نظر بگیرید. برای مثال، می‌توانید زاویه عکس‌برداری را به عنوان ورودی به لایه‌های dense بدهید. زوایه عکس‌بردای می‌تواند ماهیت مسئله را تغییر دهد و در نتیجه ارائه چنین اطلاعاتی می‌تواند به شبکه کمک کند. علاوه بر این، آموزش یک شبکه جداگانه برای هر زاویه مفید خواهد بود.
    مراحل آتی

    مرحله پس پردازش علاوه بر تنظیم اجزای اصلی، مراحل دیگری را نیز شامل می‌شود. برای نمونه می‌توان به مرحله تنظیم رنگ ساقه اشاره کرد. مدل ۳D ساقه‌هایی مصنوعی رسم می‌کند که رنگ آن‌ها با رنگ ساقه‌های درون تصویر مطابقت دارد.

    نتیجه‌گیری

    در این پژوهش ثابت کردیم می‌توان از CNNها در تشخیص اجزای اصلی در تصاویر گل‌ها استفاده کرد. متد به‌کار رفته در این پروژه را می‌توان در حوزه‌های دیگر از جمله عکاسی صنعتی و تبلیغاتی استفاده کرد.

    همکاری ایران و یونسکو برا ی تدوین سند اخلاق هوش مصنوعی

    مقاله قبلی

    ورود به دنیای شعر و شاعری با هوش مصنوعی

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    بیشتر در آموزش

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *