دور چهارم مسابقات SpaceNet : چالش‌های تصویربرداری مایل

تیم تحریریه
۱۱ اسفند ۱۳۹۹

زمان مطالعه: 4 دقیقه

ماموریت SpaceNet سرعت بخشیدن به یادگیری ماشین مکانی است و این ماموریت توسط سازمان‌های عضو پیشتیبانی می‌شود. مقاله حاضر قسمت سوم مجموعه مقالات هوایی مایل و چالش‌ شناسایی ساختمان است.

دور چهارم مسابقات SpaceNet، با عنوان «چالش‌ شناسایی ساختمان در تصویر‌برداری مایل» آغاز شده است. پیش از این مدل‌های معیار مسابقات را توضیح داده‌ایم و چالش‌های پیش روی آموزش مدل برای شناسایی نقشه ساختمان در داده‌ها را استخراج نموده‌ایم. هنگام ارزیابی عملکرد این مدل‌ها، با پدیده‌ی عجیبی مواجه شدیم: هنگام طبقه بندی داده‌های ارزیابی بر اساس زاویه دید متوجه شدیم خطوط نمودار SpaceNet IoU F1 Score دندانه‌دار هستند. کاملاً عجیب بود که پیش‌‌بینی تصاویر گرفته شده از زاویه‌ دید تقریباً یکسان، مثلاً زاویه 29 و 30درجه، نمره عملکرد متفاوتی در پی داشته باشند. نمودار این پدیده را در تصویر زیر مشاهده می‌کنید:

نمودار مقایسه عملکرد زاویه ارزیابی مدل‌های معیار دور چهارم مسابقات SpaceNet در شناسایی ساختمان. خط نقطه چین سیاه رنگ مبین آستانه تغییر زاویه از قائم به کمی مایل است و خط نقطه چین قرمز تغییر به «زاویه بسیار مایل very off-nadir» را نشان می‌دهد.

در این تصویر نگاری چه اتفاقی افتاده است؟ چرا عکس‌برداری انجام شده از زاوایای یکسان به پیش‌بینی‌های متفاوتی ختم می‌شود؟ اولین پاسخ‌ زمانی بدست آمد که عکس‌برداری و پیش‌بینی‌ها را از دو مجموعه عکس مختلف در یک تراشه مکان یاب روی هم قرار دادیم.

هر دو پیش‌بینی در عکس‌برداری، پشت‌بام ساختمان‌ها را به خوبی شناسایی نموده‌اند اما جای پشت‌با‌ها در عکس تغییر می‌کند؟ چه اشتباهی وجود دارد؟ به منظور رسیدن به جواب «وضعیت واقعی ground truth» ساختمان‌‌های منطقه‌ای یکسان را به صورت دستی برچسب‌گذاری کرده و پیش‌بینی‌ها را روی آن قرار می‌دهیم:

در عکس بالا ساختمان‌هایی که به صورت دستی برچسب گذاری شده‌اند (خاکستری) بر روی پیش‌بینی‌های مجموعه‌‌ عکس‌های زاویه 29 درجه مایل (صورتی) و 30 درجه مایل (سبز) قرار گرفته‌اند. هیچ کدام از پیش‌بینی‌ها بی نقص و دقیق نیستند امّا یکی به طور مشخص بهتر از دیگری بر برچسب‌گذاری‌های دستی منطبق است.

همانطور که در تصویر مشاهده می‌کنید، تنها یکی از برچسب‌گذاری‌های پیش‌بینی شده با برچسب‌ گذاری دستی نقشه ساختمان‌ها منطبق است. و جالب است بدانید که برچسب گذاری دستی بر روی عکس‌های گرفته شده از زاویه 7 درجه (یعنی نزدیک‌ترین مجموعه عکس موجود در دیتاست به تصاویر قائم) انجام شده است. زاویه 7 درجه با زاویه عکس‌های هیچ یک از این دو مجموعه مطابقت ندارد. این امر بدین معناست که در یکی از این عکس‌ها، مدل یاد می‌گیرد که برای شناسایی ساختمان زاویه دید را لحاظ کند امّا در دیگری زاویه دید تاثیری ندارد. پیش‌بینی‌های صورت گرفته توسط مجموعه عکس‌های دوم به لحاظ موقعیت مکانی 10 تا 15 پیکسل جابجا می‌شوند که برابر است با 5 تا 7 متر جابجایی بر روی زمین. چرا نتایج مدل این گونه است؟

به منظور درک بهتر مسئله، باید دو آماره مربوط مجموعه تصاویر سنجش از دور را بشناسیم: زاویه دید (مایل) و زاویه آزیموت azimuth هدف.

فهرست مقاله پنهان

1 زاویه دید و زاویه آزیموت هدف

2 زاویه دید، زاویه آزیموت هدف، و دیتاستِ دور چهارم مسابقات SpaceNet

زاویه دید و زاویه آزیموت هدف

هنگام تحلیل داده‌های سنجش از دور با زاویه مایل باید دو زاویه مهم را درد نظر گرفت: زاویه دید و زاویه آزیموت. همانطور که در تصویر زیر می‌بینید، منظور از زاویه دید این است که عکس را با چه فاصله‌ای از بالای موقعیت مد نظر دریافت می‌کنیم و زاویه آزیموت هدف در واقع جهت‌ قطب‌نما است (نسبت به شمال) که ماهواره برای مصورسازی هدف خود نشان می‌دهد.

حتی اگر عکس‌های دو مجموعه با زاویه دید دقیقاً یکسانی گرفته شده باشند، ممکن است زاویه آزیموت هدف متفاوت باشد و در نتیجه عکس‌های دریافتی آنها با هم متفاوت شود. تصویر زیر را در نظر بگیرید:

در این مثال ماهواره‌ مجموعه عکس‌های ارسالی را با زاویه مایل یکسان امّا در دو جهت مقابل (با 180 درجه تغییر در زاویه آزیموت هدف) گرفته است. در این عکس‌ها سقف ساختمان بر روی زمین در موقعیت کاملاً متفاوتی نمایان خواهد شد. دقت داشته باشید که ارتفاع سازه نیز در تعین میزان انحراف پیش‌بینی تاثیر گذار است؛ با اینکه موقعیت پشت بام در زمینه عکس متفاوت است، پارکینگ اطراف ساختمان‌ها در این دو عکس دقیقاً در محل یکسانی قرار دارند. هرچه ساختمان بلند‌تر باشد با تغییر زاویه آزیموت، موقعیت مکانی پشت‌بام با تحریف بیشتری همراه خواهد بود. تاثیر این تحریف با افزایش زاویه مایل چندین برابر خواهد شد. باید این پدیده را در مدل‌هایی که برای تعیین موقعیت مکانی اشیاء با تصویربرداری مایل طراحی شده‌اند مد نظر قرار داد.

زاویه دید، زاویه آزیموت هدف، و دیتاستِ دور چهارم مسابقات SpaceNet

در دیتاست دور چهارم مسابقات SpaceNet می‌توانیم زاویه آزیموت هدف را برای تعیین موقعیت ماهواره نسبت به شهر آتلانتا هنگام عکس‌برداری مورد استفاده قرار دهیم. تصویر زیر موقعیت ماهواره را هنگام عکس‌برداری هر یک از مجموعه‌های ارسالی نشان می‌دهد. تصویر زیر با استفاده از زاویه دید و زاویه آزیموت هدف ترسیم شده است:

لازم است به دو نکته مهم را اشاره کنیم:

تعداد مجموعه‌ عکس‌های ارسالی از جنوب بسیار بیشتر از تعداد مجموعه‌های ارسالی از سمت شمال است.
تمام مجموعه‌هایی که نمره پیش‌بینی کمی دارند، از سمت شمال گرفته شده‌اند.

پس از مشخص نمودن این موضوع، با استفاده از مقادیر منفی زاویه دید در مجموعه‌های اولیه (عکس‌برداری از سمت شمال) و مقادیر مثبت زاویه مایل پس از عبور ماهواره از روی شهر آتلانتا، مجدد نمودار عملکرد مدل را رسم نمودیم. نتایج قابل ملاحظه بود: به جای خط عملکرد دندانه‌دار که قبلاً مشاهده نمودیم، خط نمودارِ عملکرد مدل صاف و دارای اوج نامتقارن بود.

اگر چه دیتاست آموزشی مایل، مجموعه عکس‌های ارسالی از زاویه دید منفی را نیز در بر می‌گیرد، امّا مدل آموزش دیده با این داده‌ها در شناسایی ساختمان‌های همین مجموعه‌ها (زاویه دید منفی) بسیار ضعیف عمل می‌کند. همه این موراد حاکی از این است که یک مدل تعمیم‌یافته لزوماً برای تمام داده‌های سنجش از دور عملکرد خوبی نخواهد داشت، حتی اگر عکس‌برداری از یک موقعیت یکسان، با زاویه دید تقریباً یکسان، و با فاصله زمانی کمتر از پنج دقیقه باشد و عکس‌ها فقط از لحاظ زاویه آزیموت هدف متفاوت باشند. عوامل تاثیر گذار در عکس‌برداری، مثل انعکاس نور خورشید توسط سازه و ایجاد سایه، با تغییر زاویه آزیموت هدف می‌تواند تغییرات چشمگیری در نتایج ایجاد کند. به هنگام توسعه مدل‌هایی که با استفاده از عکس‌برداری مایل اجرامی‌شوند باید به این نکات توجه نمود.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید