دور چهارم مسابقات SpaceNet : چالشهای تصویربرداری مایل
ماموریت SpaceNet سرعت بخشیدن به یادگیری ماشین مکانی است و این ماموریت توسط سازمانهای عضو پیشتیبانی میشود. مقاله حاضر قسمت سوم مجموعه مقالات هوایی مایل و چالش شناسایی ساختمان است.
دور چهارم مسابقات SpaceNet، با عنوان «چالش شناسایی ساختمان در تصویربرداری مایل» آغاز شده است. پیش از این مدلهای معیار مسابقات را توضیح دادهایم و چالشهای پیش روی آموزش مدل برای شناسایی نقشه ساختمان در دادهها را استخراج نمودهایم. هنگام ارزیابی عملکرد این مدلها، با پدیدهی عجیبی مواجه شدیم: هنگام طبقه بندی دادههای ارزیابی بر اساس زاویه دید متوجه شدیم خطوط نمودار SpaceNet IoU F1 Score دندانهدار هستند. کاملاً عجیب بود که پیشبینی تصاویر گرفته شده از زاویه دید تقریباً یکسان، مثلاً زاویه 29 و 30درجه، نمره عملکرد متفاوتی در پی داشته باشند. نمودار این پدیده را در تصویر زیر مشاهده میکنید:
نمودار مقایسه عملکرد زاویه ارزیابی مدلهای معیار دور چهارم مسابقات SpaceNet در شناسایی ساختمان. خط نقطه چین سیاه رنگ مبین آستانه تغییر زاویه از قائم به کمی مایل است و خط نقطه چین قرمز تغییر به «زاویه بسیار مایل very off-nadir» را نشان میدهد.
در این تصویر نگاری چه اتفاقی افتاده است؟ چرا عکسبرداری انجام شده از زاوایای یکسان به پیشبینیهای متفاوتی ختم میشود؟ اولین پاسخ زمانی بدست آمد که عکسبرداری و پیشبینیها را از دو مجموعه عکس مختلف در یک تراشه مکان یاب روی هم قرار دادیم.
هر دو پیشبینی در عکسبرداری، پشتبام ساختمانها را به خوبی شناسایی نمودهاند اما جای پشتباها در عکس تغییر میکند؟ چه اشتباهی وجود دارد؟ به منظور رسیدن به جواب «وضعیت واقعی ground truth» ساختمانهای منطقهای یکسان را به صورت دستی برچسبگذاری کرده و پیشبینیها را روی آن قرار میدهیم:
در عکس بالا ساختمانهایی که به صورت دستی برچسب گذاری شدهاند (خاکستری) بر روی پیشبینیهای مجموعه عکسهای زاویه 29 درجه مایل (صورتی) و 30 درجه مایل (سبز) قرار گرفتهاند. هیچ کدام از پیشبینیها بی نقص و دقیق نیستند امّا یکی به طور مشخص بهتر از دیگری بر برچسبگذاریهای دستی منطبق است.
همانطور که در تصویر مشاهده میکنید، تنها یکی از برچسبگذاریهای پیشبینی شده با برچسب گذاری دستی نقشه ساختمانها منطبق است. و جالب است بدانید که برچسب گذاری دستی بر روی عکسهای گرفته شده از زاویه 7 درجه (یعنی نزدیکترین مجموعه عکس موجود در دیتاست به تصاویر قائم) انجام شده است. زاویه 7 درجه با زاویه عکسهای هیچ یک از این دو مجموعه مطابقت ندارد. این امر بدین معناست که در یکی از این عکسها، مدل یاد میگیرد که برای شناسایی ساختمان زاویه دید را لحاظ کند امّا در دیگری زاویه دید تاثیری ندارد. پیشبینیهای صورت گرفته توسط مجموعه عکسهای دوم به لحاظ موقعیت مکانی 10 تا 15 پیکسل جابجا میشوند که برابر است با 5 تا 7 متر جابجایی بر روی زمین. چرا نتایج مدل این گونه است؟
به منظور درک بهتر مسئله، باید دو آماره مربوط مجموعه تصاویر سنجش از دور را بشناسیم: زاویه دید (مایل) و زاویه آزیموت azimuth هدف.
زاویه دید و زاویه آزیموت هدف
هنگام تحلیل دادههای سنجش از دور با زاویه مایل باید دو زاویه مهم را درد نظر گرفت: زاویه دید و زاویه آزیموت. همانطور که در تصویر زیر میبینید، منظور از زاویه دید این است که عکس را با چه فاصلهای از بالای موقعیت مد نظر دریافت میکنیم و زاویه آزیموت هدف در واقع جهت قطبنما است (نسبت به شمال) که ماهواره برای مصورسازی هدف خود نشان میدهد.
حتی اگر عکسهای دو مجموعه با زاویه دید دقیقاً یکسانی گرفته شده باشند، ممکن است زاویه آزیموت هدف متفاوت باشد و در نتیجه عکسهای دریافتی آنها با هم متفاوت شود. تصویر زیر را در نظر بگیرید:
در این مثال ماهواره مجموعه عکسهای ارسالی را با زاویه مایل یکسان امّا در دو جهت مقابل (با 180 درجه تغییر در زاویه آزیموت هدف) گرفته است. در این عکسها سقف ساختمان بر روی زمین در موقعیت کاملاً متفاوتی نمایان خواهد شد. دقت داشته باشید که ارتفاع سازه نیز در تعین میزان انحراف پیشبینی تاثیر گذار است؛ با اینکه موقعیت پشت بام در زمینه عکس متفاوت است، پارکینگ اطراف ساختمانها در این دو عکس دقیقاً در محل یکسانی قرار دارند. هرچه ساختمان بلندتر باشد با تغییر زاویه آزیموت، موقعیت مکانی پشتبام با تحریف بیشتری همراه خواهد بود. تاثیر این تحریف با افزایش زاویه مایل چندین برابر خواهد شد. باید این پدیده را در مدلهایی که برای تعیین موقعیت مکانی اشیاء با تصویربرداری مایل طراحی شدهاند مد نظر قرار داد.
زاویه دید، زاویه آزیموت هدف، و دیتاستِ دور چهارم مسابقات SpaceNet
در دیتاست دور چهارم مسابقات SpaceNet میتوانیم زاویه آزیموت هدف را برای تعیین موقعیت ماهواره نسبت به شهر آتلانتا هنگام عکسبرداری مورد استفاده قرار دهیم. تصویر زیر موقعیت ماهواره را هنگام عکسبرداری هر یک از مجموعههای ارسالی نشان میدهد. تصویر زیر با استفاده از زاویه دید و زاویه آزیموت هدف ترسیم شده است:
لازم است به دو نکته مهم را اشاره کنیم:
- تعداد مجموعه عکسهای ارسالی از جنوب بسیار بیشتر از تعداد مجموعههای ارسالی از سمت شمال است.
- تمام مجموعههایی که نمره پیشبینی کمی دارند، از سمت شمال گرفته شدهاند.
پس از مشخص نمودن این موضوع، با استفاده از مقادیر منفی زاویه دید در مجموعههای اولیه (عکسبرداری از سمت شمال) و مقادیر مثبت زاویه مایل پس از عبور ماهواره از روی شهر آتلانتا، مجدد نمودار عملکرد مدل را رسم نمودیم. نتایج قابل ملاحظه بود: به جای خط عملکرد دندانهدار که قبلاً مشاهده نمودیم، خط نمودارِ عملکرد مدل صاف و دارای اوج نامتقارن بود.
اگر چه دیتاست آموزشی مایل، مجموعه عکسهای ارسالی از زاویه دید منفی را نیز در بر میگیرد، امّا مدل آموزش دیده با این دادهها در شناسایی ساختمانهای همین مجموعهها (زاویه دید منفی) بسیار ضعیف عمل میکند. همه این موراد حاکی از این است که یک مدل تعمیمیافته لزوماً برای تمام دادههای سنجش از دور عملکرد خوبی نخواهد داشت، حتی اگر عکسبرداری از یک موقعیت یکسان، با زاویه دید تقریباً یکسان، و با فاصله زمانی کمتر از پنج دقیقه باشد و عکسها فقط از لحاظ زاویه آزیموت هدف متفاوت باشند. عوامل تاثیر گذار در عکسبرداری، مثل انعکاس نور خورشید توسط سازه و ایجاد سایه، با تغییر زاویه آزیموت هدف میتواند تغییرات چشمگیری در نتایج ایجاد کند. به هنگام توسعه مدلهایی که با استفاده از عکسبرداری مایل اجرامیشوند باید به این نکات توجه نمود.
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید