خنثی کردن تاثیر عوامل محیطی بر کیفیت با روشهای جدید
فناوری بینایی رایانهای در زمینههایی مانند سیستمهای نظارت خودکار، اتومبیلهای خودران، تشخیص چهره، مراقبتهای بهداشتی و ابزارهای فاصلهگذاری اجتماعی کاربرد زیادی دارند. اما خنثی کردن تاثیر عوامل محیطی بر کیفیت اهمیت زیادی برای این موضوع دارد. کاربران برای استفاده از تمام مزایای نرمافزارهای تجزیه و تحلیل ویدئویی به اطلاعات بصری دقیق و قابل اعتماد نیاز دارند، اما کیفیت دادههای ویدیویی اغلب تحت تأثیر عوامل محیطی مانند باران، تاریکی هوا در شب یا ازدحام جمعیت (قرار گرفتن تصویر افراد روی هم) قرار میگیرد. تیمی از محققان به رهبری رابی تان، دانشیار دانشگاه Yale-NUS، با استفاده از بینایی رایانهای و یادگیری عمیق، رویکردهای جدیدی را ابداع کردهاند که مشکل کیفیت پایین ویدیوها که ناشی از بارش باران و تاریکی هوا است را رفع کرده و دقت تخمین حالت بدن سه بعدی انسان در ویدیوها را افزایش دادهاند.
رفع مشکلات دید در هوای بارانی و شب
یکی از مشکلاتی که نیاز به برطرف شدن دارد دید در هوای بارانی شب است و باید برای خنثی کردن تاثیر عوامل محیطی بر کیفیت در این زمینه اقدام کرد. تصاویر گرفتهشده در هنگام شب تحت تأثیر نور کم و جلوههای نوری ساخته دست بشر مانند تلالو نور و درخشش لامپها و نورافکنها قرار داشته و تصاویر گرفتهشده در هوای بارانی نیز تحت تأثیر رگههای باران یا تجمع باران جلوی دوربین قرار میگیرند.
پروفسور تان توضیح میدهد: «عملکرد بسیاری از سیستمهای بینایی ماشین مانند نظارت اتوماتیک و اتومبیلهای خودران، به داشتن دیدی خوب از محیط، یعنی کیفیت فیلمهای ورودی به آنها بستگی دارد. به عنوان مثال، اتومبیلهای خودران نمیتوانند در زیر باران شدید کار کنند و سیستمهای نظارت اتوماتیک یا دوربینهای مداربسته اغلب در شب خراب میشوند، به ویژه اگر فضا تاریک باشد یا نورِ شدید یا نورافکن در آن وجود داشته باشد.»
پروفسور تان و تیمش الگوریتمهای یادگیری عمیقی برای خنثی کردن تاثیر عوامل محیطی بر کیفیت معرفی کردهاند که میتوانند کیفیت فیلمهای گرفتهشده در شب و هوای بارانی را افزایش دهند. در اولین مقاله، آنها روشنایی را افزایش داده و همچنین جلوی نویزها و نور (تلالو و درخشش نور و نورافکنها) را نیز گرفتند تا بتوانند تصاویر واضحی از یک صحنه در شب ثبت کنند. درحالیکه بسیاری از روشهای پیشرفته موجود در حل این مشکل ناکام ماندهاند، این تکنیک جدید توانسته مشکل وضوح در تصاویر و فیلمهای شبانه را هنگامیکه نمیتوان نور خیرهکننده را قاب تصویر حذف کرد، حل کند.
در کشورهای گرمسیری مانند سنگاپور که بارش شدید باران رایج است، دید و وضوح تصویر در هنگام بارش باران در ویدیوها به میزان قابلتوجهی کاهش مییابد. در مقاله دوم، محققان روشی را ارائه دادند که در آن با استفاده از یک همترازکننده فریم (frame alignment) اثر رگههای باران که به طور تصادفی در فریمهای مختلف ظاهر میشوند و کیفیت تصاویر را تحت تاثیر قرار میدهد، حذف میشود تا اطلاعات بصری بهتری از محیط به دست آید. سپس محققان با استفاده از یک دوربین متحرک، عمق فضا را برآورد کردند تا بتوانند تارشدگی تصویر که ناشی از انباشت قطرات باران است را برطرف کنند. این روشهای جدید برخلاف روشهای موجود که بر حذف خطوط باران تمرکز میکنند، میتوانند همزمان رگههای باران و تارشدگی تصویر را از بین ببرند.
در کنفرانس CVPR، پروفسور تان نتیجه تحقیقات تیم خود روی تخمین سه بعدی حالت بدن انسان، که میتواند در زمینههایی مانند نظارت ویدیویی، بازیهای ویدیویی و پخش مسابقات ورزشی استفاده شود را نیز ارائه کرد.
در سالهای اخیر، تخمین حالت بدن چندین فرد در ویدیو ضبط شده توسط یک دوربین واحد و به صورت همزمان و سه بعدی به طور فزایندهای مورد توجه محققان و توسعهدهندگان قرار گرفته است. وقتی به جای استفاده از چندین دوربین برای فیلمبرداری از مکانهای مختلف، از یک دوربین تکچشمی استفاده شود، انعطاف پذیری بیشتری را داریم زیرا میتوانیم از یک دوربین معمولی و حتی دوربین گوشی همراه برای فیلمبرداری استفاده کنیم.
با این حال، میزان دقت تشخیص حالت بدن انسان تحت تأثیر فعالیتها قرار دارد. برای مثال، وقتی چندین نفر در یک صحنه حضور دارند یا هنگامیکه افراد خیلی نزدیک به هم قرار میگیرند یا گاهاً وقتی در تصویر گرفتهشده توسط دوربین تکچشمی افراد با هم همپوشانی دارند، همه این عوامل روی دقت تشخیص مدل تاثیر میگذارند.
محققان در سومین مقاله برای خنثی کردن تاثیر عوامل محیطی بر کیفیت، حالات بدن سه بعدی انسان در یک ویدیو را با ترکیب دو روش موجود، یعنی رویکرد از بالا به پایین و رویکرد از پایین به بالا، تخمین زدند. با ترکیب این دو رویکرد، روش جدیدی حاصل میشود که میتواند تخمین حالت بدن در محیطی که چندین فرد حضور دارند را با دقت بیشتری انجام داده و فاصله بین افراد (یا مقیاسهای مختلف) را بهتر از روشهای قبلی تشخیص دهد.
محققان حاضر در این سه مقاله شامل اعضای تیم پروفسور تان در دپارتمان مهندسی برق و کامپیوتر NUS و همکارانش در دانشگاه هنگکنگ، دانشگاه ETH زوریخ و مرکز تحقیقاتی Tencent Game AI بودند. مرکز تحقیقاتی وی عمدتاً بر حوزههای بینایی رایانهای و یادگیری عمیق، به ویژه در زمینههای دید کم، تجزیه و تحلیل حالت بدن و حرکات انسان و کاربردهای یادگیری عمیق در مراقبتهای بهداشتی تمرکز دارد.
پروفسور تان اظهار دارد: «در مطالعات بعدی در حوزه تخمین سه بعدی حالت بدن انسان که با حمایت بنیاد ملی تحقیقات انجام خواهد شد، ما در مورد حفظ اطلاعات حریم خصوصی ویدیوها صحبت خواهیم کرد. در زمینه افزایش قدرت دید نیز تلاش خواهیم کرد تا بینایی رایانهای را بهبود بخشیم، زیرا این فناوری برای بسیاری از نرمافزارهای کاربردی که زندگی روزمره ما را تحت تأثیر قرار میدهند، اهمیت زیادی دارد. برای مثال، افزایش قدرت دید، خودروهای خودران را قادر میسازد در شرایط نامساعد جوی بهتر کار کنند.»