شبکهای با قابلیت تشخیص شماره پیراهن بازیکنان
گزارشگران در هنگام گزارش مسابقه ( چه از محل مسابقه و چه از استودیو) ببا مشکل تشخیص شماره پیراهن بازیکنان مواجه هستند. آنها با اطلاع از شماره بازیکنان میتوانند در جریان اتفافاتی که در زمین مسابقه روی میدهد قرار بگیرند و آن را به اطلاع بینندگان برنامه برسانند. با همه این تفاسیر، شناسایی بازیکنان در ویدئوها همیشه آسان نیست، زیرا ویدئوها اغلب از فاصلهای دور ضبط میشوند تا زمین و روند کلی بازی را پوشش دهند. یکی دیگر از مشکلاتی که در این حیطه با آن مواجه هستیم حرکات سریع دوربین است که منجر به تار شدن تصاویر ویدئویی میشود.
پژوهشگرانی از دانشگاه واترلو موفق به طراحی یک تکنیک یادگیری ماشین شدهاند که میتواند به صورت خودکار شماره پیراهن بازیکنان را در تصاویر استخراج شده از ویدئوهای ورزشی تشخیص دهد. پژوهشگران در مقالهای که در سرور پیشچاپ arXiv منتشر کردهاند به معرفی این تکنیک پرداختهاند. تکنیک مذکور به گزارشگران کمک میکند در خلال رویدادهای ورزشی سریعتر و به نحوی کارآمدتر ( نسبت به سایر متدهای محاسباتی) شماره پیراهن بازیکنان را تشخیص دهند.
کانواس واتس، یکی از این پژوهشگران به Tech Xplore گفت:« شبکههایی که تا به امروز در پیشینه پژوهشی برای تشخیص شماره پیراهن بازیکنان معرفی شدهاند، آن را (تشخیص شماره پیراهن) را نوعی مسئله طبقهبندی قلمداد میکنند. آنها 1) شماره پیراهن را یک طبقه جداگانه در نظر میگیرند (ارائه جامع) و یا 2) دو عددی که بر روی پیراهن بازیکن نقش بسته است را دو طبقه مستقل در نظر میگیرند (ارائه مبتنی عدد). برای مثال، میتوان شماره 12 را طبقهای مجزا در نظر گرفت و مدلی از آن ایجاد کرد و یا میتوان شماره پیراهن 12 را به دو عدد تشکیل دهنده یعنی 1 و 2 تقسیم کرد و هر یک از آنها را یک طبقه مستقل در نظر گرفت.»
ارائه چندین ورودی
نتایج پژوهشیهای پیشین حاکی از آن است که اگر شبکههای عصبی عمیق ارائه چندین ورودی را یاد بگیرند عملکرد آنها ارتقاء پیدا میکند. به عبارت دیگر، عملکرد آن دسته از شبکه های عصبی که با هدف تمرکز بر روی جنبههای مختلف یک مسئله آموزش میبینند بهتر از شبکههایی است که بر روی جنبههای مجزای مسئله تمرکز میکنند.
به گفته واتس:«ورودی شبکه اصلی Resnet34 یک تصویر تک لایه است. خروجی این شبکه 3 بُردار احتمال است. اولین بُردار، احتمال شماره پیراهنی است که در تصویر نمایش داده شده است و هر یک از عددهای تشکیلدهنده شماره پیراهن یک طبقه جداگانه در نظر گرفته میشوند. دومین بُردار، توزیع احتمال اولین عدد تشکیلدهنده شماره پیراهن و سومین بُردار، احتمال عدد دوم در شماره پیراهن است.»
این پژوهشگران شبکه عصبی را با مجموع وزنی زیان آنتروپی متقاطع سه خروجی مورد نظر خود آموزش دادند. این پژوهشگران در زمان سنجش عملکرد شبکه خود متوجه شدند که یادگیری ارائههای جامع (برای مثال عدد 12) و ارائههای مبتنی عدد ( برای مثل عدد 1 و 2 در شماره پیراهن 12) تأثیر بسزایی در ارتقای عملکرد مدل تشخیص شماره پیراهن بازیکنان دارد. در حقیقت، عملکرد یادگیری چندمنظوره به مراتب بهتر از رویکردهایی بود که یا فقط بر روی ارائههای جامع و یا بر روی ارائههای مبتنی بر عدد متمرکز بودند.
به گفته واتس:«زمانی که شبکه پیشنهادی خود را به شبکهای که در پژوهش پیشین معرفی شده بود وصل کردیم، عملکرد آن به طرز چشمگیری ارتقاء پیدا کرد. پیادهسازی تابع زیان چند منظوره در کتابخانههای مدرن یادگیری عمیق (از جمله Pytorch) بسیار آسان است و میتوان از آن برای تشخیص شماره پیراهن بازیکنان رشتههای ورزشی دیگر از جمله فوتبال استفاده کرد.»
تشخیص شماره پیراهن بازیکنان
شبکه عصبی که این تیم توسعه دادهاند در آینده میتواند به صورت خودکار، سریعتر و به نحوی کارآمدتر شماره پیراهن بازیکنان را در ویدئوهای ورزشی تشخیص دهد. علاوه بر این، واتس و همکاران وی دیتاستی متشکل از 54,251 تصویر حاشیهنویسی شده از بازیکنان تیم هاکی NHL و شماره پیراهن آنان جمعآوری کردهاند. سایر پژوهشگران میتوانند با استفاده از این دیتاست تکنیکهای دیگری برای تشخیص شماره پیراهن و بازیکنان آموزش دهند.
این پژوهشگران قصد دارند در پژوهشهای آتی سیستم تشخیص شماره پیراهن و بازیکن خود را ارتقاء دهند. برای مثال، آنها قصد دارند شبکهای عصبی طراحی کنند که در هنگام شناسایی بازیکنان تیم هاکی روی یخ، محل قرارگیری آنان را بر روی پیست یخ نیز در نظر بگیرد.
طبق توضیحات واتس:« در این پژوهش بافت زمانی را در نظر نگرفتیم، به همین دلیل هدف پژوهش آتی ما این خواهد بود که برای استخراج شماره پیراهن بازیکنان در ویدئوها، عملکرد سیستم تشخیص بازیکن را با استفاده از دادههای زمانی-ویدئویی ارتقاء دهیم .»