
یک مدل یادگیری عمیق توانست جهت ضربه پنالتی را با دقت ۶۴ درصد پیشبینی کند:
هوش مصنوعی دقیقتر از دروازهبانها در پیشبینی جهت ضربه پنالتی
مدلهای یادگیری عمیق که بر اساس بیش از هزار ضربه پنالتی در مسابقات فوتبال آموزش دیدهاند، توانستند بهتر از دروازهبانهای واقعی مسیر حرکت توپ را پیشبینی کنند.
ضربات پنالتی در فوتبال جزو حساسترین سرنوشتسازترین لحظات یک مسابقه هستند و اغلب نتیجه تورنمنتهای بزرگ را تعیین میکنند. قهرمان جامجهانی ۲۰۰۶، جامجهانی ۲۰۲۲ و حتی در حدود یکسوم فینالهای لیگ قهرمانان اروپا در قرن ۲۱ را ضربات پنالتی مشخص کرده است. اما در مواجهه با این مهم، تصمیمگیری دروازهبانها هنوز عمدتاً بر شهود و تجربه شخصی تکیه دارد. گروهی از پژوهشگران دانشگاه لاسپالماس به سرپرستی «دیوید فریره-اوبرگون» (David Freire-Obregón)، در مقالهای با عنوان (Predicting Soccer Penalty Kick Direction Using Human Action Recognition) با مطالعه تشخیص اقدامات انسانی؛ به بررسی این موضوع پرداختند که آیا یک مدل یادگیری ماشین میتواند جهت ضربه پنالتی را بر اساس حرکات بازیکن پیشبینی کند یا خیر.
چارچوب مسئله
این تحقیق بر مبنای دو سؤال کلیدی شکل گرفته است:
- آیا میتوان با استفاده از مدلهای یادگیری عمیق و دادههای ویدئویی قبل از ضربه، جهت آن را (چپ/راست/وسط) پیشبینی کرد؟
- آیا دقت این پیشبینیها از عملکرد واقعی دروازهبانها بالاتر است؟
برای پاسخ به این پرسشها، پژوهشگران یک مجموعهداده شامل ۱۰۱۰ کلیپ پنالتی از مسابقات رسمی فوتبال در اسپانیا را جمعآوری کردند. از این میان، ۶۴۰ ویدئو برای تحلیل مناسب تشخیص داده شدند و باقی به دلیل تاری تصویر، کوتاهی یا اختلال کنار گذاشته شدند. هر نمونه شامل فیلم، جهت واقعی ضربه (چپ، مرکز، یا راست) و اطلاعات زمینهای مانند طرف میدان (چپ/راست) و پای پنالتیزن (راست/چپ) است.
هدف نهایی از این مرحله نیز آمادهسازی بهتر دادهها برای آموزش مدلهای پیشبینی قصد بازیکن قبل از شوت (action anticipation) در حوزه Human Action Recognition باتکیهبر حرکات بدن بازیکن بدون استفاده از مسیر توپ برای پیشبینی جهت ضربه به چپ، راست یا وسط دروازه است.

روششناسی و نتایج
دو سناریو برای مدلسازی و برچسبگذاری شامل سناریو سهکلاسه (چپ / وسط / راست) و دوکلاسه (فقط چپ / راست) به جهت حذف گزینه وسط برای کاهش ابهام و مشکل تفکیک دیداری موردبررسی قرار گرفتند. برای هر کلیپ، ابتدا پیشپردازش انجام شده و ویدئو به دو فاز زمانی شامل مرحله دویدن (running) و مرحله ضربهزدن (kicking) هر کدام شامل ترتیبهای از پیش تعیینشدهای از فریمهای ۳۲ و ۱۶ فریمی بودند. سپس این فریمها وارد مدلهای پیشرفته HAR شدند تا بردار ویژگی آنها استخراج شود. مدل نهایی ترکیبی دو جریانی (2-stream classifier) است که ویژگیهای استخراجشده از ویدئو را بهعلاوه متادیتا زمینهای (پای پنالتیزن و سمت میدان) در بر میگیرد.

مجموعاً ۲۲ مدل مختلف (در هفت خانواده معماری MViTv2، MViTv1، SlowFast، Slow، X3D، I3D، C2D) مورد آزمون قرار گرفتند و بهترین مدل به دقت حداکثر ۶۳.۹درصد در پیشبینی جهت ضربه (چپ یا راست) دست یافت. این عملکرد از دقت واقعی دروازهبانها در همان مسابقات بالاتر بود.
در سناریوی سهکلاسه، بهترین مدل به دقت ۵۲درصد در پیشبینی مسیر (چپ، وسط یا راست) دستیافت که این دقت بهتر از عملکرد ۴۶درصد دروازهبانها در شرایط واقعی بود. در سناریوی دوکلاسه دقت تا ۶۳.۹درصد افزایش یافت که نشاندهنده برتری تقریباً ۱۰ درصدی نسبت به دروازهبانها است پژوهشگران از میزان قدرت نشانههای حرکتی ظریف پیش از زدن ضربه متعجب شدهاند؛ حتی بدون درنظرگرفتن توپ یا استراتژی پیچیده، حرکات بدن بازیکن قادر به آشکارسازی قصد شوت است.
یافتهها نشان میدهند که حرکات ظریف و پیچیده بازیکن حتی پیش از ضربهزدن، حاوی سرنخهایی درباره قصد اصلی او هستند؛ چیزی که حتی برای دروازهبانان حرفهای دشوار است بهصورت آنی درک کنند. اما مدلهای یادگیری ماشین میتوانند الگوهایی را شناسایی و استفاده کنند که ممکن است بهصورت ناخودآگاه برای انسانها قابلتشخیص نباشند. این توانمندی در دقت پیشبینی واضح است؛ زیرا مدلها تا حدود ۱۰درصد عملکرد بهتری نسبت به دروازهبانها داشتند.
F1-Score | Recall | Precision | Accuracy | Pooling | #Frames | Best Model | Architecture |
38.40% | 44.20% | 35.30% | 46.00% | – | – | – | GK Baseline |
38.40% | 45.60% | 33.10% | 47.10% | Max | 8 | C2D_R50 | C2D [24] |
38.30% | 46.30% | 32.70% | 45.00% | Average | 8 | I3D_R50 | I3D [3] |
35.50% | 45.90% | 28.90% | 46.70% | Average | 8 | Slow8x8 | Slow [9] |
39.10% | 46.40% | 33.60% | 46.20% | Average | 32 | SlowFast4x16 | SlowFast [8] |
38.90% | 47.80% | 32.80% | 45.10% | Max | 32 | Slow_NLN_4x16 | NLN [27] |
38.60% | 45.30% | 33.70% | 45.90% | Max | 13 | X3D_M | X3D [7] |
39.70% | 47.10% | 34.40% | 51.90% | Average | 32 | MViT_CONV | MViTv1 [6] |
40.10% | 45.80% | 35.50% | 51.60% | Average | 16 | MViTv2_S | MViTv2 [19] |
چالشها
اما در مسابقات زنده بهکارگیری real-time مدلها ممکن است در طول مسابقه و در موقعیتهای واقعی به دلیل تأخیر در پردازش و محدودیتهای فنی چالشبرانگیز یا حتی غیرممکن باشد. اما شاید در آینده با ادغام سیستمهای ردیابی دقیق و تأمین زیرساختهای سریع، این امر عملی شود. اما میتوان از مدلها برای تمرینات آمادگی دروازهبانها استفاده کرد. فریره-اوبرگون اشاره میکند که گام بعدی بررسی این است که آیا میتوان تنها بر اساس مشاهدات پیش از ضربه پیشبینی را انجام داد و اینکه «تا چه زمانی پیش از ضربه میتوان پیشبینی معنادار انجام داد»
در حالت سهکلاسه نیز پیشبینی کلاس وسط نسبتاً دشوار است؛ هم به دلیل تنوع دوربینها و ابهام انسانی در برچسبگذاری که تصمیم برای حذف این کلاس در حالت دودستهای منطقی بود. تعداد موارد تحلیلشده در این پژوهش (۶۴۰ ویدئو) نسبتاً کم است و علاوه بر این، ویدئوهای با کیفیت پایین کنار گذاشته شدند. توسعه مجموعههای داده بزرگتر و متنوعتر برای افزایش قابلیت اطمینان مدل ضروری است. از طرفی دروازهبانها و بازیکنان هر سبک حرکتی خاص خود را دارند. آموزش مدلهای شخصی یا تطبیقپذیر میتواند دقت را افزایش دهد، هرچند نیاز به دادههای بیشتر خواهد داشت

چشمانداز
این یافتهها چشمانداز جدیدی برای توسعه ابزارهای آموزشی و پشتیبانی تصمیمگیری در فوتبال و سایر ورزشها باز میکنند. پیشبینی مبتنی بر حرکات بدن، حتی پیش از شوت، نشان میدهد که فناوری قادر است بهتدریج شهود انسانی را تقویت کند. چنین پژوهشهایی گامی مهم در مسیر کاربرد عملی هوش مصنوعی در زمان واقعی در لحظات حساس و تصمیمگیریهای ورزشی است که همچنان مرزهای جدیدی را پیشروی هواداران، بازیکنان و محققان باز میکند.