ردیابی عابرین پیاده در دوربین های نظارتی
آموزش هوش مصنوعی و انواع آنآموزش‌های پایه‌ای هوش مصنوعیآموزش‌های پیشرفته هوش مصنوعیپایتون و ابزارهای یادگیری عمیقپردازش زبان طبیعیچالش‌های عملیاتیکاربردهای هوش مصنوعیکتابخانه‌ های یادگیری عمیق

ردیابی عابرین پیاده در دوربین های نظارتی با استفاده از کتابخانه Pytorch

    0
    زمان مطالعه: ۱۲ دقیقه

    مقدمه

    سیستم‌های تشخیص و ردیابی عابرین پیاده در دوربین های نظارتی می‌توانند در قالب نرم‌افزارهای مختلفی ظاهر شوند. برای مثال:

    • کارکرد یکی از انواع این نرم‌افزارها به این ترتیب است که رفت‌وآمد مردم در چندین مسیر را بررسی کرده و نقشه حرارتی هر یک از آن مسیرها را تهیه می‌کند. سپس گزارشی ارائه می‌دهد که به ما نشان می‌دهد رفت‌وآمد افراد یا ترافیک انسانی در مکان‌های عمومی به چه شکل است.
    • این قبیل نرم‌افزارها می‌توانند به سازمان‌ها در کنترل و نظارت بر فاصله‌گذاری اجتماعی از طریق سیستم‌های نظارتی ویدیویی کمک کنند.
    • سیستم‌های شبیه‌سازی جمعیت می‌توانند از نتایج ارائه شده توسط این نوع از سیستم‌ها بهره ببرند.
    • شناسایی صفات عابرین پیاده یکی دیگر از حوزه‌هایی است که می‌توان در آن از این سیستم‌ها استفاده کرد.

    در این مقاله، قصد دارم توضیح دهم که چطور با استفاده از کتابخانه‌ PyTorch و چارچوب flask یک لایه تعاملی Interaction layer را در سیستم ردیابی برخط عابرین پیاده در دوربین‌های نظارتی به‌کار گرفته‌ام.

    در این مقاله، ابتدا به‌صورت خلاصه الگوریتم deep sort را معرفی می‌کنم و پس از آن عمدتاً به نکات طراحی وب‌سرور خواهم پرداخت. کدهای مربوط به این پروژه را می‌توانید در این لینک ملاحظه فرمایید.

    مقدمه‌ای بر الگوریتم deep sort

    براساس کتاب «Practical Computer Vision»، روش‌های کلاسیک ردیابی چند شیء به دو بخش تقسیم می‌شوند:

    شناسایی: ابتدا تمامی اشیاء موردنظر شناسایی می‌شوند.

    مطابقت: سپس اشیاء مشابه با توجه به فریم پیشین، با یک‌دیگر تطابق داده می‌شوند. پس از آن این فریم‌های تطبیق‌یافته دنبال می‌شوند تا ردپای یک شیء به دست آید.

    اما این روش در الگوریتم deep sort به سه مرحله تقسیم می‌شود:

    1. شناسایی: در این مرحله برای محاسبه و شناسایی اشیاء از یک متود شناسایی اشیاء مبتنی بر شبکه عصبی پیچشی (Convolutional neural network (CNN   استفاده می‌شود (در این پروژه ما از YOLO You Only Look Once algorithm استفاده کردیم).
    2. برآورد: مرحله میانی این رویکرد که پیش از مرحله مطابقت قرار می‌گیرد، برآورد مدل است. در این مرحله وضعیت مسیر و ردپای هر یک از اشیاء به عنوان یک بردار با ۸ مقدار تعریف می‌شود که عبارتند از: مرکز کادر (x,y)، مقیاس کادر (s)، نسبت ابعاد کادر (a) و مشتقات آن‌ها در طول زمان که همان نرخ زمانی تغییر موقعیت است. سپس این وضعیت‌ها با استفاده از فیلتر کالمن Kalman filter  در قالب یک سیستم پویا مدل‌سازی می‌شوند. اگر در چندین فریم متوالی ردی از شی شناسایی نشود، آن شیء خارج از فریم یا گمشده درنظر گرفته می‌شود. و ردیابی کادر‌ جدیدی که شناسایی شده، آغاز خواهد شد.
    3. مطابقت: در مرحله آخر، با داشتن وضعیت پیش‌بینی‌شده توسط اطلاعات پیشین در فیلتر کالمن و کادر جدید شناسایی‌شده در فریم کنونی، شیء جدید با شیء که در فریم‌های پیشین ردیابی شده بود، مقایسه و مطابقت داده می‌شود. این کار با اعمال الگوریتم هانگاریان Hungarian algorithm  بر تطبیق نمودار دو بخشی bipartite graph matching   انجام می‌شود. همچنین می‌توان با فرمول‌بندی فاصله به تطبیق وزن داد و این فرآیند را تقویت کرد.

    ردیابی عابرین پیاده در دوربین های نظارتی

    برای آشنایی بیشتر با الگوریتم deep sort، پیشنهاد می‌کنم صفحات ۱۲۶ تا ۱۲۹ از کتاب «Practical Computer Vision» و این وبلاگ را مطالعه نمایید.

    انگیزه

    مدتی بود که در وبلاگ‌های مختلف به دنبال کدهای متن‌باز برنامه‌های شناسایی عابرین پیاده در ویدیوهای پخش زنده بودم و متأسفانه نتوانستم منبعی پیدا کنم که هم هوش مصنوعی و هم بخش‌های مربوط به سمت سرور را شامل شود. بنابراین، تصمیم گرفتم کدهای مربوطه را بنویسم به این امید که سایرین بتوانند با کمک این پروژه ساده، پروژه‌های پیشرفته‌تری تعریف کنند.

    RTSP چیست؟

    پروتکل پخش زنده (Real-Time Streaming Protocol (RTSP) (RTSP یک پروتکل برای کنترل شبکه در سیستم‌های ارتباطی است که به منظور کنترل پخش ویدیویی از سرورهای رسانه‌ای طراحی شده است. من در این نوشتار آموزشی فرض را بر این گذاشته‌ام که به لینک مربوط به پخش زنده دوربین‌هایی که قصد دارید این سرویس را روی آن‌ها آزمایش کنید، دسترسی دارید. درغیر این صورت، می‌توانید از ویدیوهای وب‌سایت earthcam.com استفاده کنید.

    طراحی معماری

    رویکرد ابتدایی

    من در حوزه طراحی الگو و مهندسی سخت‌افزار تجربه کمی دارم، به همین دلیل در تلاش اول به این ساختار رسیدم:

    اما فوراً متوجه ضعف‌های این رویکرد شدم:

    ردیابی عابرین پیاده در دوربین های نظارتی

    • مسئله از دست رفتن بسته‌های داده‌ای در شبکه Network packet loss مواجه هستیم. این موضوع باعث می‌شود ویدیوی نهایی دارای تصاویری نامنظم بوده و تکه تکه باشد.
    • در این ساختار برای به‌کارگیری برنامه‌های هوش مصنوعی از ماژول subprocess و فرمان بَش استفاده کردم که باعث شد هیچ کنترلی بر روی برنامه مذکور نداشته باشم (زیرا تنها راه متوقف کردن این فرآیند، پیدا کردن PID Process Identifier فرآیند هوش مصنوعی بود).
    • در این ساختار، من توانایی تعویض دوربین ورودی بر روی دوربین دیگری را نداشتم. درواقع برای تغییر و تعویض دوربین باید لایه تعاملی را مجدداً راه‌اندازی می‌کردم (زیرا آغاز و پایان فرآیند هوش مصنوعی تنها با از کار انداختن و دوباره راه انداختن لایه تعاملی می باشد و بدون متوقف کردن لایه تعاملی نمی‌توان فرآیند هوش مصنوعی را متوقف کرد).
    • همچنین، برای هر درخواست جدید، تمام سرویس باید از ابتدا شروع به کار می‌کرد و پس از چند درخواست جدید، سرور به دلیل درخواست بیش‌ازحد منابع از کار می‌افتاد.

    به این ترتیب، من متوجه شدم که اغلب مشکلات به دلیل همبستگی شدید فرمان‌های هوش مصنوعی با ماژول‌های لایه تعاملی است و تصمیم گرفتم که یک ماژول غیر همزمان async module  به نام رِدیس (Redis) را به مدل اضافه کنم تا از شدت این همبستگی بکاهد.

    بهبود رویکرد ابتدایی با افزودن ماژول ذخیره‌ساز

    به لطف مقاله آقای آدریان رزبروک به نام «Deep learning in production with Keras, Redis, Flask, and Apache»، متوجه اهمیت استفاده از ماژول ردیس برای ذخیره‌سازی فریم‌ها در وب‌سرور شدم و به ساختار زیر رسیدم:

    هر یک دایره‌های سیاه‌رنگ در تصویر بالا نشان‌دهنده یکی از مراحل زیر است:

    ردیابی عابرین پیاده در دوربین های نظارتی

    1. وقتی وب‌سرور روشن شود، با دادن ورودی‌های پیش‌فرض به سرویس شناسایی عابرین پیاده، آن را راه‌اندازی می‌کند.
    2. سرویس شناسایی عابرین پیاده لینک پروتکل پخش زنده (RTSP) را به عنوان ورودی به دوربین نظارتی می‌دهد و با استفاده از نخ‌ها ورودی‌های ویدیویی را می‌خواند.
    3. پس از تمام شدن کار الگوریتم هوش مصنوعی با هر فریم، فریم خروجی در ردیس ذخیره می‌شود (در هر مرحله، فریم جدید با خروجی مرحله پیشین جایگزین می‌شود).
    4. لایه تعاملی فریم‌های پردازش‌شده را از ردیس دریافت می‌کند.
    5. لایه تعاملی امکان پخش فرآیند شناسایی عابرین را از طریق لینک ۰.۰.۱:۸۸۸۸/ برای کاربران فراهم می‌کند.

    این ساختار چگونه عملکرد سیستم را بهبود می‌بخشد؟

    • در این سیستم همواره با مشکل از دست رفتن بسته‌های داده‌ای مواجهیم. برای تقویت پایداری robustness سیستم برای مواجهه با این مشکل، فرآیند خواندن محتوای دوربین توسط نخ‌ها انجام می‌گیرد.
    • از آن‌جا که کنترل فرآیند هوش مصنوعی به طور کامل در اختیار لایه تعاملی است، این لایه می‌تواند بدون هیچ مشکلی فرایند پردازش را به روی دوربین دیگری تعویض کند.
    • Redis به عنوان یک ماژول غیرهمزمان می‌تواند لایه تعاملی را از فرآیند هوش مصنوعی جدا سازد. به این ترتیب، لایه تعاملی دیگر یک مرحله از فرآیند هوش مصنوعی را بارها و بارها تکرار نخواهد کرد و ما قادر خواهیم شد تا این چارچوب را در مقیاس گسترده‌تر به‌کار بگیریم و سیستم شناسایی عابرین پیاده را به‌طور هم‌زمان روی چندین دوربین اجرا کنیم.

    کدنویسی

    من در این پروژه از کتابخانه‌های زیر استفاده کرده‌ام:

        Python 3.7

        Opencv-python

        Sklearn

        Torch > 0.4

        Torchvision >=0.1

        Pillow

        Easydict

        Redis

        Dotenv

        Flask

    من این پروژه را روی سیستم عامل Ubuntu 16.04 و GPU مدل Nvidia GeForce GTX 2080 اجرا کردم.

    برای عملیات ذخیره‌سازی نیز ماژول Redis را نصب کردم و آن را روی پورت ۶۳۷۹ اجرا کردم. آموزش کامل نصب Redis را می‌توانید در این لینک مشاهده نمایید.

    مرحله اول کدنویسی: ضبط ویدیو در پروتکل پخش زنده

    در مرحله اول تنها سعی کردم فریم‌های ویدیو را ضبط کرده و در ردیس ذخیره کنم. اشیای cv2.VideoCapture در کتابخانه OpenCV به‌طور پیش‌فرض می‌توانند به داده‌هایی که دوربین تولید می‌کند، رسیدگی کنند. اما براساس این نوشتار، ظاهراً احتمال از دست رفتن بسته‌های داده‌ای در این ماژول وجود دارد. بنابراین، من از نخ‌ها برای غلبه بر این مشکل استفاده کردم. در کادر زیر می‌توانید کد اولیه را ملاحظه فرمایید:

    مرحله دوم کدنویسی: افزودن کد سرویس شناسایی عابرین پیاده

    خواندن فریم‌های RTSP با استفاده از نخ‌ها برای حل مسئله از دست رفتن بسته‌های داده‌ای


    کد سرویس شناسایی عابرین پیاده در ویدیوهای ساده را می‌توانید در این لینک مشاهده کنید. با ترکیب این کد و کدی که در مرحله اول نوشتم، به کد زیر میرسیم:

    کدهای تشخیص عابرین پیاده


    در ادامه به تشریح برخی از تغییرات مهم می‌پردازیم:

    • در خط ۶۷ و در تابع in_progress، flag، متغیری است که بعدها در py مقداردهی خواهد شد. در این‌جا هرگاه بخواهیم اجرای کد هوش مصنوعی را متوقف کنیم، کافی است مقدار این متغیر را off تعریف می‌کنیم و هرگاه بخواهیم فرآیند هوش مصنوعی آغاز شود مقدار on  را برای آن تعریف می‌کنیم. این ترفند ما را قادر می‌سازد تا سرویس هوش مصنوعی را در سایر فرآیندها (برای مثال، rtsp_server که نخ اصلی درحال اجراست) آغاز کرده یا متوقف سازیم.
    • در خطوط ۷۸ تا ۹۸ تابعdetection به کدها اضافه شده است. این تابع وظیفه شناسایی، برآورد و مطابقت عابرین را در الگوریتم deep sort برعهده دارد.
    • در خطوط ۱۰۰ تا ۱۱۷ نیز تابع draw_bboxes را افزودیم تا کادرهای مرزی و کد شناسایی برای عابرین تعریف شود.

    مرحله سوم کدنویسی: اضافه کردن وب‌سرور

    اساساً در وب‌سرور برای اجرای این برنامه به ۲ ابزار احتیاج داریم. یک ابزار برای بازیابی فریم‌های ذخیره‌شده در Redis و تبدیل آن‌ها به لینک HTTP. و یک ابزار دیگر که به ما امکان فعال‌سازی و متوقف کردن سرویس هوش مصنوعی را بدهد. به‌منظور تهیه ابزار اول یک قالب HTML به نام index.html ساختم و سپس آن را در مسیر templates قرار دادم. با استفاده از این قالب می‌توان تصاویری که توسط وب‌سرور تهیه شده‌اند را به کاربران نمایش داد.

    سمت کاربر


    و برای پیکربندی پارامترهای deep sort و مدل تشخیص عابر پیاده YOLO، فایل کدهای server_cfg.py را نیز به کدهای پیشین اضافه کردم:

    پیکربندی مدل یادگیری عمیق


    من در تمامی پروژه‌هایم یک فایل .env ایجاد می‌کنم و اطلاعات مربوط به فایل‌های ایستا از جمله وزن‌های مدل، فایل‌های پیکربندی و دیتاست‌ها را در آن قرار می‌دهم.

    • در خط ۱۶ و ۲۸ مدل‌های YOLO و deep sort را با استفاده از آدرس محل نگهداری‌شان در فایل .env بازیابی کرده‌ام. زمان‌هایی که می‌خواهم سرویس‌ها را به بخش سرور ببرم، این ترفند برای من بسیار کارآمد است. درادامه متغیرهای model و deep_sort_dict را نیز به فایل py اضافه می‌کنم.

    و درنهایت کد وب‌سرور به این شکل خواهد بود:

    برنامه وب‌سرور که کنترل سرویس مبتنی بر هوش مصنوعی را برعهده دارد


    حال بیایید این کد را با جزییات بررسی کنیم:

    • در خطوط ۲۳ تا ۲۵ سرور flask، ردیس و flag تابع in_progress را تعریف و مقداردهی کرده‌ام.
    • در خطوط ۲۶ تا ۴۹ تابع argument parser را تعریف کرده‌ام.
    • در خط ۵۲ تا ۵۹ نیز تابع gen فریم‌های ذخیره‌شده در بخش شناسایی عابرین پیاده را به ما برمی‌گرداند. من از تابع stream نیز به‌منظور ارائه فریم‌های پردازش‌شده به کاربران استفاده کرده‌ام که فریم‌ها را به قالب html درمی‌آورد (در خطوط ۹۵ تا ۱۰۰).
    • در خطوط ۶۲ تا ۷۱، تابع pedestrian_tracking فرآیند ردیابی عابرین پیاده را آغاز می‌کند. برای اجرای این اقدام نیز از تابع trigger_process استفاده کرده‌ام (در خطوط ۷۴ تا ۸۷).
    • سرانجام در خطوط ۱۰۶ تا ۱۴۰ تابع process_manager ، تابع اصلی است که از طریق آدرس ۰.۰.۱:۸۸۸۸/run درخواست GET را از سوی کاربران دریافت می‌کند. هر درخواست مربوط به این لینک دارای حداکثر ۲ پارامتر است. اولین پارامتر run می‌باشد که دستور آغاز (زمانی که مقدار آن برابر ۱ قرار گیرد) یا توقف (زمانی که مقدار صفر برای آن تعریف شود) را می‌دهد. پارامتر بعدی camera_stream است که درواقع همان لینک RTSP شامل محتوای ویدیویی دوربین بوده و مقدار آن درنهایت برابر ورودی ویدیویی جدید است که به سرویس شناسایی عابرین پیاده داده می‌شود (خطوط ۱۲۲ تا ۱۲۸).
    • زمانی که سرویس شناسایی عابرین در چند دوربین در حال اجرا باشد، آغاز یک سرویس جدید غیرممکن است. بنابراین، پاسخ هر درخواستی که در آن مقدار run مساوی ۱ باشد، با عبارت pedestrian detection is already in progress پاسخ داده می‌شود (خط ۱۳۱). همین اتفاق در زمان ارسال درخواست متوقف کردن سرویس نیز رخ خواهد داد (خط ۱۳۷).

    در آخر باید چند مجوز و سند نیز به این تابع اضافه شود که آن‌ها را در Github قرار خواهم داد.

    چکیده

    در این مقاله سرویس شناسایی عابرین پیاده را به روشی ساده روی دوربین‌های نظارتی اجرا کردیم و آموختیم که نحوه طراحی معماری در تعمیم‌پذیری Scalability این برنامه تا چه حد تأثیرگذار است. در این پروژه یک ابزار ذخیره‌سازی به نام ردیس به ما کمک کرد تا بتوانیم با جداسازی فرآیند شناسایی عابرین از بخش وب‌سرور، ساختار بهتری طراحی کنیم. همچنین، یک API ساده تهیه کردیم که با استفاده از آن توانستیم فرآیند شناسایی عابرین و ورودی‌های آن را کنترل کنیم.

    در آخر باید از آقای آدریان رزبروک بابت پست‌ها عالی وبلاگ‌شان (به ویژه این پست) که مرا در مسیر اجرای این پروژه راهنمایی کرد، تشکر کنم. همچنین باید از آقای ژیانگ پی نیز بابت در دسترس قرار دادن رویکرد خود در زمینه شناسایی عابرین به صورت متن‌باز، تشکر کنم.

    انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    مرکز تحقیقات هوش مصنوعی پارت، حامی پنجمین مدرسه پیشرفته محاسبات هوش مصنوعی

    مقاله قبلی

    راهکارهای هوشمند شریف ؛ به دنبال رفع نیازهای صنعت و جامعه

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.