یادگیری عمیق و ردیابی چند شی ای
طی یک دهه اخیر، بینایی کامپیوتر شاهد پیشرفتهای زیادی بوده و توانسته به تمامی برنامهها، چه برنامههای مورد استفاده در حوزه دانشگاهی چه در زندگی روزمره، راه پیدا کند. با این حال، کامپیوترها کماکان نمیتوانند برخی کارها را با دقت و سرعت قابل قبول انجام دهند. یکی از این کارها، ردیابی شی است. در فرایند ردیابی شی، کامپیوتر باید بتواند اشیای پایا را در ویدئو شناسایی و حرکت آنها را دنبال کند. کامپیوترها در مقایسه با انسانها اشیای بیشتری را میتوانند در آنِ واحد ردیابی کنند، اما اغلب نمیتوانند ظاهر اشیای مختلف را از هم تفکیک کنند. بالتبع، الگوریتم نمیتواند اشیایی که در یک صحنه وجود دارد را از هم تشخیص دهد و اشیا را به درستی ردیابی کند.
کاربرد یادگیری عمیق در ردیابی چند شی ای
گروهی از محققان مؤسسه علوم و فنآوری گوانگژو، واقع در کره، به رهبری مونگو جئون، سعی دارند با تجهیز یک چارچوب ردیابی چند شی ای به یادگیری عمیق، این مشکلات را رفع کنند. این پژوهشگران، در پژوهشی که به تازگی در Information Sciences منتشر شده است، مدل جدیدی برای ردیابی اشیاء ارائه دادهاند؛ زیربنای این مدل را تکنیکی موسوم به Deep-TAMA تشکیل میدهد. این تکنیک راهحلهای نوینی برای حل برخی مشکلات رایج و متداول در زمینه ردیابی چند شی ای ارائه داده است.
در رویکردهای سنتی ردیابی، کادری محصورکننده به دور اشیا رسم میشود، محدودیتهای هندسی آنها تعیین میشود و الگوریتم بدین ترتیب میتواند آنها را ردیابی کند. در این رویکردها به دشواری میتوان شیای که پیش از این ردیابی شده را با شیای که در فریم کنونی ظاهر میشود، تطبیق داد. البته، در این رویکردها، به دلیل تفاوت در نورهای محیطی و همپوشانی، تفکیک اشیای بر مبنای ویژگیهای دستساز همچون رنگ نیز عملی نیست. از این روی، این پژوهشگران تصمیم گرفتند مدلی برای ردیابی اشیا بسازند که بتواند ویژگیهای بارز اشیایی که تشخیص داده شدهاند را استخراج کند و آنها را با ویژگیهای اشیای دیگر و ویژگیهایی که در طول زمان ثبت شدهاند، مقایسه کند. به همین منظور، شبکههای عصبی استنباط مشترک (JI-Nets) را با شبکههای LSTM ترکیب کردند.
عملکرد شبکههای LSTM
شبکههای LSTM ویژگیهای ذخیره شده را با ویژگیهایی که در فریم کنونی ظاهر میشوند تطبیق میدهد و JI-Nets ظاهر دو شیای که الگوریتم تشخیص داده است را به صورت همزمان با یکدیگر مقایسه میکند که به نوبه خود یکی از نوآوریهای این پروژه محسوب میشود. استفاده از ویژگیهای ذخیره شده به الگوریتم در رفع مشکل همپوشانی موقت دو شی کمک میکند.
دکتر جئون خاطرنشان میکند : « دقت رویکرد پیشنهادی ما که بر شبکههای عصبی استنباط مشترک تکیه دارد در مقایسه با متدهای سنتی که از قبل و به صورت مستقل ویژگیهای اشیاء را استخراج میکنند، در نظارت گسترده، به ویژه ردیابی عابرین پیاده بیشتر است.» علاوه بر این، این پژوهشگران با اتخاذ تکنیک موازیسازی GPU بر مبنای نمایهسازی یکی از اصلیترین نقاط ضعف یادگیری عمیق، یعنی سرعت پایین، را رفع کردند و مدت زمان محاسبه را کاهش دادند. این پژوهشگران مدل خود را بر روی دیتاستهای نظارت گسترده امتحان کردند؛ نتایج این آزمایشات حاکی از این است که دقت این مدل در نظارت گسترده فوقالعاده است و این مدل آماده استقرار است.
ردیابی چند شی ای میتواند کاربردهای زیادی، از رانندگی خودمختار تا نظارت گسترده، داشته باشد. این نوع ردیابی میتواند به کاهش وقوع جرم و جنایات و تصادفات کمک کند. دکتر جئون میگوید:« متد پیشنهادی ما میتواند الهامبخش پژوهشگران دیگر باشد. این پژوهشگران میتوانند رویکردهای نوینی مجهز به یادگیری عمیق توسعه دهند و امنیت عمومی را افزایش دهند.»