تنسورفلو سه بعدی توسط گوگل عرضه می‌شود

تیم تحریریه
۱۶ اسفند ۱۳۹۹

زمان مطالعه: 3 دقیقه

تنسورفلو سه بعدی شامل مجموعه‌ای از عملیات‌ها، توابع زیان، ابزارهای پردازش داده، متریک‌ها و مدل‌ها است که در توسعه، آموزش و استقرار مدل‌های درک فضای سه‌بعدی به کار گرفته می‌شوند.

وسایل نقلیه خودران، روبات‌ها و دیگر سیستم‌های یادگیری ماشین برای مسیریابی، جابه‌جایی و فعالیت در دنیای واقعی باید محیط پیرامون خود را به دقت بررسی کنند. این سیستم‌ها اغلب توسط حسگرهای سه‌بعدی از قبیل لیدار (Lidar)، رادار و دوربین‌های تخمین عمق هدایت می‌شوند و برای پردازش داده‌ها دریافتی هم به فن‌آوری درک فضا وابسته هستند.

درک فضای سه‌بعدی در تشخیص شی، تشخیص انسان‌ها در ویدئو و گرافیک اهمیت زیادی دارد. به لطف بینایی ماشین پیشرفت‌های شگرفی در فن‌آوری تشخیص سه بعدی شی و تشخیص دقیق شی حاصل شده است، با این حال تعداد ابزارهایی که می‌توان بر روی داده‌های سه بعدی اعمال کرد انگشت‌شمار است.

گوگل با هدف ارتقا و بهبود درک فضای سه بُعدی، تنسورفلو سه بعدی را توسعه داده است؛ تنسورفلو سه بعدی کتابخانه‌ای با تعداد زیادی ماژول (modular) است که تنسورفلو را به قابلیت‌های یادگیری عمیق سه‌بعدی مجهز می‌کند.

فهرست مقاله پنهان

1 منظور از درک فضای سه‌بعدی چیست؟

2 تنسورفلو سه بعدی

منظور از درک فضای سه‌بعدی چیست؟

سیستم‌های کنونی بینایی کامپیوتر در مورد موقعیت و مکان شی‌ای که در فضای سه‌بعدی قرار گرفته و نحوه تعامل عامل‌ها (برای مثال روبات‌ها)، اطلاعات کمی در اختیار ما قرار می‌دهند. ما برای درک کامل محیط به اطلاعات بیشتری نیاز داریم. پژوهش‌ها و مطالعاتی که به تازگی انجام شده برای غلبه بر این کاستی‌ها، بر روی درک هندسی محیط تمرکز کرده‌اند. قرار گرفتن بازنمایی اشیا در فضای سه بعدی به بهبود و ارتقای مواردی از قبیل تشخیص انسان در ویدئو، گرافیک و تشخیص شی کمک می‌کند.

تنسورفلو سه بعدی

تنسورفلو سه بعدی نسخه جدیدی از کتابخانه تنسورفلو است و شامل مجموعه‌ای از عملیات‌ها، توابع زیان، ابزارهای پردازش داده، متریک‌ها و مدل‌ها است که در توسعه، آموزش و استقرار مدل‌های درک فضای سه بعدی به کار گرفته می‌شوند.

نکات کلیدی:

تنسورفلو سه بعدی برای آموزش و ارزیابی دیتاست‌های درک فضای سه‌بعدی، دیتاست‌هایی از پیکربندی و مشخصات ارائه می‌دهد.
این کتابخانه از دیتاست‌هایی از جمله Waymo Open، ScanNet و Rio پشتیبانی می‌کند. علاوه بر این کاربران می‌توانند دیتاست‌های دیگر از جمله Kitti و NuScenes را تبدیل کرده و از آن‌ها استفاده کنند.
از تنسورفلو سه بعدی می‌توان در پژوهش‌ها و مطالعات گوناگونی که در زمینه یادگیری عمیق سه‌بعدی انجام می‌شود (برای مثال الگوسازی سریع و استقرار سیستم‌های استنباط آنی) استفاده کرد.

در حال حاضر، تنسورفلو سه بعدی از سه پایپ‌لاین پشتیبانی می‌کند:

تقطیع معنایی سه‌بعدی: داده‌های سه‌بعدی شامل فضای باز و هم‌چنین مجموعه اشیای مورد نظر هستند. از آنجایی‌که بیشتر داده‌های سه‌بعدی پراکنده هستند، برای اعمال و اجرای کانولوشن‌های استاندارد محاسبات زیادی لازم است و علاوه بر این فضای زیادی از حافظه اشغال می‌شود.

تنسورفلو سه بعدی برای رفع این مشکل و پردازش بهتر و دقیق‌تر داده‌های سه‌بعدی، از شبکه‌های کانولوشن submanifold sparse استفاده می‌کند. این کتابخانه برای استخراج ویژگی‌ها از وُکسِل از معماری U-Net استفاده می‌کند. شبکه U-Net شامل بلوک‌های کانولوشن پراکنده و عملیات‌های pooling و un-pooling است. علاوه بر این، این مدل از انواع مختلف تکنیک‌های CUDA برای انجام محاسباتی از جمله هَش، تجزیه و عملیات‌های بیتی استفاده می‌کند.

شبکه‌های کانولوشن sunmanifold sparse بر روی مدل تقطیع معنایی سه‌بعدی اجرا می‌شوند ؛ این مدل‌ها برای هر یک از وُکسل‌ها یک امتیاز معنایی خروجی می‌دهند. سپس می‌توان برای پیش‌بینی برچسب معنایی هر یک از نقاط، این امتیازات را بر روی تصویر نگاشت کرد.

تقطیع سه‌بعدی نمونه: علاوه بر پیش‌بینی برچسب‌های معنایی، ضروری است وکسل‌هایی که به یک شی خاص تعلق دارند را گروه‌بندی کنیم. در این روش بُردارهای تعبیه نمونه، وُکسل‌ها را به یک فضای تعبیه نگاشت می‌کنند. در این فضا، وکسل‌هایی که به یک شی تعلیق دارند در یک گروه قرار می‌گیرند و در مقابل وکسل‌هایی که به اشیای مختلف تعلق دارند، با فاصله از یکدیگر قرار می‌گیرند. در طول فرایند استنباط، مدل با استفاده از الگوریتم حریصانه هر بار فقط یک نمونه را انتخاب می‌کند و بر مبنای فاصله تعبیه وکسل‌ها از یکدیگر آن‌ها را به بخش‌هایی گروه‌بندی می‌کند.

تشخیص سه‌بعدی شی: مدل تشخیص سه‌بعدی شی پارامترهایی از جمله اندازه وکسل، مرکز، ماتریس‌های چرخش و امتیازات معنایی اشیا را محاسبه و مشخص می‌کند. مدل برای اینکه صدها هزار کادری که هر یک از وکسل‌ها پیش‌بینی کرده‌اند را در قالب چندین کادر پیشنهادی فشرده‌سازی کند، از مکانیزم کادر پیشنهادی استفاده می‌کند. در طول فرایند آموزش زیان‌های پیش‌بینی و طبقه‌بندی کادر بر روی تک تک پیش‌بینی‌های وکسل اعمال می‌شوند. در ضمن، از یک زیان پویای طبقه‌بندی کادر هم استفاده می‌شود؛ این زیان کادرهایی که با حقیقت مبنا همپوشانی دارند را در طبقه مثبت (positive) و سایر کادرها را در طبقه منفی (negative) طبقه‌بندی می‌کند.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید