تنسورفلو سه بعدی توسط گوگل عرضه میشود
تنسورفلو سه بعدی شامل مجموعهای از عملیاتها، توابع زیان، ابزارهای پردازش داده، متریکها و مدلها است که در توسعه، آموزش و استقرار مدلهای درک فضای سهبعدی به کار گرفته میشوند.
وسایل نقلیه خودران، روباتها و دیگر سیستمهای یادگیری ماشین برای مسیریابی، جابهجایی و فعالیت در دنیای واقعی باید محیط پیرامون خود را به دقت بررسی کنند. این سیستمها اغلب توسط حسگرهای سهبعدی از قبیل لیدار (Lidar)، رادار و دوربینهای تخمین عمق هدایت میشوند و برای پردازش دادهها دریافتی هم به فنآوری درک فضا وابسته هستند.
درک فضای سهبعدی در تشخیص شی، تشخیص انسانها در ویدئو و گرافیک اهمیت زیادی دارد. به لطف بینایی ماشین پیشرفتهای شگرفی در فنآوری تشخیص سه بعدی شی و تشخیص دقیق شی حاصل شده است، با این حال تعداد ابزارهایی که میتوان بر روی دادههای سه بعدی اعمال کرد انگشتشمار است.
گوگل با هدف ارتقا و بهبود درک فضای سه بُعدی، تنسورفلو سه بعدی را توسعه داده است؛ تنسورفلو سه بعدی کتابخانهای با تعداد زیادی ماژول (modular) است که تنسورفلو را به قابلیتهای یادگیری عمیق سهبعدی مجهز میکند.
منظور از درک فضای سهبعدی چیست؟
سیستمهای کنونی بینایی کامپیوتر در مورد موقعیت و مکان شیای که در فضای سهبعدی قرار گرفته و نحوه تعامل عاملها (برای مثال روباتها)، اطلاعات کمی در اختیار ما قرار میدهند. ما برای درک کامل محیط به اطلاعات بیشتری نیاز داریم. پژوهشها و مطالعاتی که به تازگی انجام شده برای غلبه بر این کاستیها، بر روی درک هندسی محیط تمرکز کردهاند. قرار گرفتن بازنمایی اشیا در فضای سه بعدی به بهبود و ارتقای مواردی از قبیل تشخیص انسان در ویدئو، گرافیک و تشخیص شی کمک میکند.
تنسورفلو سه بعدی
تنسورفلو سه بعدی نسخه جدیدی از کتابخانه تنسورفلو است و شامل مجموعهای از عملیاتها، توابع زیان، ابزارهای پردازش داده، متریکها و مدلها است که در توسعه، آموزش و استقرار مدلهای درک فضای سه بعدی به کار گرفته میشوند.
نکات کلیدی:
- تنسورفلو سه بعدی برای آموزش و ارزیابی دیتاستهای درک فضای سهبعدی، دیتاستهایی از پیکربندی و مشخصات ارائه میدهد.
- این کتابخانه از دیتاستهایی از جمله Waymo Open، ScanNet و Rio پشتیبانی میکند. علاوه بر این کاربران میتوانند دیتاستهای دیگر از جمله Kitti و NuScenes را تبدیل کرده و از آنها استفاده کنند.
- از تنسورفلو سه بعدی میتوان در پژوهشها و مطالعات گوناگونی که در زمینه یادگیری عمیق سهبعدی انجام میشود (برای مثال الگوسازی سریع و استقرار سیستمهای استنباط آنی) استفاده کرد.
در حال حاضر، تنسورفلو سه بعدی از سه پایپلاین پشتیبانی میکند:
تقطیع معنایی سهبعدی: دادههای سهبعدی شامل فضای باز و همچنین مجموعه اشیای مورد نظر هستند. از آنجاییکه بیشتر دادههای سهبعدی پراکنده هستند، برای اعمال و اجرای کانولوشنهای استاندارد محاسبات زیادی لازم است و علاوه بر این فضای زیادی از حافظه اشغال میشود.
تنسورفلو سه بعدی برای رفع این مشکل و پردازش بهتر و دقیقتر دادههای سهبعدی، از شبکههای کانولوشن submanifold sparse استفاده میکند. این کتابخانه برای استخراج ویژگیها از وُکسِل از معماری U-Net استفاده میکند. شبکه U-Net شامل بلوکهای کانولوشن پراکنده و عملیاتهای pooling و un-pooling است. علاوه بر این، این مدل از انواع مختلف تکنیکهای CUDA برای انجام محاسباتی از جمله هَش، تجزیه و عملیاتهای بیتی استفاده میکند.
شبکههای کانولوشن sunmanifold sparse بر روی مدل تقطیع معنایی سهبعدی اجرا میشوند ؛ این مدلها برای هر یک از وُکسلها یک امتیاز معنایی خروجی میدهند. سپس میتوان برای پیشبینی برچسب معنایی هر یک از نقاط، این امتیازات را بر روی تصویر نگاشت کرد.
تقطیع سهبعدی نمونه: علاوه بر پیشبینی برچسبهای معنایی، ضروری است وکسلهایی که به یک شی خاص تعلق دارند را گروهبندی کنیم. در این روش بُردارهای تعبیه نمونه، وُکسلها را به یک فضای تعبیه نگاشت میکنند. در این فضا، وکسلهایی که به یک شی تعلیق دارند در یک گروه قرار میگیرند و در مقابل وکسلهایی که به اشیای مختلف تعلق دارند، با فاصله از یکدیگر قرار میگیرند. در طول فرایند استنباط، مدل با استفاده از الگوریتم حریصانه هر بار فقط یک نمونه را انتخاب میکند و بر مبنای فاصله تعبیه وکسلها از یکدیگر آنها را به بخشهایی گروهبندی میکند.
تشخیص سهبعدی شی: مدل تشخیص سهبعدی شی پارامترهایی از جمله اندازه وکسل، مرکز، ماتریسهای چرخش و امتیازات معنایی اشیا را محاسبه و مشخص میکند. مدل برای اینکه صدها هزار کادری که هر یک از وکسلها پیشبینی کردهاند را در قالب چندین کادر پیشنهادی فشردهسازی کند، از مکانیزم کادر پیشنهادی استفاده میکند. در طول فرایند آموزش زیانهای پیشبینی و طبقهبندی کادر بر روی تک تک پیشبینیهای وکسل اعمال میشوند. در ضمن، از یک زیان پویای طبقهبندی کادر هم استفاده میشود؛ این زیان کادرهایی که با حقیقت مبنا همپوشانی دارند را در طبقه مثبت (positive) و سایر کادرها را در طبقه منفی (negative) طبقهبندی میکند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید