لامسه در ربات ها ، معجزه تلفیق بینایی ماشین و یادگیری عمیق
با ایجاد حس لامسه در ربات ها بامداد انقلاب رباتیک فرا رسیده است و هیچ شباهتی به کابوس ویران شهری که قبلاً تصور میکردیم ندارد. در عوض انقلاب رباتیک با رباتهای اجتماعی آغاز شد: رباتهای خودمختاری که در خانه، مدرسه، ادارات و مکانهای عمومی به چشم میخورند و این قابلیت را دارند تا به منظور رفع نیازهای اصلی انسان، به روشی که به لحاظ اجتماعی پذیرفته و برای انسان قابل درک است با انسان و رباتهای دیگر تعامل برقرار کنند.
برای طراحی ربات اجتماعیای که خواستههای انسان را «درک» کند، دانشمندان حوزه رباتیک به مطالعه موشکافانه روانشناسی روابط انسانی پرداختهاند. محققان دانشگاه کرنل بر این باورند که گنجاندن احساس لامسه در رباتها به آنها یاد میدهد تا تعاملات فیزیکی و ژست انسان را تشخیص دهند. این محققان روشی ارائه کردهاند که با کمک حس بینایی، و نه حس لامسه، توانستهاند این قابلیت را در رباتهای اجتماعی ایجاد کنند.
دوربین USB نصب شده بر روی رباتها از سایه دست انسان بر بدنه ربات عکس میگیرد و با کمک نرمافزارهای یادگیری ماشین آنها را دستهبندی میکنند. محققان این روش را «حس سایه ShadowSense» نام گذاری و آن را حسی بین بینایی و لامسه تعریف کردهاند، حسی که باعث میشود «لامسه نیز مانند حس بینایی وضوح بالا داشته و در عین حال کم هزینه باشد».
حس لامسه در ربات ها یا تعاملی اغلب از طریق حسگرهای نیرو force sensors یا حسگرهای خازنی capacitive sensors بدست میآید (به نقل از گای هافمن، نویسنده همکار این پژوهش از دانشکده مهندسی مکانیک و هوافضای سیبلی Sibley School of Mechanical and Aerospace Engineering، دانشگاه کرنل). ایراد رویکرد این تیم این است که حتی برای دستیابی به وضوح فضایی معمولی در ناحیهای کوچک لازم است حسگرهای بیشماری نصب گردد.
با این حال، هافمن و تیم پژوهشی وی، که بر روی رباتهای انعطافپذیر با قابلیت متورم شدن کار میکردند، یک دوربین USB معمولی را روی این رباتها نصب کردند و به منظور گسترش میدان دید آن را به لنز چشم ماهی تجهیز نمودند.
طبق گفتههای هافمن، به دلیل اینکه ربات توخالی و متورم بود و سطحی نرم و نیمه شفاف داشت، با نگاه کردن به سایه دست افرادی که ربات را لمس میکنند تیم توانست از طریق حس لامسه در ربات ها با آنها تعامل برقرار کند. تیم برای تفسیر سایهها از شبکه های عصبی عمیق استفاده کرد. هافمن در ادامه گفت «و این کار را با دقت بسیار بالایی انجام دادیم». ربات توانست شش ژست مختلف را، از جمله یک یا دو مورد تماس دست، اشاره کردن، در آغوش کشیدن و مشت زدن ، با دقت 87.5 تا 96 درصد، متناسب با نورِ محیط، تفسیر کند.
این اولین مرتبهای نیست که شاهد به کارگیری بینایی ماشین برای ادراک حس لامسه هستیم، امّا مقیاس و کاربرد «حس سایه» منحصر به فرد است. بنا به گزارش هافمن «پیش از این هم در رباتها از تصویر برداری برای ایجاد حس لامسه استفاده میشد ولی کاربرد عمده آن برای گرفتن اشیا بود». در مقابل، هافمن و همکارانش به دنبال ایجاد حسی بودند که در تمام پیکره ربات «احساس» شود.
از جمله کاربردهای احتمالی «حس سایه» میتوان به هدایت ربات متحرک با استفاده از لامسه در ربات ها و صفحه نمایشهای تعاملی در رباتهای نرم اشاره کرد. سومین کاربرد این فناوری مربوط به رعایت حریم خصوصی است، به ویژه در مورد رباتهای اجتماعی خانگی. هافمن در ادامه گفت «در حال حاضر، یک مقاله دیگر از ما در دست داوری است و این مقاله به طور مشخص به قابلیت تشخیص ژست از فاصله دور نسبت به بدنه ربات اشاره دارد». در این روش کاربران میتوانند لنز دوربین ربات خود را با مادهای نیمه شفاف بپوشانند و در عین حال از قابلیت ربات برای درک و تفسیر تعاملات و ژستها از روی سایه بهرهمند شوند. در نتیجه اگرچه ربات نمیتواند تصاویر باکیفیتی از کاربر یا محیط اطراف او بگیرد، با کمک دیتاست آموزشی مناسب، میتواند تعاملات غیر لمسی را تحت نظر بگیرد.
طبق گفتههای هافمن، تست اخیر فناوری «حس سایه» نشان داد که این فناوری در محیط کم نور عملکرد خوبی ندارد. علاوه بر این، محیطهای شلوغ یا سایه اجسام اطراف دستهبندی عکس را با مشکل مواجه میکند. وابستگی سیستم به تنها یک دوربین هم یک نقطه ضعف محسوب میشود. هافمن میگوید «به نظر من اگر بخواهیم این محصول را به بازار عرضه کنیم، باید قابلیت تشخیص عکس آن را ارتقاء دهیم.»
گفته می شود، محققین این پژوهش برای تحلیل عکس از «یادگیری انتقالی» استفاده نمودند (منظور از یادگیری انتقالی استفاده مجدد از یک مدل آموزش دیده یادگیری عمیق در یک مسئله جدید است). «یکی از ایرادهای شبکههای عصبی عمیق چند لایه این است که برای دستیابی به نتایج دقیق باید دیتاست آموزشی بسیار بزرگی داشته باشید. کاملاً واضح است که نمونههای زیادی از افرادی که یک ربات توخالی و متورم را لمس میکنند در اختیار نداریم. امّا میتوانیم از شبکههای عصبی از پیش آموزش دیده با تصاویر عمومی، که به وفور یافت میشوند، استفاده کنیم و تنها آخرین لایههای شبکه را با دیتاست مورد نظر آموزش دهیم.»