رویکرد عقل سلیم ؛ تماشای جهان از دریچه چشم انسان
رویکرد جدید «عقل سلیم» به بینایی کامپیوتر، هوش مصنوعی را قادر میسازد که نسبت به دیگر سیستمها، صحنهها را با دقت بیشتری تفسیر کند.
سیستمهای بینایی ماشین، گاهی از مواقع صحنهها را دقیقاً بر خلاف عقل سلیم استتناج میکنند. بهعنوان مثال، اگر رباتی در حال پردازش تصویر میز شام باشد، ممکن است کاسهای را که کاملاً برای انسان قابلمشاهده است، نادیده بگیرد یا این طور تخمین بزند که یک بشقاب روی میز شناور است یا به اشتباه، چنگال را به جای اینکه کنار کاسه ببیند، درون آن تصور کند.
حال اگر چنین سیستم بیناییای را در یک اتومبیل خودران به کار ببریم، خطر بسیار بیشتر میشود؛ مثلاً چنین سیستمی نمیتواند خودروهای اورژانس یا عابرین پیاده را تشخیص دهد.
محققان دانشگاه MIT برای غلبه بر این خطاها، چارچوبی ایجاد کردهاند که به ماشینها کمک میکند، تا جهان را بیشتر شبیه به انسانها ببینند. این سیستم هوش مصنوعی جدید که برای تجزیه و تحلیل صحنهها طراحی شده است، درک اشیای واقعی را با استفاده از تعداد کمی تصویر، میآموزد و صحنهها را با استفاده از همین اشیای آموزش دادهشده، درک میکند.
این پژوهشگران، چارچوب کار خود را با استفاده از برنامهنویسی احتمالاتی ایجاد کردهاند؛ برنامهنویسی احتمالاتی رویکردی به هوش مصنوعی است که سیستم را قادر میسازد اشیای شناساییشده را با مراجعه به داده ورودی، بررسی کند. بهعنوان مثال، تصاویر ضبطشده از یک دوربین را با صحنههایی که بر اساس آنها آموزش دیده است، تطبیق میدهد. در صورت عدم مطابقت، با استفاده از روش استنتاج احتمالی، علت عدم تطابق را استنتاج میکند. مثلاً دلیل آن میتواند بهخاطر وجود نویز باشد یا اینکه خطاهایی در تفسیر صحنه پیش آمدهاند که باید در پردازشهای بعدی اصلاح شوند.
این شکل نشان میدهد که 3DP3 (ردیف پایین) با استفاده از تصاویر ورودی (ردیف بالا) محل اشیا را با دقت بیشتری نسبت به سیستمهای یادگیری عمیق (ردیف وسط) استنتاج میکند.
رویکرد عقل سلیم که همچون محافظی عمل میکند، به سیستمها امکان میدهد، تا بسیاری از خطاهایی که عملکرد رویکردهای «یادگیری عمیق» بهکاررفته در بینایی کامپیوتر را مختل میکنند، شناسایی و تصحیح کنند. همچنین برنامهنویسی احتمالاتی، وجود تماس میان اشیا را استنتاج میکند و با استفاده از روش استدلالی عقل سلیم، مکان اشیا را دقیقتر استنتاج میکند.
نیشاد گوتوسکار، نویسنده اصلی این مقاله و دانشجوی دکتری مهندسی برق و علوم کامپیوتر (EECS) میگوید: «اگر انسان از تماس بین دو شیء آگاه نبود، احتمالاً نتیجه میگرفت که دو شیء روی هم شناور هستند؛ اما برای انسان واضح است که این امر از نظر فیزیکی غیرواقعی است و مثلاً اگر شیئی روی میز قرار دارد، به احتمال قوی با سطح آن در تماس است. چون نظام استدلالی ما مجهز به این دانش است، میتواند به شکل دقیقتری مکان اشیا را استنتاج کند. این واقعیت، نگرش کلیدی پژوهش حاضر است.»
این پژوهش علاوه بر افزایش امنیت اتومبیلهای خودران، میتواند عملکرد سیستمهای ادراک کامپیوتری را افزایش دهد. این سیستمها که باید چیدمان پیچیده اشیا را تفسیر کنند، در رباتهایی به کار میروند که بهعنوان مثال باید یک آشپزخانه بههمریخته را نظافت کنند.
همکاران گوتوسکار در این پژوهش، گروهی از دانشجویان، فارغالتحصیلان و استادان دانشگاه MIT هستند. این پژوهش در ماه دسامبر در همایش «سیستمهای پردازش اطلاعات عصبی» ارائه میشود.
یادگار گذشته
پژوهشگران برای توسعه این سیستم که «ادراک سهبعدی صحنه از طریق برنامهنویسی احتمالاتی (3DP3)» نام دارد، از مفهومی متعلق به اولین روزهای پژوهش در عرصه هوش مصنوعی استفاده کردند: بینایی کامپیوتر را میتوان «برعکس» گرافیک کامپیوتری دانست.
تمرکز گرافیک کامپیوتری بر تولید تصاویر بر اساس بازنمایی یک صحنه است، بنابراین بینایی کامپیوتر را میتوان برعکس این فرایند دانست. گوتوسکار و همکاران او با ترکیب این روش در چارچوبی که با استفاده از برنامهنویسی احتمالاتی ساخته شده است، این روش را قابل یادگیریتر و مقیاسپذیرتر ساختند.
کاسومانو-تاونر، فارغالتحصیل دکتری EECS بیان میکند: «برنامهنویسی احتمالاتی به ما امکان میدهد که دانش خود درباره بعضی جنبههای جهان را بهگونهای ثبت کنیم که کامپیوتر بتواند آن را تفسیر کند؛ اما همزمان این امکان را برای ما فراهم میکند که آنچه را نمیدانیم و از آن مطمئن نیستیم، بیان کنیم. بنابراین، این سیستم میتواند بهطور خودکار از روی داده آموزش ببیند و همچنین بهصورت خودکار، عدم اجرای قواعد را شناسایی کند.»
در این موارد، دانش قبلی درباره صحنههای سهبعدی برای مدل کدنویسی میشود. برای مثال 3DP3 میداند که صحنهها از اشیای مختلفی تشکیل شدهاند و این اشیا اکثراً روی یکدیگر قرار دارند، اما همیشه هم چنین روابط سادهای ندارند. این دانش، مدل را قادر میسازد که درباره صحنه با عقل سلیمتری، استدلال کند.
یادگیری شکلها و صحنهها
برای تحلیل یک صحنه، 3DP3 ابتدا درباره اشیای درون آن صحنه میآموزد. بعد از نشان دادن تنها 5 تصویر از یک شیء که هر کدام از زاویهای متفاوت گرفته شده است، 3DP3 شکل شیء را میآموزد و حجمی را که در فضا اشغال میکند، تخمین میزند.
گوتوسکار میگوید: «اگر شیئی را از 5 زاویه مختلف به انسان نشان دهیم، میتواند تصور نسبتاً کاملی از آن شیء به دست بیاورد. رنگ و شکل آن را درک میکند و آن شیء را در صحنههای مختلف، تشخیص میدهد. این تعداد داده به نسبت رویکردهای یادگیری عمیق بسیار کم است. بهعنوان مثال، سیستم عصبی تشخیص اشیا Dense Fusion، برای هر نوع شیء، نیازمند هزاران مدل آموزشی است. در مقابل 3DP3 بهازای هر شیء تنها به تعداد تصویر کمی نیاز دارد و اگر قسمتهایی از شکل هر شیئی را تشخیص ندهد، گزارش عدم قطعیت ارائه میکند.»
سیستم 3DP3 نموداری برای بازنمایی صحنه ایجاد میکند که در آن هر شیء یک نقطه است و خطوطی که این نقاط را به هم متصل میکند، نشان میدهند که کدام اشیا با هم در تماس هستند. این بازنمایی 3DP3 را قادر میسازد که نحوه چیدمان اشیا را دقیقتر تخمین بزند. (رویکردهای یادگیری عمیق برای تخمین وضعیت شیء به تصاویر عمقی متکی هستند، اما این روشها ساختار نموداری از تماس میان اشیا تولید نمیکنند و بنابراین، تخمینهای آنها دقت کمتری دارد.)
عملکرد بهتر از مدلهای پایه
پژوهشگران، 3DP3 را با سیستمهای یادگیری عمیق مقایسه کردند؛ به این صورت که تمام این سیستمها باید محل قرارگیری اشیای سهبعدی را در صحنه تخمین میزدند.
تقریباً در تمام موارد، تخمینهای 3DP3 از مدلهای دیگر دقیقتر بودند و زمانی که قسمتی از یک شیء با شیء دیگری پوشیده میشد نیز عملکرد بهتری داشت و اینها در حالی بود که 3DP3 برای آموزش فقط به پنج تصویر نیاز دارد، در حالی که مدلهای پایهای که با آنها مقایسه شده بود، برای آموزش به هزاران تصویر نیاز داشتند.
هنگامی که 3DP3 همراه مدل دیگری استفاده شد، توانست دقت خود را بهبود ببخشد. بهعنوان مثال، ممکن است که یک مدل یادگیری عمیق پیشبینی کند که کاسه روی میز شناور است، اما چون 3DP3 مجهز به دانشِ روابط تماس است و میداند که این امر نامحتمل است، میتواند با تراز کردن کاسه بر روی میز، پیشبینی مدل یادگیری عمیق را اصلاح کند.
منسینقکا، نویسنده ارشد مقاله میگوید: «برای من تعجبآور بود که گاهی، خطاهای یادگیری عمیق تا چه اندازه میتواند بزرگ باشند و بازنماییهایی را از صحنه بیافریند که اشیای موجود در آن، هیچ نسبتی با درک انسان ندارند. همچنین برایم شگفتآور بود که در برنامه احتمالاتی علّی ما، برای شناسایی و رفع این خطاها تنها مقدار اندکی استنتاج مبتنی بر مدل کافی بود. البته هنوز مسیر زیادی باید طی شود، تا این روش، برای سیستمهای بینایی بلادرنگ و چالشی بهقدر کافی سریع و قدرتمند شود؛ اما برای نخستین بار شاهد هستیم که برنامهنویسی احتمالاتی و مدلهای علّی ساختمند در معیارهای دشوار بینایی سهبعدی، قدرتمندتر از یادگیری عمیق هستند.»
پژوهشگران قصد دارند که در آینده، این سیستم را بهنحوی ارتقا بدهند که بتواند از روی یک تصویر یا یک فریم از فیلم، درباره شیئی بیاموزد و سپس قادر باشد که آن شیء را در صحنههای مختلف، به دقت و سرعت تشخیص دهد. همچنین میخواهند استفاده از 3DP3 را برای گردآوری داده آموزشی برای یک شبکه عصبی نیز بررسی کنند. معمولاً برای انسانها دشوار است که بهصورت دستی تصاویر را برحسب هندسه سهبعدی آنها برچسب بزنند؛ بنابراین، 3DP3 را میتوان برای تولید برچسبهای پیچیدهتر تصاویر، به کار برد.
مت تورک، مدیر برنامه DARPA که در تأمین مالی این پژوهش نقش داشت، میگوید: «سیستم 3DP3 مدلسازی گرافیکی وفاداری کم را با استدلال عقل سلیم ترکیب میکند، تا خطاهای بزرگی را که شبکههای عصبی یادگیری عمیق در تفسیر صحنه مرتکب میشوند، اصلاح کند. این نوع رویکرد میتواند کاربرد گستردهای داشته باشد، زیرا شیوههای مهم شکست یادگیری عمیق را بررسی میکند. همچنین این دستاورد پژوهشگران MIT نشان میدهد که میتوان فناوری برنامهنویسی احتمالاتی را که قبلاً تحتنظر برنامه برنامهنویسی احتمالاتی DARPA برای پیشرفت یادگیری ماشین توسعه یافته بود، برای حل مشکلات اصلی هوش مصنوعی عقل سلیم در برنامه فعلیِ عقل سلیم ماشین DARPA، به کار برد.»
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید