
رویکرد عقل سلیم ؛ تماشای جهان از دریچه چشم انسان
رویکرد جدید «عقل سلیم» به بینایی کامپیوتر، هوش مصنوعی را قادر میسازد که نسبت به دیگر سیستمها، صحنهها را با دقت بیشتری تفسیر کند.
سیستمهای بینایی ماشین، گاهی از مواقع صحنهها را دقیقاً بر خلاف عقل سلیم استتناج میکنند. بهعنوان مثال، اگر رباتی در حال پردازش تصویر میز شام باشد، ممکن است کاسهای را که کاملاً برای انسان قابلمشاهده است، نادیده بگیرد یا این طور تخمین بزند که یک بشقاب روی میز شناور است یا به اشتباه، چنگال را به جای اینکه کنار کاسه ببیند، درون آن تصور کند.
حال اگر چنین سیستم بیناییای را در یک اتومبیل خودران به کار ببریم، خطر بسیار بیشتر میشود؛ مثلاً چنین سیستمی نمیتواند خودروهای اورژانس یا عابرین پیاده را تشخیص دهد.
محققان دانشگاه MIT برای غلبه بر این خطاها، چارچوبی ایجاد کردهاند که به ماشینها کمک میکند، تا جهان را بیشتر شبیه به انسانها ببینند. این سیستم هوش مصنوعی جدید که برای تجزیه و تحلیل صحنهها طراحی شده است، درک اشیای واقعی را با استفاده از تعداد کمی تصویر، میآموزد و صحنهها را با استفاده از همین اشیای آموزش دادهشده، درک میکند.
این پژوهشگران، چارچوب کار خود را با استفاده از برنامهنویسی احتمالاتی ایجاد کردهاند؛ برنامهنویسی احتمالاتی رویکردی به هوش مصنوعی است که سیستم را قادر میسازد اشیای شناساییشده را با مراجعه به داده ورودی، بررسی کند. بهعنوان مثال، تصاویر ضبطشده از یک دوربین را با صحنههایی که بر اساس آنها آموزش دیده است، تطبیق میدهد. در صورت عدم مطابقت، با استفاده از روش استنتاج احتمالی، علت عدم تطابق را استنتاج میکند. مثلاً دلیل آن میتواند بهخاطر وجود نویز باشد یا اینکه خطاهایی در تفسیر صحنه پیش آمدهاند که باید در پردازشهای بعدی اصلاح شوند.
این شکل نشان میدهد که ۳DP3 (ردیف پایین) با استفاده از تصاویر ورودی (ردیف بالا) محل اشیا را با دقت بیشتری نسبت به سیستمهای یادگیری عمیق (ردیف وسط) استنتاج میکند.
رویکرد عقل سلیم که همچون محافظی عمل میکند، به سیستمها امکان میدهد، تا بسیاری از خطاهایی که عملکرد رویکردهای «یادگیری عمیق» بهکاررفته در بینایی کامپیوتر را مختل میکنند، شناسایی و تصحیح کنند. همچنین برنامهنویسی احتمالاتی، وجود تماس میان اشیا را استنتاج میکند و با استفاده از روش استدلالی عقل سلیم، مکان اشیا را دقیقتر استنتاج میکند.
نیشاد گوتوسکار، نویسنده اصلی این مقاله و دانشجوی دکتری مهندسی برق و علوم کامپیوتر (EECS) میگوید: «اگر انسان از تماس بین دو شیء آگاه نبود، احتمالاً نتیجه میگرفت که دو شیء روی هم شناور هستند؛ اما برای انسان واضح است که این امر از نظر فیزیکی غیرواقعی است و مثلاً اگر شیئی روی میز قرار دارد، به احتمال قوی با سطح آن در تماس است. چون نظام استدلالی ما مجهز به این دانش است، میتواند به شکل دقیقتری مکان اشیا را استنتاج کند. این واقعیت، نگرش کلیدی پژوهش حاضر است.»
این پژوهش علاوه بر افزایش امنیت اتومبیلهای خودران، میتواند عملکرد سیستمهای ادراک کامپیوتری را افزایش دهد. این سیستمها که باید چیدمان پیچیده اشیا را تفسیر کنند، در رباتهایی به کار میروند که بهعنوان مثال باید یک آشپزخانه بههمریخته را نظافت کنند.
همکاران گوتوسکار در این پژوهش، گروهی از دانشجویان، فارغالتحصیلان و استادان دانشگاه MIT هستند. این پژوهش در ماه دسامبر در همایش «سیستمهای پردازش اطلاعات عصبی» ارائه میشود.
یادگار گذشته
پژوهشگران برای توسعه این سیستم که «ادراک سهبعدی صحنه از طریق برنامهنویسی احتمالاتی (۳DP3)» نام دارد، از مفهومی متعلق به اولین روزهای پژوهش در عرصه هوش مصنوعی استفاده کردند: بینایی کامپیوتر را میتوان «برعکس» گرافیک کامپیوتری دانست.
تمرکز گرافیک کامپیوتری بر تولید تصاویر بر اساس بازنمایی یک صحنه است، بنابراین بینایی کامپیوتر را میتوان برعکس این فرایند دانست. گوتوسکار و همکاران او با ترکیب این روش در چارچوبی که با استفاده از برنامهنویسی احتمالاتی ساخته شده است، این روش را قابل یادگیریتر و مقیاسپذیرتر ساختند.
کاسومانو-تاونر، فارغالتحصیل دکتری EECS بیان میکند: «برنامهنویسی احتمالاتی به ما امکان میدهد که دانش خود درباره بعضی جنبههای جهان را بهگونهای ثبت کنیم که کامپیوتر بتواند آن را تفسیر کند؛ اما همزمان این امکان را برای ما فراهم میکند که آنچه را نمیدانیم و از آن مطمئن نیستیم، بیان کنیم. بنابراین، این سیستم میتواند بهطور خودکار از روی داده آموزش ببیند و همچنین بهصورت خودکار، عدم اجرای قواعد را شناسایی کند.»
در این موارد، دانش قبلی درباره صحنههای سهبعدی برای مدل کدنویسی میشود. برای مثال ۳DP3 میداند که صحنهها از اشیای مختلفی تشکیل شدهاند و این اشیا اکثراً روی یکدیگر قرار دارند، اما همیشه هم چنین روابط سادهای ندارند. این دانش، مدل را قادر میسازد که درباره صحنه با عقل سلیمتری، استدلال کند.
یادگیری شکلها و صحنهها
برای تحلیل یک صحنه، ۳DP3 ابتدا درباره اشیای درون آن صحنه میآموزد. بعد از نشان دادن تنها ۵ تصویر از یک شیء که هر کدام از زاویهای متفاوت گرفته شده است، ۳DP3 شکل شیء را میآموزد و حجمی را که در فضا اشغال میکند، تخمین میزند.
گوتوسکار میگوید: «اگر شیئی را از ۵ زاویه مختلف به انسان نشان دهیم، میتواند تصور نسبتاً کاملی از آن شیء به دست بیاورد. رنگ و شکل آن را درک میکند و آن شیء را در صحنههای مختلف، تشخیص میدهد. این تعداد داده به نسبت رویکردهای یادگیری عمیق بسیار کم است. بهعنوان مثال، سیستم عصبی تشخیص اشیا Dense Fusion، برای هر نوع شیء، نیازمند هزاران مدل آموزشی است. در مقابل ۳DP3 بهازای هر شیء تنها به تعداد تصویر کمی نیاز دارد و اگر قسمتهایی از شکل هر شیئی را تشخیص ندهد، گزارش عدم قطعیت ارائه میکند.»
سیستم ۳DP3 نموداری برای بازنمایی صحنه ایجاد میکند که در آن هر شیء یک نقطه است و خطوطی که این نقاط را به هم متصل میکند، نشان میدهند که کدام اشیا با هم در تماس هستند. این بازنمایی ۳DP3 را قادر میسازد که نحوه چیدمان اشیا را دقیقتر تخمین بزند. (رویکردهای یادگیری عمیق برای تخمین وضعیت شیء به تصاویر عمقی متکی هستند، اما این روشها ساختار نموداری از تماس میان اشیا تولید نمیکنند و بنابراین، تخمینهای آنها دقت کمتری دارد.)
عملکرد بهتر از مدلهای پایه
پژوهشگران، ۳DP3 را با سیستمهای یادگیری عمیق مقایسه کردند؛ به این صورت که تمام این سیستمها باید محل قرارگیری اشیای سهبعدی را در صحنه تخمین میزدند.
تقریباً در تمام موارد، تخمینهای ۳DP3 از مدلهای دیگر دقیقتر بودند و زمانی که قسمتی از یک شیء با شیء دیگری پوشیده میشد نیز عملکرد بهتری داشت و اینها در حالی بود که ۳DP3 برای آموزش فقط به پنج تصویر نیاز دارد، در حالی که مدلهای پایهای که با آنها مقایسه شده بود، برای آموزش به هزاران تصویر نیاز داشتند.
هنگامی که ۳DP3 همراه مدل دیگری استفاده شد، توانست دقت خود را بهبود ببخشد. بهعنوان مثال، ممکن است که یک مدل یادگیری عمیق پیشبینی کند که کاسه روی میز شناور است، اما چون ۳DP3 مجهز به دانشِ روابط تماس است و میداند که این امر نامحتمل است، میتواند با تراز کردن کاسه بر روی میز، پیشبینی مدل یادگیری عمیق را اصلاح کند.
منسینقکا، نویسنده ارشد مقاله میگوید: «برای من تعجبآور بود که گاهی، خطاهای یادگیری عمیق تا چه اندازه میتواند بزرگ باشند و بازنماییهایی را از صحنه بیافریند که اشیای موجود در آن، هیچ نسبتی با درک انسان ندارند. همچنین برایم شگفتآور بود که در برنامه احتمالاتی علّی ما، برای شناسایی و رفع این خطاها تنها مقدار اندکی استنتاج مبتنی بر مدل کافی بود. البته هنوز مسیر زیادی باید طی شود، تا این روش، برای سیستمهای بینایی بلادرنگ و چالشی بهقدر کافی سریع و قدرتمند شود؛ اما برای نخستین بار شاهد هستیم که برنامهنویسی احتمالاتی و مدلهای علّی ساختمند در معیارهای دشوار بینایی سهبعدی، قدرتمندتر از یادگیری عمیق هستند.»
پژوهشگران قصد دارند که در آینده، این سیستم را بهنحوی ارتقا بدهند که بتواند از روی یک تصویر یا یک فریم از فیلم، درباره شیئی بیاموزد و سپس قادر باشد که آن شیء را در صحنههای مختلف، به دقت و سرعت تشخیص دهد. همچنین میخواهند استفاده از ۳DP3 را برای گردآوری داده آموزشی برای یک شبکه عصبی نیز بررسی کنند. معمولاً برای انسانها دشوار است که بهصورت دستی تصاویر را برحسب هندسه سهبعدی آنها برچسب بزنند؛ بنابراین، ۳DP3 را میتوان برای تولید برچسبهای پیچیدهتر تصاویر، به کار برد.
مت تورک، مدیر برنامه DARPA که در تأمین مالی این پژوهش نقش داشت، میگوید: «سیستم ۳DP3 مدلسازی گرافیکی وفاداری کم را با استدلال عقل سلیم ترکیب میکند، تا خطاهای بزرگی را که شبکههای عصبی یادگیری عمیق در تفسیر صحنه مرتکب میشوند، اصلاح کند. این نوع رویکرد میتواند کاربرد گستردهای داشته باشد، زیرا شیوههای مهم شکست یادگیری عمیق را بررسی میکند. همچنین این دستاورد پژوهشگران MIT نشان میدهد که میتوان فناوری برنامهنویسی احتمالاتی را که قبلاً تحتنظر برنامه برنامهنویسی احتمالاتی DARPA برای پیشرفت یادگیری ماشین توسعه یافته بود، برای حل مشکلات اصلی هوش مصنوعی عقل سلیم در برنامه فعلیِ عقل سلیم ماشین DARPA، به کار برد.»
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید