عقل سلیم
آموزش‌های پیشرفته هوش مصنوعیاخباربینایی ماشین

رویکرد عقل سلیم ؛ تماشای جهان از دریچه چشم انسان

0
زمان مطالعه: ۶ دقیقه

رویکرد جدید «عقل سلیم» به بینایی کامپیوتر، هوش مصنوعی را قادر می‌سازد که نسبت به دیگر سیستم‌ها، صحنه‌‌ها را با دقت بیشتری تفسیر کند.

سیستم‌های بینایی ماشین، گاهی از مواقع صحنه‌ها را دقیقاً بر خلاف عقل سلیم استتناج می‌کنند. به‌عنوان مثال، اگر رباتی در حال پردازش تصویر میز شام باشد، ممکن است کاسه‌ای را که کاملاً برای انسان قابل‌مشاهده است، نادیده بگیرد یا این طور تخمین بزند که یک بشقاب روی میز شناور است یا به اشتباه، چنگال را به جای اینکه کنار کاسه ببیند، درون آن تصور کند.

حال اگر چنین سیستم بینایی‌ای را در یک اتومبیل خودران به کار ببریم، خطر بسیار بیشتر می‌شود؛ مثلاً چنین سیستمی نمی‌تواند خودروهای اورژانس یا عابرین پیاده را تشخیص دهد.

محققان دانشگاه MIT برای غلبه بر این خطاها، چارچوبی ایجاد کرده‌اند که به ماشین‌ها کمک می‌کند، تا جهان را بیشتر شبیه به انسان‌ها ببینند. این سیستم هوش مصنوعی جدید که برای تجزیه و تحلیل صحنه‌ها طراحی شده است، درک اشیای واقعی را با استفاده از تعداد کمی تصویر، می‌آموزد و صحنه‌ها را با استفاده از همین اشیای آموزش‌ داده‌شده، درک می‌کند.

این پژوهشگران، چارچوب کار خود را با استفاده از برنامه‌نویسی احتمالاتی ایجاد کرده‌اند؛ برنامه‌نویسی احتمالاتی رویکردی به هوش مصنوعی است که سیستم را قادر می‌سازد اشیای شناسایی‌شده را با مراجعه به داده ورودی، بررسی کند. به‌عنوان مثال، تصاویر ضبط‌شده از یک دوربین را با صحنه‌هایی که بر اساس آن‌ها آموزش دیده است، تطبیق می‌دهد. در صورت عدم مطابقت، با استفاده از روش استنتاج احتمالی، علت عدم تطابق‌ را استنتاج می‌کند. مثلاً دلیل آن می‌تواند به‌خاطر وجود نویز باشد یا اینکه خطاهایی در تفسیر صحنه پیش آمده‌اند که باید در پردازش‌های بعدی اصلاح شوند.

عقل سلیم

این شکل نشان می‌دهد که ۳DP3 (ردیف پایین) با استفاده از تصاویر ورودی (ردیف بالا) محل اشیا را با دقت بیشتری نسبت به سیستم‌های یادگیری عمیق (ردیف وسط) استنتاج می‌کند.

رویکرد عقل سلیم که همچون محافظی عمل می‌کند، به سیستم‌ها امکان می‌دهد، تا بسیاری از خطاهایی که عملکرد رویکردهای «یادگیری عمیق» به‌کاررفته در بینایی کامپیوتر را مختل می‌کنند، شناسایی و تصحیح کنند. همچنین برنامه‌نویسی احتمالاتی، وجود تماس میان اشیا را استنتاج می‌کند و با استفاده از روش استدلالی عقل سلیم، مکان اشیا را دقیق‌تر استنتاج می‌کند.

نیشاد گوتوسکار، نویسنده اصلی این مقاله و دانشجوی دکتری مهندسی برق و علوم کامپیوتر (EECS) می‌گوید: «اگر انسان از تماس بین دو شیء آگاه نبود، احتمالاً نتیجه می‌گرفت که دو شیء روی هم شناور هستند؛ اما برای انسان واضح است که این امر از نظر فیزیکی غیرواقعی است و مثلاً اگر شیئی روی میز قرار دارد، به احتمال قوی با سطح آن در تماس است. چون نظام استدلالی ما مجهز به این دانش است، می‌تواند به شکل دقیق‌تری مکان اشیا را استنتاج کند. این واقعیت، نگرش کلیدی پژوهش حاضر است.»

این پژوهش علاوه بر افزایش امنیت اتومبیل‌های خودران، می‌تواند عملکرد سیستم‌های ادراک کامپیوتری را افزایش دهد. این سیستم‌ها که باید چیدمان پیچیده اشیا را تفسیر کنند، در ربات‌هایی به کار می‌روند که به‌عنوان مثال باید یک آشپزخانه به‌هم‌ریخته را نظافت کنند.

ساخت سونوگرافی قابل حمل به کمک هوش مصنوعی در کشور

همکاران گوتوسکار در این پژوهش، گروهی از دانشجویان، فارغ‌التحصیلان و استادان دانشگاه MIT هستند. این پژوهش در ماه دسامبر در همایش «سیستم‌های پردازش اطلاعات عصبی» ارائه می‌شود.

یادگار گذشته

پژوهشگران برای توسعه این سیستم که «ادراک سه‌بعدی صحنه از طریق برنامه‌نویسی احتمالاتی (۳DP3)» نام دارد، از مفهومی متعلق به اولین روزهای پژوهش در عرصه هوش مصنوعی استفاده کردند: بینایی کامپیوتر را می‌توان «برعکس» گرافیک کامپیوتری دانست.

تمرکز گرافیک کامپیوتری بر تولید تصاویر بر اساس بازنمایی یک صحنه است، بنابراین بینایی کامپیوتر را می‌توان برعکس این فرایند دانست. گوتوسکار و همکاران او با ترکیب این روش در چارچوبی که با استفاده از برنامه‌نویسی احتمالاتی ساخته شده است، این روش را قابل یادگیری‌تر و مقیاس‌پذیرتر ساختند.

کاسومانو-تاونر، فارغ‌التحصیل دکتری EECS بیان می‌کند: «برنامه‌نویسی احتمالاتی به ما امکان می‌دهد که دانش خود درباره بعضی جنبه‌های جهان را به‌گونه‌ای ثبت کنیم که کامپیوتر بتواند آن را تفسیر کند؛ اما همزمان این امکان را برای ما فراهم می‌کند که آنچه را نمی‌دانیم و از آن مطمئن نیستیم، بیان کنیم. بنابراین، این سیستم می‌تواند به‌طور خودکار از روی داده آموزش ببیند و همچنین به‌صورت خودکار، عدم اجرای قواعد را شناسایی کند.»

در این موارد، دانش قبلی درباره صحنه‌های سه‌بعدی برای مدل کدنویسی می‌شود. برای مثال ۳DP3 می‌داند که صحنه‌ها از اشیای مختلفی تشکیل شده‌اند و این اشیا اکثراً روی یکدیگر قرار دارند، اما همیشه هم چنین روابط ساده‌ای ندارند. این دانش، مدل را قادر می‌سازد که درباره صحنه با عقل سلیم‌تری، استدلال کند.

عقل سلیم

یادگیری شکل‌ها و صحنه‌ها

برای تحلیل یک صحنه، ۳DP3 ابتدا درباره اشیای درون آن صحنه می‌آموزد. بعد از نشان‌ دادن تنها ۵ تصویر از یک شیء که هر کدام از زاویه‌ای متفاوت گرفته شده است، ۳DP3 شکل شیء را می‌آموزد و حجمی را که در فضا اشغال می‌کند، تخمین می‌زند.

گوتوسکار می‌گوید: «اگر شیئی را از ۵ زاویه مختلف به انسان نشان دهیم، می‌تواند تصور نسبتاً کاملی از آن شیء به دست بیاورد. رنگ و شکل آن را درک می‌کند و آن شیء را در صحنه‌های مختلف، تشخیص می‌دهد. این تعداد داده به نسبت رویکردهای یادگیری عمیق بسیار کم است. به‌عنوان مثال، سیستم عصبی تشخیص اشیا Dense Fusion، برای هر نوع شیء، نیازمند هزاران مدل آموزشی است. در مقابل ۳DP3 به‌ازای هر شیء تنها به تعداد تصویر کمی نیاز دارد و اگر قسمت‌هایی از شکل هر شیئی را تشخیص ندهد، گزارش عدم قطعیت ارائه می‌کند.»

سیستم ۳DP3 نموداری برای بازنمایی صحنه ایجاد می‌کند که در آن هر شیء یک نقطه است و خطوطی که این نقاط را به هم متصل می‌کند، نشان می‌دهند که کدام اشیا با هم در تماس هستند. این بازنمایی ۳DP3 را قادر می‌سازد که نحوه چیدمان اشیا را دقیق‌تر تخمین بزند. (رویکردهای یادگیری عمیق برای تخمین وضعیت شیء به تصاویر عمقی متکی هستند، اما این روش‌ها ساختار نموداری از تماس میان اشیا تولید نمی‌کنند و بنابراین، تخمین‌های آن‌ها دقت کمتری دارد.)

دارویار؛ طرحی در راستای هوشمندسازی دارو در کشور

عملکرد بهتر از مدل‌های پایه

پژوهشگران، ۳DP3 را با سیستم‌های یادگیری عمیق مقایسه کردند؛ به این صورت که تمام این سیستم‌ها باید محل قرارگیری اشیای سه‌بعدی را در صحنه تخمین می‌زدند.

تقریباً در تمام موارد، تخمین‌های ۳DP3 از مدل‌های دیگر دقیق‌تر بودند و زمانی که قسمتی از یک شیء با شیء دیگری پوشیده می‌شد نیز عملکرد بهتری داشت و این‌ها در حالی بود که ۳DP3 برای آموزش فقط به پنج تصویر نیاز دارد، در حالی که مدل‌های پایه‌ای که با آن‌ها مقایسه شده بود، برای آموزش به هزاران تصویر نیاز داشتند.

هنگامی که ۳DP3 همراه مدل دیگری استفاده شد، توانست دقت خود را بهبود ببخشد. به‌عنوان مثال، ممکن است که یک مدل یادگیری عمیق پیش‌بینی کند که کاسه روی میز شناور است، اما چون ۳DP3 مجهز به دانشِ روابط تماس است و می‌داند که این امر نامحتمل است، می‌تواند با تراز کردن کاسه بر روی میز، پیش‌بینی مدل یادگیری عمیق را اصلاح کند.

منسینقکا، نویسنده ارشد مقاله می‌گوید: «برای من تعجب‌آور بود که گاهی، خطاهای یادگیری عمیق تا چه اندازه می‌تواند بزرگ باشند و بازنمایی‌هایی را از صحنه بیافریند که اشیای موجود در آن، هیچ نسبتی با درک انسان ندارند. همچنین برایم شگفت‌آور بود که در برنامه احتمالاتی علّی ما، برای شناسایی و رفع این خطاها تنها مقدار اندکی استنتاج مبتنی بر مدل کافی بود. البته هنوز مسیر زیادی باید طی شود، تا این روش، برای سیستم‌های بینایی بلادرنگ و چالشی به‌قدر کافی سریع و قدرتمند شود؛ اما برای نخستین بار شاهد هستیم که برنامه‌نویسی احتمالاتی و مدل‌های علّی ساختمند در معیارهای دشوار بینایی سه‌بعدی، قدرتمندتر از یادگیری عمیق هستند.»

پژوهشگران قصد دارند که در آینده، این سیستم را به‌نحوی ارتقا بدهند که بتواند از روی یک تصویر یا یک فریم از فیلم، درباره شیئی بیاموزد و سپس قادر باشد که آن شیء را در صحنه‌های مختلف، به دقت و سرعت تشخیص دهد. همچنین می‌خواهند استفاده از ۳DP3 را برای گردآوری داده آموزشی برای یک شبکه عصبی نیز بررسی کنند. معمولاً برای انسان‌ها دشوار است که به‌صورت دستی تصاویر را برحسب هندسه سه‌بعدی آن‌ها برچسب بزنند؛ بنابراین، ۳DP3 را می‌توان برای تولید برچسب‌های پیچیده‌تر تصاویر، به کار برد.

مت تورک، مدیر برنامه DARPA که در تأمین مالی این پژوهش نقش داشت، می‌گوید: «سیستم ۳DP3 مدل‌سازی گرافیکی وفاداری کم را با استدلال عقل سلیم ترکیب می‌کند، تا خطاهای بزرگی را که شبکه‌های عصبی یادگیری عمیق در تفسیر صحنه‌ مرتکب می‌شوند، اصلاح کند. این نوع رویکرد می‌تواند کاربرد گسترده‌ای داشته باشد، زیرا شیوه‌های مهم شکست یادگیری عمیق را بررسی می‌کند. همچنین این دستاورد پژوهشگران MIT نشان می‌دهد که می‌توان فناوری برنامه‌نویسی احتمالاتی را که قبلاً تحت‌نظر برنامه برنامه‌نویسی احتمالاتی DARPA برای پیشرفت یادگیری ماشین توسعه یافته بود، برای حل مشکلات اصلی هوش مصنوعی عقل سلیم در برنامه فعلیِ عقل سلیم ماشین DARPA، به کار برد.»

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

این مطلب چه میزان برای شما مفید بوده است؟
[کل: ۲ میانگین: ۴.۵]

ساخت یک سیستم توصیه ‌گر برای پیشنهاد فیلم به کمک گراف دانش و Neo4j

مقاله قبلی

هوش مصنوعی در بورس و کنترل ریسک در بازار سرمایه

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد.