رویکرد عقل سلیم ؛ تماشای جهان از دریچه چشم انسان

تیم تحریریه
۳۰ بهمن ۱۴۰۰

زمان مطالعه: 5 دقیقه

رویکرد جدید «عقل سلیم» به بینایی کامپیوتر، هوش مصنوعی را قادر می‌سازد که نسبت به دیگر سیستم‌ها، صحنه‌‌ها را با دقت بیشتری تفسیر کند.

سیستم‌های بینایی ماشین، گاهی از مواقع صحنه‌ها را دقیقاً بر خلاف عقل سلیم استتناج می‌کنند. به‌عنوان مثال، اگر رباتی در حال پردازش تصویر میز شام باشد، ممکن است کاسه‌ای را که کاملاً برای انسان قابل‌مشاهده است، نادیده بگیرد یا این طور تخمین بزند که یک بشقاب روی میز شناور است یا به اشتباه، چنگال را به جای اینکه کنار کاسه ببیند، درون آن تصور کند.

حال اگر چنین سیستم بینایی‌ای را در یک اتومبیل خودران به کار ببریم، خطر بسیار بیشتر می‌شود؛ مثلاً چنین سیستمی نمی‌تواند خودروهای اورژانس یا عابرین پیاده را تشخیص دهد.

محققان دانشگاه MIT برای غلبه بر این خطاها، چارچوبی ایجاد کرده‌اند که به ماشین‌ها کمک می‌کند، تا جهان را بیشتر شبیه به انسان‌ها ببینند. این سیستم هوش مصنوعی جدید که برای تجزیه و تحلیل صحنه‌ها طراحی شده است، درک اشیای واقعی را با استفاده از تعداد کمی تصویر، می‌آموزد و صحنه‌ها را با استفاده از همین اشیای آموزش‌ داده‌شده، درک می‌کند.

این پژوهشگران، چارچوب کار خود را با استفاده از برنامه‌نویسی احتمالاتی ایجاد کرده‌اند؛ برنامه‌نویسی احتمالاتی رویکردی به هوش مصنوعی است که سیستم را قادر می‌سازد اشیای شناسایی‌شده را با مراجعه به داده ورودی، بررسی کند. به‌عنوان مثال، تصاویر ضبط‌شده از یک دوربین را با صحنه‌هایی که بر اساس آن‌ها آموزش دیده است، تطبیق می‌دهد. در صورت عدم مطابقت، با استفاده از روش استنتاج احتمالی، علت عدم تطابق‌ را استنتاج می‌کند. مثلاً دلیل آن می‌تواند به‌خاطر وجود نویز باشد یا اینکه خطاهایی در تفسیر صحنه پیش آمده‌اند که باید در پردازش‌های بعدی اصلاح شوند.

این شکل نشان می‌دهد که 3DP3 (ردیف پایین) با استفاده از تصاویر ورودی (ردیف بالا) محل اشیا را با دقت بیشتری نسبت به سیستم‌های یادگیری عمیق (ردیف وسط) استنتاج می‌کند.

رویکرد عقل سلیم که همچون محافظی عمل می‌کند، به سیستم‌ها امکان می‌دهد، تا بسیاری از خطاهایی که عملکرد رویکردهای «یادگیری عمیق» به‌کاررفته در بینایی کامپیوتر را مختل می‌کنند، شناسایی و تصحیح کنند. همچنین برنامه‌نویسی احتمالاتی، وجود تماس میان اشیا را استنتاج می‌کند و با استفاده از روش استدلالی عقل سلیم، مکان اشیا را دقیق‌تر استنتاج می‌کند.

نیشاد گوتوسکار، نویسنده اصلی این مقاله و دانشجوی دکتری مهندسی برق و علوم کامپیوتر (EECS) می‌گوید: «اگر انسان از تماس بین دو شیء آگاه نبود، احتمالاً نتیجه می‌گرفت که دو شیء روی هم شناور هستند؛ اما برای انسان واضح است که این امر از نظر فیزیکی غیرواقعی است و مثلاً اگر شیئی روی میز قرار دارد، به احتمال قوی با سطح آن در تماس است. چون نظام استدلالی ما مجهز به این دانش است، می‌تواند به شکل دقیق‌تری مکان اشیا را استنتاج کند. این واقعیت، نگرش کلیدی پژوهش حاضر است.»

این پژوهش علاوه بر افزایش امنیت اتومبیل‌های خودران، می‌تواند عملکرد سیستم‌های ادراک کامپیوتری را افزایش دهد. این سیستم‌ها که باید چیدمان پیچیده اشیا را تفسیر کنند، در ربات‌هایی به کار می‌روند که به‌عنوان مثال باید یک آشپزخانه به‌هم‌ریخته را نظافت کنند.

همکاران گوتوسکار در این پژوهش، گروهی از دانشجویان، فارغ‌التحصیلان و استادان دانشگاه MIT هستند. این پژوهش در ماه دسامبر در همایش «سیستم‌های پردازش اطلاعات عصبی» ارائه می‌شود.

فهرست مقاله پنهان

1 یادگار گذشته

2 یادگیری شکل‌ها و صحنه‌ها

3 عملکرد بهتر از مدل‌های پایه

یادگار گذشته

پژوهشگران برای توسعه این سیستم که «ادراک سه‌بعدی صحنه از طریق برنامه‌نویسی احتمالاتی (3DP3)» نام دارد، از مفهومی متعلق به اولین روزهای پژوهش در عرصه هوش مصنوعی استفاده کردند: بینایی کامپیوتر را می‌توان «برعکس» گرافیک کامپیوتری دانست.

تمرکز گرافیک کامپیوتری بر تولید تصاویر بر اساس بازنمایی یک صحنه است، بنابراین بینایی کامپیوتر را می‌توان برعکس این فرایند دانست. گوتوسکار و همکاران او با ترکیب این روش در چارچوبی که با استفاده از برنامه‌نویسی احتمالاتی ساخته شده است، این روش را قابل یادگیری‌تر و مقیاس‌پذیرتر ساختند.

کاسومانو-تاونر، فارغ‌التحصیل دکتری EECS بیان می‌کند: «برنامه‌نویسی احتمالاتی به ما امکان می‌دهد که دانش خود درباره بعضی جنبه‌های جهان را به‌گونه‌ای ثبت کنیم که کامپیوتر بتواند آن را تفسیر کند؛ اما همزمان این امکان را برای ما فراهم می‌کند که آنچه را نمی‌دانیم و از آن مطمئن نیستیم، بیان کنیم. بنابراین، این سیستم می‌تواند به‌طور خودکار از روی داده آموزش ببیند و همچنین به‌صورت خودکار، عدم اجرای قواعد را شناسایی کند.»

در این موارد، دانش قبلی درباره صحنه‌های سه‌بعدی برای مدل کدنویسی می‌شود. برای مثال 3DP3 می‌داند که صحنه‌ها از اشیای مختلفی تشکیل شده‌اند و این اشیا اکثراً روی یکدیگر قرار دارند، اما همیشه هم چنین روابط ساده‌ای ندارند. این دانش، مدل را قادر می‌سازد که درباره صحنه با عقل سلیم‌تری، استدلال کند.

یادگیری شکل‌ها و صحنه‌ها

برای تحلیل یک صحنه، 3DP3 ابتدا درباره اشیای درون آن صحنه می‌آموزد. بعد از نشان‌ دادن تنها 5 تصویر از یک شیء که هر کدام از زاویه‌ای متفاوت گرفته شده است، 3DP3 شکل شیء را می‌آموزد و حجمی را که در فضا اشغال می‌کند، تخمین می‌زند.

گوتوسکار می‌گوید: «اگر شیئی را از 5 زاویه مختلف به انسان نشان دهیم، می‌تواند تصور نسبتاً کاملی از آن شیء به دست بیاورد. رنگ و شکل آن را درک می‌کند و آن شیء را در صحنه‌های مختلف، تشخیص می‌دهد. این تعداد داده به نسبت رویکردهای یادگیری عمیق بسیار کم است. به‌عنوان مثال، سیستم عصبی تشخیص اشیا Dense Fusion، برای هر نوع شیء، نیازمند هزاران مدل آموزشی است. در مقابل 3DP3 به‌ازای هر شیء تنها به تعداد تصویر کمی نیاز دارد و اگر قسمت‌هایی از شکل هر شیئی را تشخیص ندهد، گزارش عدم قطعیت ارائه می‌کند.»

سیستم 3DP3 نموداری برای بازنمایی صحنه ایجاد می‌کند که در آن هر شیء یک نقطه است و خطوطی که این نقاط را به هم متصل می‌کند، نشان می‌دهند که کدام اشیا با هم در تماس هستند. این بازنمایی 3DP3 را قادر می‌سازد که نحوه چیدمان اشیا را دقیق‌تر تخمین بزند. (رویکردهای یادگیری عمیق برای تخمین وضعیت شیء به تصاویر عمقی متکی هستند، اما این روش‌ها ساختار نموداری از تماس میان اشیا تولید نمی‌کنند و بنابراین، تخمین‌های آن‌ها دقت کمتری دارد.)

عملکرد بهتر از مدل‌های پایه

پژوهشگران، 3DP3 را با سیستم‌های یادگیری عمیق مقایسه کردند؛ به این صورت که تمام این سیستم‌ها باید محل قرارگیری اشیای سه‌بعدی را در صحنه تخمین می‌زدند.

تقریباً در تمام موارد، تخمین‌های 3DP3 از مدل‌های دیگر دقیق‌تر بودند و زمانی که قسمتی از یک شیء با شیء دیگری پوشیده می‌شد نیز عملکرد بهتری داشت و این‌ها در حالی بود که 3DP3 برای آموزش فقط به پنج تصویر نیاز دارد، در حالی که مدل‌های پایه‌ای که با آن‌ها مقایسه شده بود، برای آموزش به هزاران تصویر نیاز داشتند.

هنگامی که 3DP3 همراه مدل دیگری استفاده شد، توانست دقت خود را بهبود ببخشد. به‌عنوان مثال، ممکن است که یک مدل یادگیری عمیق پیش‌بینی کند که کاسه روی میز شناور است، اما چون 3DP3 مجهز به دانشِ روابط تماس است و می‌داند که این امر نامحتمل است، می‌تواند با تراز کردن کاسه بر روی میز، پیش‌بینی مدل یادگیری عمیق را اصلاح کند.

منسینقکا، نویسنده ارشد مقاله می‌گوید: «برای من تعجب‌آور بود که گاهی، خطاهای یادگیری عمیق تا چه اندازه می‌تواند بزرگ باشند و بازنمایی‌هایی را از صحنه بیافریند که اشیای موجود در آن، هیچ نسبتی با درک انسان ندارند. همچنین برایم شگفت‌آور بود که در برنامه احتمالاتی علّی ما، برای شناسایی و رفع این خطاها تنها مقدار اندکی استنتاج مبتنی بر مدل کافی بود. البته هنوز مسیر زیادی باید طی شود، تا این روش، برای سیستم‌های بینایی بلادرنگ و چالشی به‌قدر کافی سریع و قدرتمند شود؛ اما برای نخستین بار شاهد هستیم که برنامه‌نویسی احتمالاتی و مدل‌های علّی ساختمند در معیارهای دشوار بینایی سه‌بعدی، قدرتمندتر از یادگیری عمیق هستند.»

پژوهشگران قصد دارند که در آینده، این سیستم را به‌نحوی ارتقا بدهند که بتواند از روی یک تصویر یا یک فریم از فیلم، درباره شیئی بیاموزد و سپس قادر باشد که آن شیء را در صحنه‌های مختلف، به دقت و سرعت تشخیص دهد. همچنین می‌خواهند استفاده از 3DP3 را برای گردآوری داده آموزشی برای یک شبکه عصبی نیز بررسی کنند. معمولاً برای انسان‌ها دشوار است که به‌صورت دستی تصاویر را برحسب هندسه سه‌بعدی آن‌ها برچسب بزنند؛ بنابراین، 3DP3 را می‌توان برای تولید برچسب‌های پیچیده‌تر تصاویر، به کار برد.

مت تورک، مدیر برنامه DARPA که در تأمین مالی این پژوهش نقش داشت، می‌گوید: «سیستم 3DP3 مدل‌سازی گرافیکی وفاداری کم را با استدلال عقل سلیم ترکیب می‌کند، تا خطاهای بزرگی را که شبکه‌های عصبی یادگیری عمیق در تفسیر صحنه‌ مرتکب می‌شوند، اصلاح کند. این نوع رویکرد می‌تواند کاربرد گسترده‌ای داشته باشد، زیرا شیوه‌های مهم شکست یادگیری عمیق را بررسی می‌کند. همچنین این دستاورد پژوهشگران MIT نشان می‌دهد که می‌توان فناوری برنامه‌نویسی احتمالاتی را که قبلاً تحت‌نظر برنامه برنامه‌نویسی احتمالاتی DARPA برای پیشرفت یادگیری ماشین توسعه یافته بود، برای حل مشکلات اصلی هوش مصنوعی عقل سلیم در برنامه فعلیِ عقل سلیم ماشین DARPA، به کار برد.»

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=24201

رویکرد عقل سلیم ؛ تماشای جهان از دریچه چشم انسان

یادگار گذشته

یادگیری شکل‌ها و صحنه‌ها

عملکرد بهتر از مدل‌های پایه

اژدهای زرد بر تخت پادشاهی هوش مصنوعی تکیه زد

چرا ChatGPT در گفتن یک زمان ساده شکست می‌خورد؟

نشت اطلاعات کاربران OpenAI در فضای مجازی

Slush 2025، تجربه‌ای هم‌تراز با یک کلاس درس فشرده

۱۲ کاربرد هوش مصنوعی برای خبرنگاران

اژدهای زرد بر تخت پادشاهی هوش مصنوعی تکیه زد

اگر OpenAI نباشد چه می‌شود؟

هوش بالینی

مهندسی رشد کسب‌وکار با هوش مصنوعی

راهبردهای عملی برای جامعه هوش مصنوعی ایران

استراتژی ایران در عصر هوش مصنوعی از نگاه تصمیم‌گیران

چالش ها و فرصت‌های پیاده‌سازی هوش مصنوعی در سازمان‌ها

اژدهای زرد بر تخت پادشاهی هوش مصنوعی تکیه زد

چرا ChatGPT در گفتن یک زمان ساده شکست می‌خورد؟

نشت اطلاعات کاربران OpenAI در فضای مجازی

Slush 2025، تجربه‌ای هم‌تراز با یک کلاس درس فشرده

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

۱۲ کاربرد هوش مصنوعی برای خبرنگاران

اژدهای زرد بر تخت پادشاهی هوش مصنوعی تکیه زد

چرا ChatGPT در گفتن یک زمان ساده شکست می‌خورد؟

نشت اطلاعات کاربران OpenAI در فضای مجازی

اگر OpenAI نباشد چه می‌شود؟

یادگار گذشته

یادگیری شکل‌ها و صحنه‌ها

عملکرد بهتر از مدل‌های پایه

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید