مدل یادگیری ماشین ربات‌ها را قادر می‌سازد که روابط میان اشیا را به‌شیوه‌ای انسانی، درک کنند

تیم تحریریه
۱۴ اسفند ۱۴۰۰

زمان مطالعه: 5 دقیقه

انسان‌ها وقتی به صحنه‌ای نگاه می‌کنند، روابط میان اشیا را می‌بینند. مثلاً روی میز و در سمت چپ تلفنی که روبه‌روی صفحه کامپیوتر است، لپ‌تاپی قرار دارد.

بسیاری از مدل‌های یادگیری عمیق، نمی‌توانند جهان را به این شکل ببینند، زیرا درکی از روابط میان اشیا ندارند. بدون دانستن این روابط، رباتی که به‌منظور کمک در آشپزخانه طراحی شده است، در پیروی از دستوری مانند «کاردی که سمت چپ اجاق گازه رو بردار و بذارش روی تخته گوشت» به مشکل بر می‌خورد.

محققان دانشگاه MIT مدلی را برای حل این مشکل توسعه داده‌اند که روابط زیربنایی میان اشیای یک صحنه را درک می‌کند. این مدل، روابط میان اشیا را به‌طور مجزا بازنمایی و سپس این بازنمایی‌ها را برای توصیف کلی صحنه، ترکیب می‌کند. این امر، مدل را قادر می‌سازد حتی زمانی که صحنه شامل چندین شیء با روابط مختلف است، با استفاده از توصیفات متنی تصاویر واضح‌تری تولید کند.

این مدل را می‌توان در موقعیت‌هایی به کار برد که در آن، ربات‌های صنعتی باید وظایف پیچیده و چندمرحله‌ای مانند چیدن اجناس در انبار یا مونتاژ وسایل را انجام دهند. همچنین، مدل فعلی، این رشته را یک قدم به تولید ماشین‌هایی که می‌توانند مانند انسان‌ها از محیط پیرامونی خود بیاموزند و با آن تعامل کنند، نزدیک‌تر می‌کند.

ییلون دو، دانشجوی دکتری آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و یکی از نویسندگان اصلی مقاله می‌گوید: «وقتی انسان به میزی نگاه می‌کند، نمی‌تواند بگوید که شیئی در موقعیت XYZ قرار دارد. مغز او این‌گونه عمل نمی‌کند. ذهن انسان دقیقاً بر اساس ارتباط میان اشیا، صحنه را ادراک می‌کند. به‌نظر ما با استفاده از سیستمی که روابط میان اشیا را درک می‌کند، می‌توان محیط را به‌نحوی مؤثرتر دستکاری کرد و تغییر داد.»

دو، این مقاله را با همکاری شاونگ لی، دانشجوی دکتری CSAIL؛ نان لیو، دانشجوی ارشد دانشگاه ایلینوی؛ جاشوآ تنباوم استاد علوم‌شناختی و محاسبات گروه علوم مغزی و شناختی و عضو CSAIL؛ آنتونیو تورالبا استاد مهندسی الکترونیک و علوم کامپیوتری و عضو CSAIL، نوشت. این پژوهش در همایش سیستم‌های پردازش اطلاعات عصبی در ماه دسامبر ارائه می‌شود.

روابط میان اشیا — پژوهشگران MIT یک مدل یادگیری ماشین را توسعه داده‌اند که می‌تواند ارتباط زیربنایی میان اشیای صحنه را درک کند و از روی توصیفات متنی، تصاویر واضحی از صحنه را ایجاد کند.

فهرست مقاله پنهان

1 هر نوبت، یک رابطه

2 ادراک صحنه‌های پیچیده

هر نوبت، یک رابطه

چارچوبی که پژوهشگران توسعه داده‌اند، می‌تواند بر اساس توضیح متنی از اشیا و رابطه میان آن‌ها، مثلاً «یک میز چوبی در سمت چپ چارپایه آبی. یک کاناپه قرمز در سمت راست چارپایه آبی»، تصویری از یک صحنه تولید کند.

چارچوبی که پژوهشگران ایجاد کرده‌اند، می‌تواند بر اساس توصیفات متنی از اشیا و روابط میان آن‌ها، تصویری به دست بدهد. در این شکل، تصویر نهایی پژوهشگران در سمت راست قرار دارد که به‌درستی از توصیف متنی پیروی کرده است.

این سیستم جملات را به دو بخش کوچک‌تر تقسیم می‌کند که هر کدام یک رابطه را توصیف می‌کنند (میز چوبی در سمت چپ چارپایه آبی) و (کاناپه قرمز در سمت راست چارپایه آبی)؛ سپس هر بخش را جداگانه، مدل‌سازی می‌کند. بعد هر کدام از بخش‌ها از طریق فرایند بهینه‌سازی‌ای که تصویر صحنه را تولید می‌کند، ترکیب می‌شوند.

محققان در توصیف صحنه، از یک روش یادگیری ماشین به نام مدل‌های مبتنی بر انرژی، برای بازنمایی روابط مجزای میان اشیا استفاده کردند. بنابراین، محققان می‌توانند از یک مدل انرژی‌محور برای کدگذاری توصیف هر رابطه استفاده کنند. سپس توصیفات مذکور به‌نحوی با یکدیگر ادغام می‌شوند، تا امکان استنباط تمام روابط میان اشیا پدید آید.

به گفته لی، سیستم با شکستن جملات به بخش‌های کوچک‌تر در هر رابطه، می‌تواند آن‌ها را به روش‌های مختلفی بازترکیب کند و این‌گونه بهتر می‌تواند با توصیفات صحنه‌ای که قبلاً ندیده است، سازگار شود.

دو می‌گوید: «سیستم‌های دیگر تمام روابط را به‌صورت یک کل دریافت می‌کنند و به یکباره، تصویری از توصیفات تولید می‌کنند. اما وقتی که توصیفات شامل روابط متعددی می‌شوند، این قبیل رویکردها با شکست مواجه می‌شوند؛ زیرا این مدل‌ها نمی‌توانند به یکباره برای تولید تصاویری که شامل روابط زیادی هستند، سازگار شوند. با این حال، وقتی این مدل‌های جدا و کوچک‌تر را به هم متصل می‌کنیم، می‌توانیم تعداد بیشتری از روابط را مدل‌سازی و با ترکیبات جدید، سازگار کنیم.»

سیستم به‌صورت برعکس هم کار می‌کند؛ به‌عبارت دیگر، می‌تواند از روی یک تصویر، توصیفات متنی‌ای را که منطبق بر روابط میان اشیای صحنه هستند، پیدا کند. به‌علاوه این مدل می‌تواند از طریق تغییر چیدمان اشیای صحنه، تصویر را ویرایش کند، تا بر توصیف جدیدی، منطبق شود.

ادراک صحنه‌های پیچیده

محققان مدل خود را با دیگر روش‌های یادگیری ماشین مقایسه کردند. به این مدل‌ها توصیف متنی داده شد و باید طبق آن متن، تصاویری را تولید می‌کردند که اشیا و روابط میان آن‌ها را نشان دهد. در هر نمونه، مدل پژوهشگران عملکردی بهتر از عملکرد پایه داشت.

همچنین از افرادی خواسته شد که تطبیق تصاویر تولیدی را با صحنه توصیف‌شده، ارزیابی کنند. در بیشتر مثال‌های پیچیده که توصیفات شامل 3 رابطه می‌شدند، 91 درصد از شرکت‌کنندگان نتیجه گرفتند که مدل جدید، عملکرد بهتری دارد.

توصیف روابط صحنه — در این شکل، تصویر نهایی پژوهشگران با برچسب «تصویر ما» مشخص شده است.

دو می‌گوید: «یکی از یافته‌های جالب ما این بود که با استفاده از این مدل، می‌توانیم از جملاتی استفاده کنیم که شامل دو، سه و حتی چهار رابطه هستند و همچنان تصاویر تولیدی آن منطبق بر این توصیفات هستند؛ در حالی که دیگر روش‌ها در این کار با شکست مواجه می‌شوند.»

همچنین، پژوهشگران تصاویر و توصیفات متنی مختلفی از صحنه‌هایی را به مدل نشان دادند که پیش از آن ندیده بود. نتایج نشان داد که مدل می‌تواند با موفقیت، توصیفی که بهترین انطباق را با روابط میان اشیای موجود در تصویر دارد، شناسایی کند. زمانی که پژوهشگران دو توصیف متفاوت از یک صحنه را به سیستم ارائه دادند، مدل متوجه شد که توصیف‌ها مربوط به صحنه‌ای یکسان هستند.

پژوهشگران تحت‌تأثیر قدرت مدل خود قرار گرفتند؛ به‌خصوص زمانی که مدل با توصیفاتی کار می‌کرد که از قبل با آن‌ها مواجه نشده بود.

لی می‌گوید: «این دستاورد بسیار امیدوارکننده است، زیرا به‌نحوه کارکرد انسان‌ها نزدیک‌تر است. انسان‌ها ممکن است فقط چندین نمونه را ببینند، اما می‌توانند از همان نمونه‌های اندک، اطلاعات مفیدی استخراج کنند و آن‌ها را برای خلق ترکیبات نامتناهی، ترکیب کنند. مدل ما هم دارای همین ویژگی است که به آن امکان می‌دهد از داده‌های کمتری بیاموزد، اما آن را به صحنه‌ها و تصاویر تولیدی پیچیده‌تر تعمیم دهد.»

با اینکه نتایج اولیه، امیدوارکننده هستند، اما محققان می‌خواهند نحوه عملکرد مدل خود را بر تصاویر دنیای واقعی که پیچیده‌تر هستند و پس‌زمینه آن‌ها شلوغ‌تر است و اشیا جلوی یکدیگر را گرفته‌اند، ببینند.

آن‌ها همچنین علاقه‌مندند که در نهایت از مدل خود در سیستم‌های رباتیک استفاده کنند، تا ربات بتواند روابط میان اشیا را از روی ویدئو استنباط کند و این دانش را برای جابه‌جا کردن اشیا در جهان واقعی، به کار ببرد.

جوزف سیویک، پژوهشگر برجسته مؤسسه انفورماتیک، رباتیک و سایبرنتیک چک در دانشگاه فنی چک که در این پژوهش نقشی نداشت بیان می‌کند: «یکی از مشکلات کلیدی حل‌نشده در بینایی کامپیوتر، توسعه بازنمایی‌های بصری است که بتواند عملکرد خوبی در رویارویی با ماهیت ترکیبیِ جهان پیرامونی ما داشته باشد. این مقاله با ارائه مدلی مبتنی بر انرژی که آشکارا روابط چندگانه میان اشیای موجود در تصاویر را مدل‌سازی می‌کند، در حل این مشکل به پیشرفت قابل‌توجهی نائل شده است. نتایج بسیار شگفت‌انگیزی به دست آمده است.»

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید