مدل یادگیری ماشین رباتها را قادر میسازد که روابط میان اشیا را بهشیوهای انسانی، درک کنند
انسانها وقتی به صحنهای نگاه میکنند، روابط میان اشیا را میبینند. مثلاً روی میز و در سمت چپ تلفنی که روبهروی صفحه کامپیوتر است، لپتاپی قرار دارد.
بسیاری از مدلهای یادگیری عمیق، نمیتوانند جهان را به این شکل ببینند، زیرا درکی از روابط میان اشیا ندارند. بدون دانستن این روابط، رباتی که بهمنظور کمک در آشپزخانه طراحی شده است، در پیروی از دستوری مانند «کاردی که سمت چپ اجاق گازه رو بردار و بذارش روی تخته گوشت» به مشکل بر میخورد.
محققان دانشگاه MIT مدلی را برای حل این مشکل توسعه دادهاند که روابط زیربنایی میان اشیای یک صحنه را درک میکند. این مدل، روابط میان اشیا را بهطور مجزا بازنمایی و سپس این بازنماییها را برای توصیف کلی صحنه، ترکیب میکند. این امر، مدل را قادر میسازد حتی زمانی که صحنه شامل چندین شیء با روابط مختلف است، با استفاده از توصیفات متنی تصاویر واضحتری تولید کند.
این مدل را میتوان در موقعیتهایی به کار برد که در آن، رباتهای صنعتی باید وظایف پیچیده و چندمرحلهای مانند چیدن اجناس در انبار یا مونتاژ وسایل را انجام دهند. همچنین، مدل فعلی، این رشته را یک قدم به تولید ماشینهایی که میتوانند مانند انسانها از محیط پیرامونی خود بیاموزند و با آن تعامل کنند، نزدیکتر میکند.
ییلون دو، دانشجوی دکتری آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و یکی از نویسندگان اصلی مقاله میگوید: «وقتی انسان به میزی نگاه میکند، نمیتواند بگوید که شیئی در موقعیت XYZ قرار دارد. مغز او اینگونه عمل نمیکند. ذهن انسان دقیقاً بر اساس ارتباط میان اشیا، صحنه را ادراک میکند. بهنظر ما با استفاده از سیستمی که روابط میان اشیا را درک میکند، میتوان محیط را بهنحوی مؤثرتر دستکاری کرد و تغییر داد.»
دو، این مقاله را با همکاری شاونگ لی، دانشجوی دکتری CSAIL؛ نان لیو، دانشجوی ارشد دانشگاه ایلینوی؛ جاشوآ تنباوم استاد علومشناختی و محاسبات گروه علوم مغزی و شناختی و عضو CSAIL؛ آنتونیو تورالبا استاد مهندسی الکترونیک و علوم کامپیوتری و عضو CSAIL، نوشت. این پژوهش در همایش سیستمهای پردازش اطلاعات عصبی در ماه دسامبر ارائه میشود.
هر نوبت، یک رابطه
چارچوبی که پژوهشگران توسعه دادهاند، میتواند بر اساس توضیح متنی از اشیا و رابطه میان آنها، مثلاً «یک میز چوبی در سمت چپ چارپایه آبی. یک کاناپه قرمز در سمت راست چارپایه آبی»، تصویری از یک صحنه تولید کند.
این سیستم جملات را به دو بخش کوچکتر تقسیم میکند که هر کدام یک رابطه را توصیف میکنند (میز چوبی در سمت چپ چارپایه آبی) و (کاناپه قرمز در سمت راست چارپایه آبی)؛ سپس هر بخش را جداگانه، مدلسازی میکند. بعد هر کدام از بخشها از طریق فرایند بهینهسازیای که تصویر صحنه را تولید میکند، ترکیب میشوند.
محققان در توصیف صحنه، از یک روش یادگیری ماشین به نام مدلهای مبتنی بر انرژی، برای بازنمایی روابط مجزای میان اشیا استفاده کردند. بنابراین، محققان میتوانند از یک مدل انرژیمحور برای کدگذاری توصیف هر رابطه استفاده کنند. سپس توصیفات مذکور بهنحوی با یکدیگر ادغام میشوند، تا امکان استنباط تمام روابط میان اشیا پدید آید.
به گفته لی، سیستم با شکستن جملات به بخشهای کوچکتر در هر رابطه، میتواند آنها را به روشهای مختلفی بازترکیب کند و اینگونه بهتر میتواند با توصیفات صحنهای که قبلاً ندیده است، سازگار شود.
دو میگوید: «سیستمهای دیگر تمام روابط را بهصورت یک کل دریافت میکنند و به یکباره، تصویری از توصیفات تولید میکنند. اما وقتی که توصیفات شامل روابط متعددی میشوند، این قبیل رویکردها با شکست مواجه میشوند؛ زیرا این مدلها نمیتوانند به یکباره برای تولید تصاویری که شامل روابط زیادی هستند، سازگار شوند. با این حال، وقتی این مدلهای جدا و کوچکتر را به هم متصل میکنیم، میتوانیم تعداد بیشتری از روابط را مدلسازی و با ترکیبات جدید، سازگار کنیم.»
سیستم بهصورت برعکس هم کار میکند؛ بهعبارت دیگر، میتواند از روی یک تصویر، توصیفات متنیای را که منطبق بر روابط میان اشیای صحنه هستند، پیدا کند. بهعلاوه این مدل میتواند از طریق تغییر چیدمان اشیای صحنه، تصویر را ویرایش کند، تا بر توصیف جدیدی، منطبق شود.
ادراک صحنههای پیچیده
محققان مدل خود را با دیگر روشهای یادگیری ماشین مقایسه کردند. به این مدلها توصیف متنی داده شد و باید طبق آن متن، تصاویری را تولید میکردند که اشیا و روابط میان آنها را نشان دهد. در هر نمونه، مدل پژوهشگران عملکردی بهتر از عملکرد پایه داشت.
همچنین از افرادی خواسته شد که تطبیق تصاویر تولیدی را با صحنه توصیفشده، ارزیابی کنند. در بیشتر مثالهای پیچیده که توصیفات شامل 3 رابطه میشدند، 91 درصد از شرکتکنندگان نتیجه گرفتند که مدل جدید، عملکرد بهتری دارد.
دو میگوید: «یکی از یافتههای جالب ما این بود که با استفاده از این مدل، میتوانیم از جملاتی استفاده کنیم که شامل دو، سه و حتی چهار رابطه هستند و همچنان تصاویر تولیدی آن منطبق بر این توصیفات هستند؛ در حالی که دیگر روشها در این کار با شکست مواجه میشوند.»
همچنین، پژوهشگران تصاویر و توصیفات متنی مختلفی از صحنههایی را به مدل نشان دادند که پیش از آن ندیده بود. نتایج نشان داد که مدل میتواند با موفقیت، توصیفی که بهترین انطباق را با روابط میان اشیای موجود در تصویر دارد، شناسایی کند. زمانی که پژوهشگران دو توصیف متفاوت از یک صحنه را به سیستم ارائه دادند، مدل متوجه شد که توصیفها مربوط به صحنهای یکسان هستند.
پژوهشگران تحتتأثیر قدرت مدل خود قرار گرفتند؛ بهخصوص زمانی که مدل با توصیفاتی کار میکرد که از قبل با آنها مواجه نشده بود.
لی میگوید: «این دستاورد بسیار امیدوارکننده است، زیرا بهنحوه کارکرد انسانها نزدیکتر است. انسانها ممکن است فقط چندین نمونه را ببینند، اما میتوانند از همان نمونههای اندک، اطلاعات مفیدی استخراج کنند و آنها را برای خلق ترکیبات نامتناهی، ترکیب کنند. مدل ما هم دارای همین ویژگی است که به آن امکان میدهد از دادههای کمتری بیاموزد، اما آن را به صحنهها و تصاویر تولیدی پیچیدهتر تعمیم دهد.»
با اینکه نتایج اولیه، امیدوارکننده هستند، اما محققان میخواهند نحوه عملکرد مدل خود را بر تصاویر دنیای واقعی که پیچیدهتر هستند و پسزمینه آنها شلوغتر است و اشیا جلوی یکدیگر را گرفتهاند، ببینند.
آنها همچنین علاقهمندند که در نهایت از مدل خود در سیستمهای رباتیک استفاده کنند، تا ربات بتواند روابط میان اشیا را از روی ویدئو استنباط کند و این دانش را برای جابهجا کردن اشیا در جهان واقعی، به کار ببرد.
جوزف سیویک، پژوهشگر برجسته مؤسسه انفورماتیک، رباتیک و سایبرنتیک چک در دانشگاه فنی چک که در این پژوهش نقشی نداشت بیان میکند: «یکی از مشکلات کلیدی حلنشده در بینایی کامپیوتر، توسعه بازنماییهای بصری است که بتواند عملکرد خوبی در رویارویی با ماهیت ترکیبیِ جهان پیرامونی ما داشته باشد. این مقاله با ارائه مدلی مبتنی بر انرژی که آشکارا روابط چندگانه میان اشیای موجود در تصاویر را مدلسازی میکند، در حل این مشکل به پیشرفت قابلتوجهی نائل شده است. نتایج بسیار شگفتانگیزی به دست آمده است.»
انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید