
یادگیری خودجوش و هوشمند رباتها از محیط
گروه هوش مصنوعی متا دستاورد جدید خود، GenAug را معرفی کرد. سیستم جدیدی که از مدلهای TextToImage استفاده میکند، تا رباتها خودجوش و هوشمندانه از محیط اطراف یاد بگیرند و بتوانند با هرآنچه در محیط هست کار کنند. در این سیستم رباتها میتوانند یافتهها و دلیل رفتارشان از یک صحنه را با پیچیدگیهای متفاوت به هم انتقال دهند.
تکنیکهای یادگیری ماشینی در رباتها توانایی تعمیم در طیف گستردهای از وظایف، تنظیمات و اشیاء را دارند. متأسفانه، این استراتژیها مستلزم انتقال مجموعه دادههای گسترده و متنوعی هستند که به دست آوردن آنها در زمینههای رباتیک عملی دشوار و پرهزینه است. تعمیمپذیری در یادگیری رباتیک مستلزم دسترسی به اطلاعات قبلی یا خارج از محیط در نزدیکی ربات است. در همین حال افزایش دادهها ابزار مفیدی برای افزایش تعمیم مدل هستند.

بیشتر روشها در فضای بصری سطح پایین عمل میکنند و دادهها را به روشهایی مانند لرزش رنگ، تاری گاوسی و برشدار تغییر میدهند. با اینحال، آنها هنوز قادر به پرداختن به تمایزات معناییِ قابلتوجه در تصویر، مانند عناصر منحرفکننده، پسزمینههای مختلف و یا ظاهر اشیاء گوناگون نیستند.
GenAug یک چارچوب تقویت دادههای معنایی است که توسط دانشگاه واشنگتن و گروه هوش مصنوعی متا ایجادشده که از مدلهای «تولید متن به تصویرِ» ازپیشآموزشدیده برای تسهیل یادگیری مبتنی بر تقلید در رباتهای کنشگر استفاده میکند. مدلهای مولدِ ازپیشآموزشدیده به مجموعه دادههای بسیار بزرگتر و متنوعتری نسبت به دادههای خود ربات دسترسی دارند. این پژوهش از این مدلهای مولد برای تکمیل دادهها در آموزش روباتهای واقعی در جهان واقعی استفاده میکند.
این پژوهش مبتنی بر این باور شهودی است که علیرغم تفاوتها در صحنه، پسزمینه و ظاهر آیتم، روشهای انجام «یک کار» در «یک محیط» بهطورکلی باید به «یک کار» در «موقعیتهای مختلف» قابلانتقال باشند.
یک مدل مولد میتواند موقعیتهای بصری بسیار متفاوتی را ایجاد کند، با پسزمینهها و آیتمهای مختلفی که تحت آنها، رفتارهای یکسان همچنان معتبر خواهند بود. همزمان، مقدار محدودی از تجربههای قبلی ربات، به ایجاد رفتار موردنیاز کمک میکند. همچنین، این مدلهای مولد بر روی دادههای واقعی نیز آموزش داده میشوند؛ بنابراین مناظر ایجادشده، واقعی به نظر میرسند و متفاوت هستند.

با انجام اینکار، مقدار زیادی محتوا تولید میشود که ممکن است، آسانتر و مقرونبهصرفهتر از دموهای محدود قبلی باشند. این مقدار محتوا به یک عامل یادگیری، امکان دسترسی به قابلیتهای بسیار متنوعتری نسبت به «دادههای نمایشی صرفاً روی ربات» را میدهد.
با توجه به مجموعه دادههایی از نمونه تصویرهای ارائهشده در یک سیستم روباتی واقعی GenAug میتواند تصاویر RGBD «افزودهشده» را برای محیطهای کاملاً جدید و واقعگرایانه تولید کند، که واقعیت بصری و پیچیدگی سناریوهایی را که یک ربات ممکن است در دنیای واقعی تجربه کند را نشان میدهد.
بهطور خاص، برای روباتهایی که کارهای گوناگون رومیزی انجام میدهند، GenAug از اعلانهای زبانی، همراه با یک مدل تولیدی برای تغییر بافتها و شکلهای آیتمها و افزودن عناصر حواسپرتی جدید و صحنههای پسزمینهای که از نظر فیزیکی با صحنه اصلی منسجم هستند، استفاده میکند.
پژوهشگران نشان میدهند که در این روش با قابلیتهای تعمیم روشهای یادگیری تقلیدی، دادههای معنایی تقویتشده بسیار بهبود مییابند، حتی اگر این مجموعه فقط شامل 10 نسخه نمایشی در دنیای واقعی باشد که در یک مکان ساده و منفرد جمعآوری شدهاند.
بر اساس یافتهها، GenAug میتواند آموزش ربات را تا 40 درصد در مقایسه با روشهای سنتی افزایش دهد و به ربات اجازه میدهد در مکانهای گوناگون و با وسایلی که قبلاً هرگز ندیده است، خودبهخود آموزش ببیند.