مدلهای هوش مصنوعی در بینایی کامپیوتری و رباتیک
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT یک تغییر ساده در طرح آموزش مدلهای دیفیوژن انجام دادهاند که به طور قابل توجهی انعطافپذیری کاهش نویز در توالیها را افزایش میدهد.
پیشبینی توکن بعدی
در حال حاضر، مدلهای توالی (sequence models) به دلیل قابلیتهایشان در تحلیل دادهها و پیشبینی اقدامات آینده، به شدت در حوزه هوش مصنوعی مورد توجه قرار گرفتهاند. به عنوان نمونه، ممکن است شما از مدلهای پیشبینی توکن بعدی مانند ChatGPT استفاده کرده باشید که هر کلمه (در واقع هر توکن) در یک توالی را پیشبینی میکند تا به این ترتیب سؤالات کاربران پاسخ دهد. همچنین مدلهای دیفیوژن مانند Sora وجود دارند که با استفاده از «کاهش نویز» تدریجی در یک توالی ویدیویی، کلمات را به تصاویری شگفتانگیز و واقعی تبدیل میکنند.
زمانی که این مدلها در زمینههایی مانند بینایی کامپیوتری و رباتیک به کار گرفته میشوند، با چالشهایی در عملکرد خود روبرو میشوند. مدلهای پیشبینی توکن بعدی قادرند توالیهایی با طولهای متفاوت تولید کنند، اما این تولیدات را بدون درک از وضعیتهای مطلوب در آینده انجام میدهند. به عنوان مثال، این مدلها نمیتوانند یک توالی را به گونهای هدایت کنند که به هدف خاصی در 10 توکن بعدی دست یابند، بنابراین به مکانیزمهای اضافی برای برنامهریزی درازمدت نیاز دارند.
از طرف دیگر، مدلهای دیفیوژن قادرند نمونهبرداری شرطی بر اساس آینده را انجام دهند، اما از توانایی تولید توالیهای با طول متغیر که مدلهای پیشبینی توکن دارند، برخوردار نیستند.
ترکیب مدلها
محققان CSAIL در تلاشاند تا نقاط قوت هر دو مدل را با هم ترکیب کنند، به همین دلیل یک روش آموزشی نوین برای مدلهای توالی به نام «Diffusion Forcing» طراحی کردهاند. این نام از «Teacher Forcing» الهامگرفته شده است که یک روش آموزشی رایج است و تولید یک توالی کامل را به مراحل کوچکتر و سادهتر برای تولید توکن بعدی تقسیم میکند. این فرآیند مشابه این است که یک معلم ماهر یک مفهوم پیچیده را به شیوهای سادهتر توضیح میدهد.
«Diffusion Forcing» روشی است که هدف آن ایجاد هماهنگی میان مدلهای دیفیوژن و تکنیک آموزش Teacher Forcing میباشد. هر دو این روشها از تکنیکهای آموزشی بهره میبرند که شامل پیشبینی توکنهای ماسک شده (توکنهایی که حاوی نویز هستند) بر اساس توکنهای غیرماسک شده میشود. در مدلهای دیفیوژن، این فرآیند به تدریج با افزودن نویز به دادهها انجام میگیرد که میتوان آن را نوعی ماسکگذاری جزئی تلقی کرد.
با بهرهگیری از Diffusion Forcing، پژوهشگران MIT به آموزش شبکههای عصبی میپردازند تا بتوانند مجموعهای از توکنها را پاکسازی کنند. در این فرآیند، آنها مقادیر مختلفی از نویز را از هر توکن حذف کرده و همزمان پیشبینی چند توکن بعدی را نیز انجام میدهند. نتیجه این تلاش، ایجاد مدلی انعطافپذیر و قابل اعتماد است که به تولید ویدیوهای مصنوعی با کیفیت بالاتر و بهبود دقت تصمیمگیری در رباتها و سیستمهای هوش مصنوعی کمک میکند.
با استفاده از این روش، رباتها قادرند دادههای پر از نویز را پردازش کرده و مراحل بعدی یک وظیفه را به طور قابل اعتماد پیشبینی کنند. این قابلیت به آنها این امکان را میدهد که حواسپرتیهای بصری را نادیده گرفته و وظایف خاصی مانند دستکاری اشیاء را بهخوبی انجام دهند. همچنین، این تکنیک میتواند ویدیوهای پایدار و سازگاری تولید کند و حتی به یک عامل هوش مصنوعی در عبور از هزارتوهای دیجیتال کمک کند. به این ترتیب، Diffusion Forcing میتواند به رباتهای خانگی و صنعتی کمک کند تا در انجام وظایف جدید بهتر عمل کنند و کیفیت سرگرمیهای تولیدشده توسط هوش مصنوعی را ارتقا دهد.
مدلهای توالی به نحوی طراحی شدهاند که با استفاده از دادههای گذشته، پیشبینیهایی برای آینده ارائه دهند. این فرآیند به نوعی شبیه به ماسکگذاری دوتایی است، اما ماسکگذاری میتواند به اشکال مختلفی نیز صورت گیرد.
«بو یوان چن»، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT و عضو CSAIL، توضیح میدهد: «در روش Diffusion Forcing، ما به هر توکن سطوح مختلفی از نویز اضافه میکنیم که این عمل به نوعی ماسکگذاری جزئی تبدیل میشود. در مرحله آزمایش، سیستم ما قادر است مجموعهای از توکنها را از حالت “ماسک شده” خارج کرده و توالی را با سطح نویز کمتری پیشبینی کند. این سیستم میداند که به کدام بخش از دادهها اعتماد کند تا ورودیهای نامناسب را نادیده بگیرد.»
در چندین آزمایش، Diffusion Forcing با پیشبینی اقدامات آینده، توانست دادههای نادرست را نادیده گرفته و وظایف را بهخوبی انجام دهد.
به عنوان نمونه، زمانی که این تکنیک در یک بازوی رباتیک مورد استفاده قرار گرفت، توانست دو میوه اسباببازی را در سه تخته دایرهای جابهجا کند. این یک مثال ساده از مجموعهای از وظایف بلندمدت است که به حافظه نیاز دارند. محققان این ربات را با استفاده از کنترل از راه دور (از طریق تلئوپراتینگ) در یک محیط واقعیت مجازی آموزش دادند. ربات به گونهای طراحی شده بود که حرکات کاربر را از طریق دوربین خود تقلید کند.
با اینکه ربات از موقعیتهای تصادفی آغاز میکرد و با موانعی مانند یک کیف خرید که نشانگرها را مسدود میکرد، روبرو میشد، اما توانست اشیا را در مکانهای مورد نظر خود قرار دهد.
برای تولید ویدیوها، محققان روش Diffusion Forcing را با استفاده از بازی «Minecraft» و محیطهای رنگی دیجیتال طراحی شده در شبیهساز DeepMind Lab گوگل آموزش دادند. هنگامی که این روش یک فریم از ویدیو را دریافت میکند، قادر است ویدیوهایی با کیفیت بالاتر و پایداری بیشتر نسبت به مدلهای دیگر، از جمله مدل کامل توالی Sora و مدلهای پیشبینی توکن مشابه ChatGPT، تولید کند.
این روشها ویدیوهایی تولید کردند که به نظر ناهماهنگ میرسیدند و مدل جدید گاهی قادر به تولید ویدیوهای قابل استفاده پس از 72 فریم نبود.
Diffusion Forcing نه تنها ویدیوهای جذاب تولید میکند، بلکه به عنوان یک برنامهریز حرکتی نیز عمل میکند که به سمت نتایج یا پاداشهای مطلوب هدایت میشود. به دلیل انعطافپذیری بالای آن، Diffusion Forcing قادر است برنامههایی با افقهای زمانی متفاوت ایجاد کند و جستجوی درختی انجام دهد، همچنین این نکته را در نظر میگیرد که آینده دور نسبت به آینده نزدیک از نظر عدم قطعیت بیشتر است.
Diffusion Forcing در حل یک هزارتوی دو بعدی عملکرد بهتری نسبت به شش مدل پایه دیگر از خود نشان داد و برنامههایی سریعتر برای دستیابی به مکان هدف تولید کرد. این نتیجه حاکی از آن است که این تکنیک میتواند در آینده به عنوان یک برنامهریز کارآمد برای رباتها مورد استفاده قرار گیرد.
در هر یک از نمایشها، Diffusion Forcing بهعنوان یک مدل توالی کامل، یک مدل پیشبینی توکن، یا ترکیبی از هر دو عمل میکند. به گفته چن، این رویکرد چندمنظوره میتواند بهعنوان یک پایه قوی برای توسعه یک «مدل جهانی» عمل نماید. این مدل جهانی به عنوان یک سیستم هوش مصنوعی، قادر است با یادگیری از میلیاردها ویدیوی موجود در اینترنت، رفتارها و روندهای دنیای واقعی را شبیهسازی کند.
در حقیقت، این قابلیت به رباتها این امکان را میدهد که وظایف جدیدی را با توجه به محیط اطراف خود تصور کرده و به انجام برسانند. به عنوان نمونه، اگر از یک ربات بخواهید که دربی را باز کند، حتی اگر قبلاً آموزش خاصی در این زمینه ندیده باشد، این مدل قادر است ویدیویی تولید کند که به ربات نشان میدهد چگونه این کار را انجام دهد.
این تیم در حال حاضر در تلاش است تا روشهای خود را به دادههای بزرگتر و مدلهای جدیدتر ترنسفورمر گسترش دهد تا عملکرد بهتری را به دست آورد. هدف آنها ایجاد یک مغز رباتی مشابه ChatGPT است که به رباتها این امکان را بدهد تا در محیطهای جدید وظایف خود را بدون نیاز به دخالت انسانی انجام دهند.
«وینسنت سیتزمان»، نویسنده ارشد و استاد دستیار در MIT و عضو CSAIL که رهبری گروه نمایندگی صحنه را بر عهده دارد، اظهار میدارد: «با بهرهگیری از روش Diffusion Forcing، ما در حال نزدیک کردن تولید ویدیو به حوزه رباتیک هستیم. هدف نهایی ما این است که از تمام اطلاعات موجود در ویدیوهای آنلاین استفاده کنیم تا رباتها بتوانند در زندگی روزمره به ما یاری رسانند. همچنین چالشهای جذاب دیگری نیز وجود دارد، از جمله اینکه چگونه رباتها میتوانند با مشاهده انسانها یاد بگیرند و تقلید کنند، حتی اگر ساختار بدنی آنها با ما تفاوتهای زیادی داشته باشد!»
این پژوهش تحت حمایت مالی بنیاد ملی علوم ایالات متحده، آژانس علوم و فناوری دفاع سنگاپور، فعالیتهای پیشرفته تحقیقات هوش تحت نظارت وزارت کشور ایالات متحده و مرکز علمی آمازون انجام شده است.