Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 مدل‌های هوش مصنوعی در بینایی کامپیوتری و رباتیک

مدل‌های هوش مصنوعی در بینایی کامپیوتری و رباتیک

زمان مطالعه: 4 دقیقه

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT یک تغییر ساده در طرح آموزش مدل‌های دیفیوژن انجام داده‌اند که به طور قابل توجهی انعطاف‌پذیری کاهش نویز در توالی‌ها را افزایش می‌دهد.

پیش‌بینی توکن بعدی

در حال حاضر، مدل‌های توالی (sequence models) به دلیل قابلیت‌هایشان در تحلیل داده‌ها و پیش‌بینی اقدامات آینده، به شدت در حوزه هوش مصنوعی مورد توجه قرار گرفته‌اند. به عنوان نمونه، ممکن است شما از مدل‌های پیش‌بینی توکن بعدی مانند ChatGPT استفاده کرده باشید که هر کلمه (در واقع هر توکن) در یک توالی را پیش‌بینی می‌کند تا به این ترتیب سؤالات کاربران پاسخ دهد. همچنین مدل‌های دیفیوژن مانند Sora وجود دارند که با استفاده از «کاهش نویز» تدریجی در یک توالی ویدیویی، کلمات را به تصاویری شگفت‌انگیز و واقعی تبدیل می‌کنند.

زمانی که این مدل‌ها در زمینه‌هایی مانند بینایی کامپیوتری و رباتیک به کار گرفته می‌شوند، با چالش‌هایی در عملکرد خود روبرو می‌شوند. مدل‌های پیش‌بینی توکن بعدی قادرند توالی‌هایی با طول‌های متفاوت تولید کنند، اما این تولیدات را بدون درک از وضعیت‌های مطلوب در آینده انجام می‌دهند. به عنوان مثال، این مدل‌ها نمی‌توانند یک توالی را به گونه‌ای هدایت کنند که به هدف خاصی در 10 توکن بعدی دست یابند، بنابراین به مکانیزم‌های اضافی برای برنامه‌ریزی درازمدت نیاز دارند.

از طرف دیگر، مدل‌های دیفیوژن قادرند نمونه‌برداری شرطی بر اساس آینده را انجام دهند، اما از توانایی تولید توالی‌های با طول متغیر که مدل‌های پیش‌بینی توکن دارند، برخوردار نیستند.

ترکیب مدل‌ها

محققان CSAIL در تلاش‌اند تا نقاط قوت هر دو مدل را با هم ترکیب کنند، به همین دلیل یک روش آموزشی نوین برای مدل‌های توالی به نام «Diffusion Forcing» طراحی کرده‌اند. این نام از «Teacher Forcing» الهام‌گرفته شده است که یک روش آموزشی رایج است و تولید یک توالی کامل را به مراحل کوچک‌تر و ساده‌تر برای تولید توکن بعدی تقسیم می‌کند. این فرآیند مشابه این است که یک معلم ماهر یک مفهوم پیچیده را به شیوه‌ای ساده‌تر توضیح می‌دهد.

«Diffusion Forcing» روشی است که هدف آن ایجاد هماهنگی میان مدل‌های دیفیوژن و تکنیک آموزش Teacher Forcing می‌باشد. هر دو این روش‌ها از تکنیک‌های آموزشی بهره می‌برند که شامل پیش‌بینی توکن‌های ماسک شده (توکن‌هایی که حاوی نویز هستند) بر اساس توکن‌های غیرماسک شده می‌شود. در مدل‌های دیفیوژن، این فرآیند به تدریج با افزودن نویز به داده‌ها انجام می‌گیرد که می‌توان آن را نوعی ماسک‌گذاری جزئی تلقی کرد.

با بهره‌گیری از Diffusion Forcing، پژوهشگران MIT به آموزش شبکه‌های عصبی می‌پردازند تا بتوانند مجموعه‌ای از توکن‌ها را پاک‌سازی کنند. در این فرآیند، آن‌ها مقادیر مختلفی از نویز را از هر توکن حذف کرده و هم‌زمان پیش‌بینی چند توکن بعدی را نیز انجام می‌دهند. نتیجه این تلاش، ایجاد مدلی انعطاف‌پذیر و قابل اعتماد است که به تولید ویدیوهای مصنوعی با کیفیت بالاتر و بهبود دقت تصمیم‌گیری در ربات‌ها و سیستم‌های هوش مصنوعی کمک می‌کند.

با استفاده از این روش، ربات‌ها قادرند داده‌های پر از نویز را پردازش کرده و مراحل بعدی یک وظیفه را به طور قابل اعتماد پیش‌بینی کنند. این قابلیت به آن‌ها این امکان را می‌دهد که حواس‌پرتی‌های بصری را نادیده گرفته و وظایف خاصی مانند دست‌کاری اشیاء را به‌خوبی انجام دهند. همچنین، این تکنیک می‌تواند ویدیوهای پایدار و سازگاری تولید کند و حتی به یک عامل هوش مصنوعی در عبور از هزارتوهای دیجیتال کمک کند. به این ترتیب، Diffusion Forcing می‌تواند به ربات‌های خانگی و صنعتی کمک کند تا در انجام وظایف جدید بهتر عمل کنند و کیفیت سرگرمی‌های تولیدشده توسط هوش مصنوعی را ارتقا دهد.

مدل‌های توالی به نحوی طراحی شده‌اند که با استفاده از داده‌های گذشته، پیش‌بینی‌هایی برای آینده ارائه دهند. این فرآیند به نوعی شبیه به ماسک‌گذاری دوتایی است، اما ماسک‌گذاری می‌تواند به اشکال مختلفی نیز صورت گیرد.

«بو یوان چن»، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT و عضو CSAIL، توضیح می‌دهد: «در روش Diffusion Forcing، ما به هر توکن سطوح مختلفی از نویز اضافه می‌کنیم که این عمل به نوعی ماسک‌گذاری جزئی تبدیل می‌شود. در مرحله آزمایش، سیستم ما قادر است مجموعه‌ای از توکن‌ها را از حالت “ماسک شده” خارج کرده و توالی را با سطح نویز کمتری پیش‌بینی کند. این سیستم می‌داند که به کدام بخش از داده‌ها اعتماد کند تا ورودی‌های نامناسب را نادیده بگیرد.»

در چندین آزمایش، Diffusion Forcing با پیش‌بینی اقدامات آینده، توانست داده‌های نادرست را نادیده گرفته و وظایف را به‌خوبی انجام دهد.

به عنوان نمونه، زمانی که این تکنیک در یک بازوی رباتیک مورد استفاده قرار گرفت، توانست دو میوه اسباب‌بازی را در سه تخته دایره‌ای جابه‌جا کند. این یک مثال ساده از مجموعه‌ای از وظایف بلندمدت است که به حافظه نیاز دارند. محققان این ربات را با استفاده از کنترل از راه دور (از طریق تلئوپراتینگ) در یک محیط واقعیت مجازی آموزش دادند. ربات به گونه‌ای طراحی شده بود که حرکات کاربر را از طریق دوربین خود تقلید کند.

با اینکه ربات از موقعیت‌های تصادفی آغاز می‌کرد و با موانعی مانند یک کیف خرید که نشانگرها را مسدود می‌کرد، روبرو می‌شد، اما توانست اشیا را در مکان‌های مورد نظر خود قرار دهد.

برای تولید ویدیوها، محققان روش Diffusion Forcing را با استفاده از بازی «Minecraft» و محیط‌های رنگی دیجیتال طراحی شده در شبیه‌ساز DeepMind Lab گوگل آموزش دادند. هنگامی که این روش یک فریم از ویدیو را دریافت می‌کند، قادر است ویدیوهایی با کیفیت بالاتر و پایداری بیشتر نسبت به مدل‌های دیگر، از جمله مدل کامل توالی Sora و مدل‌های پیش‌بینی توکن مشابه ChatGPT، تولید کند.

این روش‌ها ویدیوهایی تولید کردند که به نظر ناهماهنگ می‌رسیدند و مدل جدید گاهی قادر به تولید ویدیوهای قابل استفاده پس از 72 فریم نبود.

Diffusion Forcing نه تنها ویدیوهای جذاب تولید می‌کند، بلکه به عنوان یک برنامه‌ریز حرکتی نیز عمل می‌کند که به سمت نتایج یا پاداش‌های مطلوب هدایت می‌شود. به دلیل انعطاف‌پذیری بالای آن، Diffusion Forcing قادر است برنامه‌هایی با افق‌های زمانی متفاوت ایجاد کند و جستجوی درختی انجام دهد، همچنین این نکته را در نظر می‌گیرد که آینده دور نسبت به آینده نزدیک از نظر عدم قطعیت بیشتر است.

Diffusion Forcing در حل یک هزارتوی دو بعدی عملکرد بهتری نسبت به شش مدل پایه دیگر از خود نشان داد و برنامه‌هایی سریع‌تر برای دستیابی به مکان هدف تولید کرد. این نتیجه حاکی از آن است که این تکنیک می‌تواند در آینده به عنوان یک برنامه‌ریز کارآمد برای ربات‌ها مورد استفاده قرار گیرد.

در هر یک از نمایش‌ها، Diffusion Forcing به‌عنوان یک مدل توالی کامل، یک مدل پیش‌بینی توکن، یا ترکیبی از هر دو عمل می‌کند. به گفته چن، این رویکرد چندمنظوره می‌تواند به‌عنوان یک پایه قوی برای توسعه یک «مدل جهانی» عمل نماید. این مدل جهانی به عنوان یک سیستم هوش مصنوعی، قادر است با یادگیری از میلیاردها ویدیوی موجود در اینترنت، رفتارها و روندهای دنیای واقعی را شبیه‌سازی کند.

در حقیقت، این قابلیت به ربات‌ها این امکان را می‌دهد که وظایف جدیدی را با توجه به محیط اطراف خود تصور کرده و به انجام برسانند. به عنوان نمونه، اگر از یک ربات بخواهید که دربی را باز کند، حتی اگر قبلاً آموزش خاصی در این زمینه ندیده باشد، این مدل قادر است ویدیویی تولید کند که به ربات نشان می‌دهد چگونه این کار را انجام دهد.

این تیم در حال حاضر در تلاش است تا روش‌های خود را به داده‌های بزرگ‌تر و مدل‌های جدیدتر ترنسفورمر گسترش دهد تا عملکرد بهتری را به دست آورد. هدف آن‌ها ایجاد یک مغز رباتی مشابه ChatGPT است که به ربات‌ها این امکان را بدهد تا در محیط‌های جدید وظایف خود را بدون نیاز به دخالت انسانی انجام دهند.

«وینسنت سیتزمان»، نویسنده ارشد و استاد دستیار در MIT و عضو CSAIL که رهبری گروه نمایندگی صحنه را بر عهده دارد، اظهار می‌دارد: «با بهره‌گیری از روش Diffusion Forcing، ما در حال نزدیک کردن تولید ویدیو به حوزه رباتیک هستیم. هدف نهایی ما این است که از تمام اطلاعات موجود در ویدیوهای آنلاین استفاده کنیم تا ربات‌ها بتوانند در زندگی روزمره به ما یاری رسانند. همچنین چالش‌های جذاب دیگری نیز وجود دارد، از جمله اینکه چگونه ربات‌ها می‌توانند با مشاهده انسان‌ها یاد بگیرند و تقلید کنند، حتی اگر ساختار بدنی آن‌ها با ما تفاوت‌های زیادی داشته باشد!»

این پژوهش تحت حمایت مالی بنیاد ملی علوم ایالات متحده، آژانس علوم و فناوری دفاع سنگاپور، فعالیت‌های پیشرفته تحقیقات هوش تحت نظارت وزارت کشور ایالات متحده و مرکز علمی آمازون انجام شده است.

منبع

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]