مدل جدید هوش مصنوعی MIT بینایی کامپیوتری با وضوح بالا را سرعت میبخشد
مدل جدید هوش مصنوعی MIT بینایی کامپیوتری با وضوح بالا را تا ۹ برابر سرعت میبخشد. این سیستم میتواند کیفیت تصویر را در جریان ویدئو بهبود بخشد یا به خودروهای خودران کمک کند تا خطرات جاده را در زمان واقعی شناسایی کنند.
به گزارش هوشیو، یک وسیله نقلیه خودمختار باید به سرعت و دقت اشیایی را که با آن مواجه میشود، تشخیص دهد، از کامیون تحویلی که در گوشهای پارک شده تا دوچرخهسواری که به سمت تقاطع نزدیک میشود.
برای انجام این کار، خودرو ممکن است از یک مدل بینایی کامپیوتری قدرتمند برای دستهبندی هر پیکسل در یک تصویر با وضوح بالا از این صحنه استفاده کند، بنابراین اجسامی را که ممکن است در یک تصویر با کیفیت پایینتر پنهان شوند، از دست ندهد. اما این کار، که بهعنوان بخشبندی معنایی شناخته میشود، پیچیده است و زمانی که تصویر دارای وضوح بالا باشد، به مقدار زیادی محاسبات نیاز دارد.
محققان MIT،MIT-IBM Watson AI Lab و جاهای دیگر مدل بینایی کامپیوتری کارآمدتری را توسعه دادهاند که پیچیدگی محاسباتی این کار را بسیار کاهش میدهد. مدل آنها میتواند بخشبندی معنایی را با دقت در زمان واقعی بر روی دستگاهی با منابع سختافزاری محدود انجام دهد، مانند رایانههای داخلی که یک وسیلهنقلیه مستقل را قادر میسازد تا تنها در چند ثانیه تصمیمگیری نماید.
مدلهای جدید تقسیمبندی معنایی بهطور مستقیم تعامل بین هر جفت پیکسل در یک تصویر را یاد میگیرند، بنابراین با افزایش وضوح تصویر، محاسبات آنها به سرعت رشد میکنند. این باعث میشود که این مدلها بسیار دقیق باشند اما برای پردازش تصاویر با وضوح بالا در زمان واقعی بر روی یک دستگاه مانند سنسور یا تلفنهمراه، بسیار کند عمل میکنند.
محققان MIT یک جزء جدید برای مدلهای تقسیمبندی معنایی طراحی کردند که تواناییهای مشابه این مدلهای پیشرفته را دارد، اما تنها با پیچیدگی محاسباتی خطی و عملیات سختافزاری کارآمد.
نتیجه یک سری مدل جدید برای بینایی کامپیوتری با وضوح بالا است که تا ۹ برابر سریعتر از مدلهای قبلی در هنگام استقرار روی دستگاه تلفنهمراه عمل میکند. نکته مهم این است که این سری مدل جدید دقت مشابه یا بهتری را نسبت به این جایگزینها نشان میدهد.
این تکنیک نهتنها میتواند برای کمک به خودروهای خودران در تصمیمگیری در زمان واقعی مورد استفاده قرار گیرد، بلکه میتواند کارایی سایر وظایف بینایی کامپیوتری با وضوح بالا، مانند تقسیمبندی تصاویر پزشکی را نیز بهبود بخشد.
در حالی که محققان مدتهاست از ترانسفورماتورهای بینایی سنتی استفاده میکنند و نتایج شگفتانگیزی نیز به دست میآورند، اما این تحقیق میخواهد مردم به جنبه کارایی این مدلها نیز توجه کنند. سونگ هان، دانشیار دپارتمان مهندسی برق و علوم کامپیوتر (EECS) میگوید:«کار ما نشان میدهد که میتوان محاسبات را به شدت کاهش داد تا این تقسیمبندی تصویر در زمان واقعی به صورت محلی روی یک دستگاه اتفاق بیفتد.»