درک تصاویر پیچیده؛ ضعف نادیدۀ هوش مصنوعی
آیا تاکنون در حال مشاهده تصاویر گالری تلفن همراه یا آلبوم خاطرات، به تصویری برخورد کردهاید که در نگاه اول نامشخص باشد و نتوانید تشخیصش بدهید؟ فکر میکنید دلیل دشواری درک آن تصویر چه بوده و چه تفاوتی با تصاویری دارد که در لحظه دیدن، تشخیصشان میدهید؟
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (بهاختصار CSAIL) متوجه شدند که با وجود اهمیت بسیار زیاد درک تصاویر در حوزههای مختلفی مانند مراقبتهای بهداشتی، حملونقل و مالی، تا حالا تلاش بسیاری برای فهم عمیق متغیرهای مؤثر در دشواری درک بصری انجام نشده است. این محققان معتقدند که شناخت متغیرهای مذکور میتواند به بهرهبرداری آگاهانه از آنها در جهت آموزش ابزارهای هوش مصنوعی و بهبود تواناییهای بینایی ماشین منجر شود.
با وجود اینکه برنامههای مبتنی بر هوش مصنوعی، عملکرد مناسبی در تشخیص موضوعات ساده در تصویر دارند، اما در درک تصاویر پیچیده و دشوار بهاندازه انسان، موفق نیستند؛ بنابراین میتوان گفت هنوز روش دقیقی برای سنجش میزان دشواری یک تصویر تعریف نشده است.
دیوید مایو، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT به بررسی این موضوع پرداخت که چرا تشخیص و ادراک برخی از تصاویر برای انسان و ماشین دشوارتر است. او احتمال داد که مغز ما در بررسی تصاویر دشوار از پروسهای خاص بهره میبرد که هوش مصنوعی فاقد آن است و تنها زمانی میتوانیم به چیستی و چگونگی این فرایندها پی ببریم که نحوه درک و تقابل با تصاویر دشوار را مورد آزمایش قرار دهیم.
برای سنجش فاکتور سختی تصاویر، مقیاس تازهای تحت عنوان «حداقل زمان دیدن» یا بهاختصار “MVT” تعریف شد. این معیار میزان دشواری ادراک بصری را اندازهگیری میکند؛ در واقع هر اندازه که MVT یک تصویر بالاتر باشد، ذهن، زمان بیشتری برای ادراک آن نیاز دارد. محققان MIT، حدود ۲۰۰ هزار تصویر را از مجموعههایی مانند ImageNet و ObjectNet از ۱۷ میلیثانیه تا ۱۰ ثانیه به شرکتکنندگان نشان دادند و سپس از آنها خواستند تا تصویر موردنظر را از بین ۵۰ گزینه انتخاب کنند. نتیجه این بود که ابزار هوش مصنوعی معمولا با تصاویر ساده مورد آزمایش قرار گرفته و بههمین دلیل چالش بزرگی برای درک بصری نداشتهاند اما بعضی از مدلهای مصنوعی مانند CLIP که هم از زبان و هم از بینش بهره میبرند، در سنجش تصاویر پیچیده بهتر عمل کردهاند.
دیوید مایو میگوید: یکی از بزرگترین دستاوردهای ما این است که اکنون فاکتور تازهای برای ارزیابی مدلها داریم. ما سعی داریم ابزاری بسازیم که بتواند هر تصویری را هرچند پیچیده تشخیص بدهد و در این راستا اکنون برای اولینبار تلاش کردیم تا دشواری درک بصری را کمّی کنیم.
از ObjectNet تا MVT
چندسال پیش، افرادی حاضر در یک پروژه، با مشکل تازهای روبهرو شدند؛ آنها متوجه شدند که برنامههای کامپیوتری برای تشخیص تصاویر اشیایی که تا آن زمان ندیده بودند، خوب عمل نمیکنند. برای کمک به این امر، آنها مجموعه جدیدی از تصاویر به نام ObjectNet را ساختند. این تصاویر که از زندگی روزمره برخاسته بودند نشان دادند که برنامههای کامپیوتری در تشخیص اشیا به اندازه افراد، خوب نیستند، بهخصوص زمانی که اشیا، ظاهری متفاوت داشتند یا با پسزمینههای عجیبوغریب جفت شده بودند. از آنجا ObjectNet باعث شد که ضعف هوش کامپیوتر آشکار شده و نیاز به بهبود آن حس شود.
تیم تحقیقات MIT، این بهبود را با آزمایشهای خود یک قدم جلوتر برده است؛ در واقع برخلاف روشهای قبلی که بر عملکرد مطلق ابزارها توجه میکردند، این رویکرد جدید نحوه عملکرد مدلها را با توجه به تفاوت سرعت پاسخهایشان به سادهترین و سختترین تصاویر ارزیابی میکند. این مطالعه موفق شد هوش مصنوعی را در موقعیت مشابه قرار دهد و بسنجد که این ابزار در زمان مواجهه با تصاویر دشوار چه عملکردی دارد. تیم تحقیقات متوجه این واقعیت شد که تصاویر سختتر بهصورت متفاوتی توسط شبکهها پردازش میشوند. مایو میگوید: وقتی تصاویر از سطح ساده فراتر میروند و پای شبکه معنایی پیچیده به میان میآید، ضعف هوش مصنوعی در ادراک نمایانتر میشود. بهعنوان مثال، در حوزههایی مثل خدمات بهداشتی، فاصله ادراک ابزارهای هوش مصنوعی با یک متخصص بسیار زیاد است، زیرا درک نتیجه از روی تصویر یک رادیولوژی، عمل پیچیدهای محسوب میشود و به بینشی پیشرفتهتر از توانایی حال حاضر هوش مصنوعی برمیگردد.
مایو و کامینگز در حال حاضر در حال تحقیق دربارۀ زیربناهای عصبی تشخیص بصری هستند و بررسی میکنند که آیا مغز در هنگام پردازش تصاویر آسان در مقابل چالش برانگیز، فعالیت متفاوتی از خود نشان میدهد یا خیر. هدف مطالعه مذکور، پاسخ به این سوال است که آیا تصاویر پیچیده، نواحی خاصی از مغز را جذب میکنند که معمولا در پردازش بصری ساده، فعال نیستند یا خیر، آنها درباره نتیجه اعلام امیدواری کرده و میگویند: امیدوارم این مطالعه، از حقایق تازهای درباره فعالیت مغز پرده بردارد.
به سمت عملکرد در سطح انسانی
علیرغم پیشرفتهای قابل توجه این مطالعه، محققان MIT محدودیتهای هوش مصنوعی را در این مقوله تأیید میکنند. دیوید مایو میگوید: تحقیق فعلی میتواند راه را برای درک عمیقتر توسط هوش مصنوعی هموار کند، آلن یویل، پروفسور مشهور علوم شناختی بلومبرگ نیز معتقد است این مطالعه شگفتانگیز نهتنها منجر به بهبود عملکرد ابزارهای هوش مصنوعی خواهد شد؛ بلکه کمک میکند تا نگاه دقیقتری به تواناییهای آنها داشته باشیم.