توصیف تصویر
آموزش‌های پیشرفته هوش مصنوعیاخباربینایی ماشینهوش مصنوعی در جهان

توصیف تصویر و دستاورد جدید هوش مصنوعی : دقتی بالاتر از انسان

    0

    توصیف تصویر به گونه‎ای که مشخص نباشد که توسط یک ربات بدون فهم و درک صورت گرفته، از مدت‌ها قبل یکی از اهداف هوش مصنوعی بوده است. در سال ۲۰۱۶ گوگل مدعی شد هوش مصنوعی‎اش می‌تواند با دقت ۹۴% برای تصاویر زیرنویسی انجام دهد و این کار را دقیقا مانند انسان‌ها انجام می‌دهد.

    حالا مایکروسافت قدمی بلندتر برداشته و محققانش موفق به ساخت یک سیستم هوش مصنوعی شدند که دقتش از انسان هم بیشتر است و زیرنویسی‌های انجام شده توسط آن این موضوع را ثابت می‌کند. این شرکت همچنین ادعا کرده مدل جدیدش به نسبت مدل قدیمی که از سال ۲۰۱۵ در حال استفاده از آن بوده، ۲ برابر بهتر عمل می‌کند.

    نکته جالب دیگر این که مایکروسافت تصمیم ندارد این تکنولوژی را فقط برای خودش نگه دارد و آن را به عنوان بخشی از سرویس‌های شناختی آژور Azure در دسترس قرار خواهد داد، در نتیجه هر توسعه دهنده نرم‎افزاری امکان استفاده از آن در برنامه‌های خودش را دارد.

    همچنین این سیستم هم‌اکنون از طریق بخش برنامه‌های مایکروسافت در دسترس است تا افراد نابینا و کم‎بینا امکان استفاده از آن برای آشنایی با محیط اطراف را داشته باشند. در آینده نزدیک هم قرار است خصوصیتی به این سیستم اضافه شود که بتواند توصیفاتش را از طریق پاورپورنت برای وب، ویندوز و مک ارائه دهد. سیستم توصیف تصویر مایکروسافت به زودی در ورد و اوتلوک هم اضافه خواهد شد.

    اریک بوید، مدیر بخش هوش مصنوعی آژور، در گفتگویی با Engadget گفته:«این سیستم نه‌تنها با سرعت زیاد اشیاء را درک می‌کند، بلکه متوجه می‎شود که چطور باید آن‌ها را توصیف کند». تکنولوژی‌های توصیفی می‌توانند به هر کاربری کمک کنند تا در موتورهای جستجو راحت‌تر به دنبال تصویر بگردند. همچنین افرادی که مشکل بینایی دارند می‌توانند تجربه بهتری از استفاده از وب و نرم‌افزارها داشته باشند.

    محصولات هوش مصنوعی در انتظار تولید انبوه

    این که با نوآوری‌های هوش مصنوعی به خوبی برخورد نشود موضوعی جدید نیست؛ اما این انتظار هم وجود ندارد که محصولات مبتنی بر هوش مصنوعی بتوانند خیلی سریع به تولید انبوده برسند و در دسترس قرار گیرند.  ژدونگ هاونگ، مدیر ارشد فناوری سرویس‌های شناختی آژور، درباره سیستم جدید اما فشار زیادی آورد تا بتواند هرچه سریع‌تر آن را در دسترس قرار دهد و دلیلش هم کاربردی بود که این سیستم برای کاربران داشت. تیم او مدلی را آموزش دادند که می‌تواند تصاویر را با کلیدواژه‌های خاص برچسب بزند و با این کار به توسعه نوعی از زبان بصری کمک کند که بیشتر چارچوب‌های هوش مصنوعی آن را در اختیار ندارند. معمولا این نوع از مدل‌ها توسط تصاویر و توصیفات کامل آموزش داده می‎شوند و این کار درک تعامل بین اشیاء را برای مدل‌ها بسیار سخت می‌کند.

    توصیف تصویر

    ژدونگ هاونگ، مدیر ارشد فناوری سرویس‌های شناختی آژور

    هاونگ می‌گوید:« این فرهنگ لغات بصری همان لازمه‌های آموزش یک سیستم هستند و ما در تلاش برای آموزش این حافظه موتوری هستیم». این همان چیزی است که باعث شده در بنچمارک‌ امتیاز بالایی به این مدل داده شود. در مقایسه این مدل‌ها تمرکز بر این است که توانایی آن‌ها برای توصیف تصویر سنجیده شود و اگر امکاناتی داشته باشند که قبلا مشابه آن دیده نشده باشد، امتیاز بالایی به مدل تعلق می‎گیرد.

    با این که کسب امتیاز بالا در بنچمارک اهمیت زیادی دارد، آزمایش اصلی برای سیستم جدید مایکروسافت این است که قرار است در دنیای واقعی چطور عمل کند. بوید مدعی شده ساغب شیخ، توسعه‌دهنده سیستم جدید مایکروسافت که خودش هم نابینا است، تجربه استفاده از این سیستم را داشته و به نظرش می‌توان به تغییرات آن به نسبت سیستم‌های قبل لقب «پیشرفت دراماتیک» را داد.

    حالا که مایکروسافت مسابقه‌ای جدید تدارک دیده، دیدن این که چطور بخش هوش مصنوعی گوگل و دیگر رقبا قرار است در این مسابقه حاضر شوند مطمئنا بسیار جذاب خواهد بود.

    مدل زبانی شرکت‌های مطرح ناامیدکننده بود: افشای اطلاعات شخصی

    مقاله قبلی

    هوش مصنوعی آموزش پذیر به کاربران الکسا کمک‌‌ می‌‌کند تنظیمات پیشرفته‌تری داشته باشند

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *