توصیف تصویر و دستاورد جدید هوش مصنوعی : دقتی بالاتر از انسان
توصیف تصویر به گونهای که مشخص نباشد که توسط یک ربات بدون فهم و درک صورت گرفته، از مدتها قبل یکی از اهداف هوش مصنوعی بوده است. در سال 2016 گوگل مدعی شد هوش مصنوعیاش میتواند با دقت 94% برای تصاویر زیرنویسی انجام دهد و این کار را دقیقا مانند انسانها انجام میدهد.
حالا مایکروسافت قدمی بلندتر برداشته و محققانش موفق به ساخت یک سیستم هوش مصنوعی شدند که دقتش از انسان هم بیشتر است و زیرنویسیهای انجام شده توسط آن این موضوع را ثابت میکند. این شرکت همچنین ادعا کرده مدل جدیدش به نسبت مدل قدیمی که از سال 2015 در حال استفاده از آن بوده، 2 برابر بهتر عمل میکند.
نکته جالب دیگر این که مایکروسافت تصمیم ندارد این تکنولوژی را فقط برای خودش نگه دارد و آن را به عنوان بخشی از سرویسهای شناختی آژور Azure در دسترس قرار خواهد داد، در نتیجه هر توسعه دهنده نرمافزاری امکان استفاده از آن در برنامههای خودش را دارد.
همچنین این سیستم هماکنون از طریق بخش برنامههای مایکروسافت در دسترس است تا افراد نابینا و کمبینا امکان استفاده از آن برای آشنایی با محیط اطراف را داشته باشند. در آینده نزدیک هم قرار است خصوصیتی به این سیستم اضافه شود که بتواند توصیفاتش را از طریق پاورپورنت برای وب، ویندوز و مک ارائه دهد. سیستم توصیف تصویر مایکروسافت به زودی در ورد و اوتلوک هم اضافه خواهد شد.
اریک بوید، مدیر بخش هوش مصنوعی آژور، در گفتگویی با Engadget گفته:«این سیستم نهتنها با سرعت زیاد اشیاء را درک میکند، بلکه متوجه میشود که چطور باید آنها را توصیف کند». تکنولوژیهای توصیفی میتوانند به هر کاربری کمک کنند تا در موتورهای جستجو راحتتر به دنبال تصویر بگردند. همچنین افرادی که مشکل بینایی دارند میتوانند تجربه بهتری از استفاده از وب و نرمافزارها داشته باشند.
محصولات هوش مصنوعی در انتظار تولید انبوه
این که با نوآوریهای هوش مصنوعی به خوبی برخورد نشود موضوعی جدید نیست؛ اما این انتظار هم وجود ندارد که محصولات مبتنی بر هوش مصنوعی بتوانند خیلی سریع به تولید انبوده برسند و در دسترس قرار گیرند. ژدونگ هاونگ، مدیر ارشد فناوری سرویسهای شناختی آژور، درباره سیستم جدید اما فشار زیادی آورد تا بتواند هرچه سریعتر آن را در دسترس قرار دهد و دلیلش هم کاربردی بود که این سیستم برای کاربران داشت. تیم او مدلی را آموزش دادند که میتواند تصاویر را با کلیدواژههای خاص برچسب بزند و با این کار به توسعه نوعی از زبان بصری کمک کند که بیشتر چارچوبهای هوش مصنوعی آن را در اختیار ندارند. معمولا این نوع از مدلها توسط تصاویر و توصیفات کامل آموزش داده میشوند و این کار درک تعامل بین اشیاء را برای مدلها بسیار سخت میکند.
هاونگ میگوید:« این فرهنگ لغات بصری همان لازمههای آموزش یک سیستم هستند و ما در تلاش برای آموزش این حافظه موتوری هستیم». این همان چیزی است که باعث شده در بنچمارک امتیاز بالایی به این مدل داده شود. در مقایسه این مدلها تمرکز بر این است که توانایی آنها برای توصیف تصویر سنجیده شود و اگر امکاناتی داشته باشند که قبلا مشابه آن دیده نشده باشد، امتیاز بالایی به مدل تعلق میگیرد.
آزمایش در دنیای واقعی
با این که کسب امتیاز بالا در بنچمارک اهمیت زیادی دارد، آزمایش اصلی برای سیستم جدید مایکروسافت این است که قرار است در دنیای واقعی چطور عمل کند. بوید مدعی شده ساغب شیخ، توسعهدهنده سیستم جدید مایکروسافت که خودش هم نابینا است، تجربه استفاده از این سیستم را داشته و به نظرش میتوان به تغییرات آن به نسبت سیستمهای قبل لقب «پیشرفت دراماتیک» را داد.
حالا که مایکروسافت مسابقهای جدید تدارک دیده، دیدن این که چطور بخش هوش مصنوعی گوگل و دیگر رقبا قرار است در این مسابقه حاضر شوند مطمئنا بسیار جذاب خواهد بود.
به نظر شما برنده برنده این رقابت از بین غولهای تکنولوژی کدام شرکت خواهد بود؟