MIT از ابزار هوش مصنوعی جدید برای تفسیر پیچیدهترین نمودارها رونمایی کرد
محققان MIT ابزار جدیدی به نام VisText طراحی کردهاند که با استفاده از هوش مصنوعی، درک نمودارهای پیچیده را برای افراد با تواناییهای مختلف آسانتر میکند. توسعه مجموعه داده VisText نشان دهنده پیشرفت قابلتوجهی در ایجاد زیرنویس خودکار برای نمودارها است. با پیشرفتها و تحقیقات مستمر، سیستمهای زیرنویس خودکار مجهز به یادگیری ماشینی نوید انقلابی در دسترسپذیری و درک بیشتر نمودارها را میدهند و اطلاعات حیاتی را برای افراد دارای ناتوانی بینایی جامعتر و قابل دسترستر میسازند.
به گزارش هوشیو، فرایند ایجاد زیرنویس برای نمودارها، به روشی که به راحتی قابل درک باشد، معمولاً زمانبر بوده و نیاز به تلاش زیادی دارد. البته برخی تکنیکهای ایجاد زیرنویس خودکار وجود دارد، اما این تکنیکها همیشه خوب کار نمیکنند. محققان MIT مجموعه داده جدیدی به نام VisText طراحی کردهاند که برای آموزش مدلهای یادگیری ماشینی بهمنظور ایجاد زیرنویسهای دقیق برای نمودارها استفاده میشود. آنها دریافتند که مدل آنها به صورت مداوم از سایر سیستمهای خودکار زیرنویس بهتر عمل میکند و خروجی از زیرنویسهای دقیق و قابل درک ارائه میدهد. این زیرنویسها برای هر کاربر، بسته به نیاز و تواناییهای خاص او سفارشیسازی میشود.
ایده طراحی VisText از تحقیقات قبلی MIT نشأت میگرفت که بسته به اختلالات بینایی یا کم بینایی کاربران، میزان اطلاعات متفاوتی را در عنوان یک نمودار نشان میداد. بر اساس این تحقیقات، محققان MIT مجموعه بزرگی از دادهها را با نام VisText ساختند که شامل بیش از 12000 نمودار بوده و به صورت مجموعهای از جداول داده، تصاویر، نمودارها و زیرنویسهای مربوطه نمایش داده میشد. VisTextبه برنامههای کامپیوتری کمک میکند تا زیرنویسهای مفید و دقیقی برای نمودارها ایجاد نمایند و از این طریق کاربران را قادر سازد، اطلاعات بصری را بهراحتی و به صورت موثر تفسیر نمایند.
این بدان معنی است که افراد با هر میزان توانایی قادر به درک این موضوع خواهند بود که نمودارها چه چیزی را نشان میدهند و از این اطلاعات برای تحقیق، تصمیمگیری یا کارهای دیگر استفاده نمایند. این یک پیشرفت پیشگامانه است که میتواند دسترسی افرادی را که برای درک دادههای پیچیده در نمودارها تلاش میکنند، تا حد زیادی بهبود بخشد.
توسعه سیستمهای خودکار زیرنویس چالشهای متعددی به همراه داشته است. روشهای یادگیری ماشینی که برای توصیف تصویر استفاده میشوند، برای تفسیر نمودارها چندان مؤثر نیستند، زیرا تفسیر تصاویر طبیعی بهطور قابلتوجهی با خواندن نمودارها متفاوت است. از سوی دیگر، تکنیکهای جایگزین محتوای بصری را به طور کامل نادیده میگیرند و تنها به جداول دادههای زیربنایی تکیه میکنند که اغلب پس از انتشار نمودار در دسترس نیستند. برای غلبه بر این محدودیتها، محققان از روش خاصی برای نمایش نمودارها به نام «نمودار صحنه» استفاده کردند. این روش اطلاعات دقیقی ارائه میدهد و در عین حال قابل دسترستر و سازگارتر با مدلهای مدرن زبان بزرگ است.
محققان MIT پنج مدل مختلف یادگیری ماشین را آموزش دادند تا با استفاده از ابزار جدید VisText، برای نمودارها شرح خودکار بنویسند. آنها دریافتند، مدلهایی که با نمودارهای صحنه آموزش داده شدهاند، به همان اندازه یا بهتر از مدلهایی که با جداول دادهها آموزش داده شدهاند، عمل میکنند. این موضوع نشانه خوبی برای اثربخشی نمودارهای صحنه به عنوان ابزاری برای نمایش اطلاعات بود. همچنین، آنها مدلها را بهطور جداگانه با زیرنویسهای ساده و پیچیده آموزش دادند که به مدل اجازه میداد تا زیرنویسهای بهتری مطابق با پیچیدگی نمودار ایجاد نمایند. در واقع، نمودارهای صحنه بهترین راه برای ایجاد زیرنویس بودند، زیرا اطلاعات زیادی داشتند و به خوبی با برنامههای کامپیوتری کار میکردند.
هدف از طراحی این ابزار این است که تفسیر نمودار را بهبود بخشد و آن را برای همه، صرفنظر از پیشینه یا سطح تحصیلات، در دسترس قرار دهد. به طور کلی، VisText یک مجموعه داده پیشگامانه است که پتانسیل ایجاد انقلابی در نحوه درک و استفاده از دادههای پیچیده را دارد.