بینایی رایانه
بینایی ماشیندیتاست

بینایی رایانه و ۹ دیتاست مهم در این حوزه

0
زمان مطالعه: ۴ دقیقه
بینایی رایانه به عنوان یکی از حوزه‌های هوش مصنوعی با سرعت قابل توجهی در حال توسعه است. به لطف حرکت سخاوتمندانه برخی از شرکت‌ها در ارائه عمومی دیتاست‌ تصاویر، اکنون دانشمندان داده‌ قادرند به راحتی اقدام به ساخت معماری‌های مختلف مدل نمایند. مقالۀ حاضر بر آن است تا ۹ مورد از پرکاربردترین دیتاست‌ها را معرفی کند.

۱. دیتاست ارقام دست‌نویس موسسه ملی استاندارد و فناوری

MNIST دیتاست مقدماتی در بینایی رایانه است که از ۷۰.۰۰۰ تصویر ارقام دست‌نویس برای هر عدد تشکیل یافته است (برای مثال، ارقام ۹-۰ در قالب مقیاس خاکستری ۲۸×۲۸ نشان داده می‌شوند). پروفسور یان لچون  Yann LeCun مسئولیت آماده‌سازی داده‌ها را بر عهده داشت. داده‌ها به مجموعه آموزشی (۶۰.۰۰۰) و مجموعه آزمایشی (۱۰.۰۰۰) تقسیم شده است. کلیه ارقام در مرکز تصویر قرار داده شده‌اند. این دیتاسیت در یکی از پروژه‌های اساسی بینایی رایانه مورد استفاده قرار می‌گیرد.دیتاست ارقام دست‌نویس

 

۲. دیتاست مُد MNIST

این دیتاست تا حدی به MNIST شباهت دارد؛ همه تصاویر در قالب مقیاس خاکستری ۲۸×۲۸ هستند. کلیه موضوعات با مُد ارتباط دارند و شامل تی‌شرت، شلوار، کُت، صندل، بلوز، کفش ورزشی، کیف و چکمه می‌باشد. تیم تحقیق زالاندو  Zalando  (فروشگاه مُد و پوشاک) این داده‌ها را فراهم کرده است.

دیتاست مُد

راهنمای تخصصی شبکه های عصبی گراف در بینایی رایانه‌

۳. دیتاست CIFAR-10 4. دیتاست CIFAR-100

موسسه تحقیقات پیشرفته کانادا  Canadian Institute for Advanced Research هر دو دیتاست CIFAR-10 و CIFAR-100 را عرضه کرده است. CIFAR-10 از ۶۰.۰۰۰ تصویر در قالب ۱۰ دسته تشکیل یافته است. این دسته‌ها شامل هواپیما، خودرو، پرنده، گربه، آهو، سگ، قورباغه، اسب، کشتی و کامیون هستند. CIFAR-100 نیز شبیه این دیتاست است و در مجموع دربردارنده ۶۰.۰۰۰ تصویر و ۱۰۰ دسته می‌باشد. این دو دیتاست کاربرپسند بوده و حتی مبتدی‌ها نیز قادرند به راحتی از آن استفاده کنند چرا که هر دو در قالب پیکسل‌های ۳۲×۳۲ قابل دسترس هستند و به مجموعه آموزشی متشکل از ۵۰.۰۰۰ تصویر و مجموعه آزمایشی متشکل از ۱۰.۰۰۰ تصویر با نسبت برابری از داده تقسیم شده‌اند.

 

دیتاست CIFAR-10 4

۴. دیتاست IMDB-Wiki

این دیتاست حاوی ۵۲۰.۰۰۰ تصویر چهره برگرفته از IMDB و ویکی‌پدیا است. اطلاعات مهمی از قبیل موقعیت چهره در تصویر، نام، تاریخ تولد و جنسیت اشخاص در تصاویر نیز کنار این داده‌‍‌ها ارائه می‌شوند. این دیتاست معمولاً در تشخیص جنسیت و تخمین سن کاربرد دارد.

دیتاست IMDB-Wiki

۵. ImageNet

این دیتاست محصول مشترک دانشگاه استنفورد و دانشگاه می‌باشد که برای یک مسابقه بینایی رایانه تحت عنوان «چالش بازشناسی بصری مقیاس بزرگ ImageNet » ساخته شده است. تیم‌های شرکت کننده در این مسابقه در پنج بخش به چالش کشیده می‌شوند: طبقه‌بندی شیء،  object classification محلی‌سازی شیء، object localisation تشخیص شیء، Object Detection تشخیص شیء از ویدئو و شناخت صحنه  scene recognition با استفاده از دیتاست ImageNet. این دیتاست بر پایه پایگاه‌داده واژگانی WordNet ساخته شده و فقط اسامی انتخاب می‌شوند. به طور متوسط بیش از ۵۰۰ تصویر در هر گره سلسله‌مراتب وجود دارد. در مجموع، بیش از ۱.۴ میلیون تصویر در بیش از ۲۲۰.۰۰۰ دسته وجود دارد. ImageNet بزرگ‌ترین دیتاست تصاویر به شمار می‌رود که در دسترس عموم قرار دارد.

ImageNet

۶.دیتاست تحلیل الگو، مدل‌سازی آماری و دسته‌های شیء بصری یادگیری محاسباتی

موسسه تحقیقاتی پاسکال این دیتاست را در دسترس عموم قرار داده است. اتحادیه اروپا از این موسسه حمایت مالی می‌کند. تصاویرِ این دیتاست ۴ موضوع مختلف را دربرمی‌گیرد: خانوار، وسایل نقلیه، حیوانات و اشخاص. داده‌ها نیز به ۲۰ دسته دیگر تقسیم می‌شوند. اگرچه حجم داده‌ها و انواع دسته‌ها تنوعِ ImageNet را ندارد، اما دیتاست PASCAL VOC کاربرد گسترده‌تری در توسعه تشخیص شیء و بخش‌بندی تصویر دارد.

دیتاست تحلیل الگو

۷. دیتاست LabelMe

این دیتاست با استفاده از ابزار منبع باز حاشیه‌نویسی LabelMe ساخته شده و این فرصت را در اختیار کاربران قرار می‌دهد تا شیء را زیر نظر گرفته و یادداشتی به آن شیء اضافه کند. این ابزار هم‌اکنون در اختیار MIT قرار دارد و هدف از آن، ساخت پایگاه داده‌ای تصویر برای تحقیقات بینایی ماشین است. این دیتاست عموماً برای بخش‌بندی تصاویر مورد استفاده قرار می‌گیرد.

واحدهای پردازش بینایی (VPU)

 

LabelMe

۸. دیتاست اشیای رایج در بافت مایکروسافت

مایکروسافت این دیتاست را برای چالش «اشیای رایج در بافت» عرضه کرده است که شامل تشخیص شیء، بخش‌بندی،  segmentation نقاط کلیدی  keypoint افراد و ایجاد کپشن می شود. این دیتاست حاوی بیش از ۱۲۰.۰۰۰ تصویر به همراه بیش از ۸۸۰.۰۰۰ برچسب است. در مجموع، ۹۱ دسته مختلف در این دیتاست وجود دارد. اگرچه تعداد کل تصاویر و تعداد دسته‌ها کمتر از ImageNet است، اما تعداد تصاویر در هر دسته دستکم ۵۰۰۰ مورد است. بنابراین، ماشین این قابلیت را دارد تا خصوصیات دقیق هر کدام از دسته‌ها را یاد گیرد.

دیتاست اشیای رایج

 

۹. دیتاست Places2

این دیتاست که توسط MIT عرضه شده، حاوی بیش از ۱۰ میلیون تصویر و بیش از ۴۰۰ صحنه است و در طبقه‌بندی صحنه  Scene classification و تجزیه صحنه کاربرد دارد.

Places2

این مطلب چه میزان برای شما مفید بوده است؟
[کل: ۱ میانگین: ۴]

اتصال حافظه های کوآنتومی، رکوردی جدید در فیزیک کوآنتومی

مقاله قبلی

پمپ شکل‌پذیر، قلبی منعطف برای روبات های نرم

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

بیشتر در بینایی ماشین

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد.