بینایی رایانه و 9 دیتاست مهم در این حوزه
1. دیتاست ارقام دستنویس موسسه ملی استاندارد و فناوری
MNIST دیتاست مقدماتی در بینایی رایانه است که از 70.000 تصویر ارقام دستنویس برای هر عدد تشکیل یافته است (برای مثال، ارقام 9-0 در قالب مقیاس خاکستری 28×28 نشان داده میشوند). پروفسور یان لچون Yann LeCun مسئولیت آمادهسازی دادهها را بر عهده داشت. دادهها به مجموعه آموزشی (60.000) و مجموعه آزمایشی (10.000) تقسیم شده است. کلیه ارقام در مرکز تصویر قرار داده شدهاند. این دیتاسیت در یکی از پروژههای اساسی بینایی رایانه مورد استفاده قرار میگیرد.
2. دیتاست مُد MNIST
این دیتاست تا حدی به MNIST شباهت دارد؛ همه تصاویر در قالب مقیاس خاکستری 28×28 هستند. کلیه موضوعات با مُد ارتباط دارند و شامل تیشرت، شلوار، کُت، صندل، بلوز، کفش ورزشی، کیف و چکمه میباشد. تیم تحقیق زالاندو Zalando (فروشگاه مُد و پوشاک) این دادهها را فراهم کرده است.
3. دیتاست CIFAR-10 4. دیتاست CIFAR-100
موسسه تحقیقات پیشرفته کانادا Canadian Institute for Advanced Research هر دو دیتاست CIFAR-10 و CIFAR-100 را عرضه کرده است. CIFAR-10 از 60.000 تصویر در قالب 10 دسته تشکیل یافته است. این دستهها شامل هواپیما، خودرو، پرنده، گربه، آهو، سگ، قورباغه، اسب، کشتی و کامیون هستند. CIFAR-100 نیز شبیه این دیتاست است و در مجموع دربردارنده 60.000 تصویر و 100 دسته میباشد. این دو دیتاست کاربرپسند بوده و حتی مبتدیها نیز قادرند به راحتی از آن استفاده کنند چرا که هر دو در قالب پیکسلهای 32×32 قابل دسترس هستند و به مجموعه آموزشی متشکل از 50.000 تصویر و مجموعه آزمایشی متشکل از 10.000 تصویر با نسبت برابری از داده تقسیم شدهاند.
4. دیتاست IMDB-Wiki
این دیتاست حاوی 520.000 تصویر چهره برگرفته از IMDB و ویکیپدیا است. اطلاعات مهمی از قبیل موقعیت چهره در تصویر، نام، تاریخ تولد و جنسیت اشخاص در تصاویر نیز کنار این دادهها ارائه میشوند. این دیتاست معمولاً در تشخیص جنسیت و تخمین سن کاربرد دارد.
5. ImageNet
این دیتاست محصول مشترک دانشگاه استنفورد و دانشگاه میباشد که برای یک مسابقه بینایی رایانه تحت عنوان «چالش بازشناسی بصری مقیاس بزرگ ImageNet » ساخته شده است. تیمهای شرکت کننده در این مسابقه در پنج بخش به چالش کشیده میشوند: طبقهبندی شیء، object classification محلیسازی شیء، object localisation تشخیص شیء، Object Detection تشخیص شیء از ویدئو و شناخت صحنه scene recognition با استفاده از دیتاست ImageNet. این دیتاست بر پایه پایگاهداده واژگانی WordNet ساخته شده و فقط اسامی انتخاب میشوند. به طور متوسط بیش از 500 تصویر در هر گره سلسلهمراتب وجود دارد. در مجموع، بیش از 1.4 میلیون تصویر در بیش از 220.000 دسته وجود دارد. ImageNet بزرگترین دیتاست تصاویر به شمار میرود که در دسترس عموم قرار دارد.
6.دیتاست تحلیل الگو، مدلسازی آماری و دستههای شیء بصری یادگیری محاسباتی
موسسه تحقیقاتی پاسکال این دیتاست را در دسترس عموم قرار داده است. اتحادیه اروپا از این موسسه حمایت مالی میکند. تصاویرِ این دیتاست 4 موضوع مختلف را دربرمیگیرد: خانوار، وسایل نقلیه، حیوانات و اشخاص. دادهها نیز به 20 دسته دیگر تقسیم میشوند. اگرچه حجم دادهها و انواع دستهها تنوعِ ImageNet را ندارد، اما دیتاست PASCAL VOC کاربرد گستردهتری در توسعه تشخیص شیء و بخشبندی تصویر دارد.
7. دیتاست LabelMe
این دیتاست با استفاده از ابزار منبع باز حاشیهنویسی LabelMe ساخته شده و این فرصت را در اختیار کاربران قرار میدهد تا شیء را زیر نظر گرفته و یادداشتی به آن شیء اضافه کند. این ابزار هماکنون در اختیار MIT قرار دارد و هدف از آن، ساخت پایگاه دادهای تصویر برای تحقیقات بینایی ماشین است. این دیتاست عموماً برای بخشبندی تصاویر مورد استفاده قرار میگیرد.
[irp posts=”5268″]
8. دیتاست اشیای رایج در بافت مایکروسافت
مایکروسافت این دیتاست را برای چالش «اشیای رایج در بافت» عرضه کرده است که شامل تشخیص شیء، بخشبندی، segmentation نقاط کلیدی keypoint افراد و ایجاد کپشن می شود. این دیتاست حاوی بیش از 120.000 تصویر به همراه بیش از 880.000 برچسب است. در مجموع، 91 دسته مختلف در این دیتاست وجود دارد. اگرچه تعداد کل تصاویر و تعداد دستهها کمتر از ImageNet است، اما تعداد تصاویر در هر دسته دستکم 5000 مورد است. بنابراین، ماشین این قابلیت را دارد تا خصوصیات دقیق هر کدام از دستهها را یاد گیرد.
9. دیتاست Places2
این دیتاست که توسط MIT عرضه شده، حاوی بیش از 10 میلیون تصویر و بیش از 400 صحنه است و در طبقهبندی صحنه Scene classification و تجزیه صحنه کاربرد دارد.