
بینایی رایانه و ۹ دیتاست مهم در این حوزه
۱. دیتاست ارقام دستنویس موسسه ملی استاندارد و فناوری
MNIST دیتاست مقدماتی در بینایی رایانه است که از ۷۰.۰۰۰ تصویر ارقام دستنویس برای هر عدد تشکیل یافته است (برای مثال، ارقام ۹-۰ در قالب مقیاس خاکستری ۲۸×۲۸ نشان داده میشوند). پروفسور یان لچون Yann LeCun مسئولیت آمادهسازی دادهها را بر عهده داشت. دادهها به مجموعه آموزشی (۶۰.۰۰۰) و مجموعه آزمایشی (۱۰.۰۰۰) تقسیم شده است. کلیه ارقام در مرکز تصویر قرار داده شدهاند. این دیتاسیت در یکی از پروژههای اساسی بینایی رایانه مورد استفاده قرار میگیرد.
۲. دیتاست مُد MNIST
این دیتاست تا حدی به MNIST شباهت دارد؛ همه تصاویر در قالب مقیاس خاکستری ۲۸×۲۸ هستند. کلیه موضوعات با مُد ارتباط دارند و شامل تیشرت، شلوار، کُت، صندل، بلوز، کفش ورزشی، کیف و چکمه میباشد. تیم تحقیق زالاندو Zalando (فروشگاه مُد و پوشاک) این دادهها را فراهم کرده است.
۳. دیتاست CIFAR-10 4. دیتاست CIFAR-100
موسسه تحقیقات پیشرفته کانادا Canadian Institute for Advanced Research هر دو دیتاست CIFAR-10 و CIFAR-100 را عرضه کرده است. CIFAR-10 از ۶۰.۰۰۰ تصویر در قالب ۱۰ دسته تشکیل یافته است. این دستهها شامل هواپیما، خودرو، پرنده، گربه، آهو، سگ، قورباغه، اسب، کشتی و کامیون هستند. CIFAR-100 نیز شبیه این دیتاست است و در مجموع دربردارنده ۶۰.۰۰۰ تصویر و ۱۰۰ دسته میباشد. این دو دیتاست کاربرپسند بوده و حتی مبتدیها نیز قادرند به راحتی از آن استفاده کنند چرا که هر دو در قالب پیکسلهای ۳۲×۳۲ قابل دسترس هستند و به مجموعه آموزشی متشکل از ۵۰.۰۰۰ تصویر و مجموعه آزمایشی متشکل از ۱۰.۰۰۰ تصویر با نسبت برابری از داده تقسیم شدهاند.
۴. دیتاست IMDB-Wiki
این دیتاست حاوی ۵۲۰.۰۰۰ تصویر چهره برگرفته از IMDB و ویکیپدیا است. اطلاعات مهمی از قبیل موقعیت چهره در تصویر، نام، تاریخ تولد و جنسیت اشخاص در تصاویر نیز کنار این دادهها ارائه میشوند. این دیتاست معمولاً در تشخیص جنسیت و تخمین سن کاربرد دارد.
۵. ImageNet
این دیتاست محصول مشترک دانشگاه استنفورد و دانشگاه میباشد که برای یک مسابقه بینایی رایانه تحت عنوان «چالش بازشناسی بصری مقیاس بزرگ ImageNet » ساخته شده است. تیمهای شرکت کننده در این مسابقه در پنج بخش به چالش کشیده میشوند: طبقهبندی شیء، object classification محلیسازی شیء، object localisation تشخیص شیء، Object Detection تشخیص شیء از ویدئو و شناخت صحنه scene recognition با استفاده از دیتاست ImageNet. این دیتاست بر پایه پایگاهداده واژگانی WordNet ساخته شده و فقط اسامی انتخاب میشوند. به طور متوسط بیش از ۵۰۰ تصویر در هر گره سلسلهمراتب وجود دارد. در مجموع، بیش از ۱.۴ میلیون تصویر در بیش از ۲۲۰.۰۰۰ دسته وجود دارد. ImageNet بزرگترین دیتاست تصاویر به شمار میرود که در دسترس عموم قرار دارد.
۶.دیتاست تحلیل الگو، مدلسازی آماری و دستههای شیء بصری یادگیری محاسباتی
موسسه تحقیقاتی پاسکال این دیتاست را در دسترس عموم قرار داده است. اتحادیه اروپا از این موسسه حمایت مالی میکند. تصاویرِ این دیتاست ۴ موضوع مختلف را دربرمیگیرد: خانوار، وسایل نقلیه، حیوانات و اشخاص. دادهها نیز به ۲۰ دسته دیگر تقسیم میشوند. اگرچه حجم دادهها و انواع دستهها تنوعِ ImageNet را ندارد، اما دیتاست PASCAL VOC کاربرد گستردهتری در توسعه تشخیص شیء و بخشبندی تصویر دارد.
۷. دیتاست LabelMe
این دیتاست با استفاده از ابزار منبع باز حاشیهنویسی LabelMe ساخته شده و این فرصت را در اختیار کاربران قرار میدهد تا شیء را زیر نظر گرفته و یادداشتی به آن شیء اضافه کند. این ابزار هماکنون در اختیار MIT قرار دارد و هدف از آن، ساخت پایگاه دادهای تصویر برای تحقیقات بینایی ماشین است. این دیتاست عموماً برای بخشبندی تصاویر مورد استفاده قرار میگیرد.
[irp posts=”۵۲۶۸″]
۸. دیتاست اشیای رایج در بافت مایکروسافت
مایکروسافت این دیتاست را برای چالش «اشیای رایج در بافت» عرضه کرده است که شامل تشخیص شیء، بخشبندی، segmentation نقاط کلیدی keypoint افراد و ایجاد کپشن می شود. این دیتاست حاوی بیش از ۱۲۰.۰۰۰ تصویر به همراه بیش از ۸۸۰.۰۰۰ برچسب است. در مجموع، ۹۱ دسته مختلف در این دیتاست وجود دارد. اگرچه تعداد کل تصاویر و تعداد دستهها کمتر از ImageNet است، اما تعداد تصاویر در هر دسته دستکم ۵۰۰۰ مورد است. بنابراین، ماشین این قابلیت را دارد تا خصوصیات دقیق هر کدام از دستهها را یاد گیرد.
۹. دیتاست Places2
این دیتاست که توسط MIT عرضه شده، حاوی بیش از ۱۰ میلیون تصویر و بیش از ۴۰۰ صحنه است و در طبقهبندی صحنه Scene classification و تجزیه صحنه کاربرد دارد.