بینایی رایانه
بینایی ماشیندیتاست

بینایی رایانه و ۹ دیتاست مهم در این حوزه

    0
    بینایی رایانه به عنوان یکی از حوزه‌های هوش مصنوعی با سرعت قابل توجهی در حال توسعه است. به لطف حرکت سخاوتمندانه برخی از شرکت‌ها در ارائه عمومی دیتاست‌ تصاویر، اکنون دانشمندان داده‌ قادرند به راحتی اقدام به ساخت معماری‌های مختلف مدل نمایند. مقالۀ حاضر بر آن است تا ۹ مورد از پرکاربردترین دیتاست‌ها را معرفی کند.

    ۱. دیتاست ارقام دست‌نویس موسسه ملی استاندارد و فناوری

    MNIST دیتاست مقدماتی در بینایی رایانه است که از ۷۰.۰۰۰ تصویر ارقام دست‌نویس برای هر عدد تشکیل یافته است (برای مثال، ارقام ۹-۰ در قالب مقیاس خاکستری ۲۸×۲۸ نشان داده می‌شوند). پروفسور یان لچون  Yann LeCun مسئولیت آماده‌سازی داده‌ها را بر عهده داشت. داده‌ها به مجموعه آموزشی (۶۰.۰۰۰) و مجموعه آزمایشی (۱۰.۰۰۰) تقسیم شده است. کلیه ارقام در مرکز تصویر قرار داده شده‌اند. این دیتاسیت در یکی از پروژه‌های اساسی بینایی رایانه مورد استفاده قرار می‌گیرد.بینایی رایانه

     

    ۲. دیتاست مُد MNIST

    این دیتاست تا حدی به MNIST شباهت دارد؛ همه تصاویر در قالب مقیاس خاکستری ۲۸×۲۸ هستند. کلیه موضوعات با مُد ارتباط دارند و شامل تی‌شرت، شلوار، کُت، صندل، بلوز، کفش ورزشی، کیف و چکمه می‌باشد. تیم تحقیق زالاندو  Zalando  (فروشگاه مُد و پوشاک) این داده‌ها را فراهم کرده است.

    بینایی رایانه

    ۳. دیتاست CIFAR-10 4. دیتاست CIFAR-100

    موسسه تحقیقات پیشرفته کانادا  Canadian Institute for Advanced Research هر دو دیتاست CIFAR-10 و CIFAR-100 را عرضه کرده است. CIFAR-10 از ۶۰.۰۰۰ تصویر در قالب ۱۰ دسته تشکیل یافته است. این دسته‌ها شامل هواپیما، خودرو، پرنده، گربه، آهو، سگ، قورباغه، اسب، کشتی و کامیون هستند. CIFAR-100 نیز شبیه این دیتاست است و در مجموع دربردارنده ۶۰.۰۰۰ تصویر و ۱۰۰ دسته می‌باشد. این دو دیتاست کاربرپسند بوده و حتی مبتدی‌ها نیز قادرند به راحتی از آن استفاده کنند چرا که هر دو در قالب پیکسل‌های ۳۲×۳۲ قابل دسترس هستند و به مجموعه آموزشی متشکل از ۵۰.۰۰۰ تصویر و مجموعه آزمایشی متشکل از ۱۰.۰۰۰ تصویر با نسبت برابری از داده تقسیم شده‌اند.

     

    بینایی رایانه

    ۴. دیتاست IMDB-Wiki

    این دیتاست حاوی ۵۲۰.۰۰۰ تصویر چهره برگرفته از IMDB و ویکی‌پدیا است. اطلاعات مهمی از قبیل موقعیت چهره در تصویر، نام، تاریخ تولد و جنسیت اشخاص در تصاویر نیز کنار این داده‌‍‌ها ارائه می‌شوند. این دیتاست معمولاً در تشخیص جنسیت و تخمین سن کاربرد دارد.

    بینایی رایانه

    ۵. ImageNet

    این دیتاست محصول مشترک دانشگاه استنفورد و دانشگاه می‌باشد که برای یک مسابقه بینایی رایانه تحت عنوان «چالش بازشناسی بصری مقیاس بزرگ ImageNet » ساخته شده است. تیم‌های شرکت کننده در این مسابقه در پنج بخش به چالش کشیده می‌شوند: طبقه‌بندی شیء،  object classification محلی‌سازی شیء، object localisation تشخیص شیء، Object Detection تشخیص شیء از ویدئو و شناخت صحنه  scene recognition با استفاده از دیتاست ImageNet. این دیتاست بر پایه پایگاه‌داده واژگانی WordNet ساخته شده و فقط اسامی انتخاب می‌شوند. به طور متوسط بیش از ۵۰۰ تصویر در هر گره سلسله‌مراتب وجود دارد. در مجموع، بیش از ۱.۴ میلیون تصویر در بیش از ۲۲۰.۰۰۰ دسته وجود دارد. ImageNet بزرگ‌ترین دیتاست تصاویر به شمار می‌رود که در دسترس عموم قرار دارد.

    بینایی رایانه

    ۶.دیتاست تحلیل الگو، مدل‌سازی آماری و دسته‌های شیء بصری یادگیری محاسباتی

    موسسه تحقیقاتی پاسکال این دیتاست را در دسترس عموم قرار داده است. اتحادیه اروپا از این موسسه حمایت مالی می‌کند. تصاویرِ این دیتاست ۴ موضوع مختلف را دربرمی‌گیرد: خانوار، وسایل نقلیه، حیوانات و اشخاص. داده‌ها نیز به ۲۰ دسته دیگر تقسیم می‌شوند. اگرچه حجم داده‌ها و انواع دسته‌ها تنوعِ ImageNet را ندارد، اما دیتاست PASCAL VOC کاربرد گسترده‌تری در توسعه تشخیص شیء و بخش‌بندی تصویر دارد.

    بینایی رایانه

    ۷. دیتاست LabelMe

    این دیتاست با استفاده از ابزار منبع باز حاشیه‌نویسی LabelMe ساخته شده و این فرصت را در اختیار کاربران قرار می‌دهد تا شیء را زیر نظر گرفته و یادداشتی به آن شیء اضافه کند. این ابزار هم‌اکنون در اختیار MIT قرار دارد و هدف از آن، ساخت پایگاه داده‌ای تصویر برای تحقیقات بینایی ماشین است. این دیتاست عموماً برای بخش‌بندی تصاویر مورد استفاده قرار می‌گیرد.

     

    بینایی رایانه

    ۸. دیتاست اشیای رایج در بافت مایکروسافت

    مایکروسافت این دیتاست را برای چالش «اشیای رایج در بافت» عرضه کرده است که شامل تشخیص شیء، بخش‌بندی،  segmentation نقاط کلیدی  keypoint افراد و ایجاد کپشن می شود. این دیتاست حاوی بیش از ۱۲۰.۰۰۰ تصویر به همراه بیش از ۸۸۰.۰۰۰ برچسب است. در مجموع، ۹۱ دسته مختلف در این دیتاست وجود دارد. اگرچه تعداد کل تصاویر و تعداد دسته‌ها کمتر از ImageNet است، اما تعداد تصاویر در هر دسته دستکم ۵۰۰۰ مورد است. بنابراین، ماشین این قابلیت را دارد تا خصوصیات دقیق هر کدام از دسته‌ها را یاد گیرد.

    بینایی رایانه

     

    ۹. دیتاست Places2

    این دیتاست که توسط MIT عرضه شده، حاوی بیش از ۱۰ میلیون تصویر و بیش از ۴۰۰ صحنه است و در طبقه‌بندی صحنه  Scene classification و تجزیه صحنه کاربرد دارد.

    بینایی رایانه

    الگوریتم چیست؟ بستگی دارد از چه کسی بپرسید

    مقاله قبلی

    معاملات الگوریتمی با یادگیری عمیق

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    بیشتر در بینایی ماشین

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *