دیتاست‌های یادگیری ماشین
دیتاست

محبوب‌ترین منابع دانلود دیتاست‌های یادگیری ماشین

0

یافتن دیتاست‌ مناسب برای انجام برخی مسائل یادگیری ماشین و آزمایش کردن بر روی آن‌ها دشوار است. در این نوشتار فهرستی از بهترین دیتاست‌های یادگیری ماشین موجود تهیه کرده‌ و به توضیح مختصری درباره هر یک و ذکر نمونه‌هایی از موارد کاربرد آن‌ها پرداخته‌ایم. همچنین، الگوریتم مورد نیاز برای حل برخی مسائل یادگیری ماشین مرتبط با همان دیتاست را معرفی کرده‌ایم.

۱- دیتاست‌های Kaggle
Datasets | Kaggle

www.Kaggle.com

Kaggle جز محبوب‌ترین منابع دانلود دیتا‌ست‌ است. هر دیتاست محیط کوچکی دارد که در آن می‌توانید راجع به داده‌ها بحث و گفت‌وگو کنید، کدهایی که به صورت عمومی در دسترس قرار گرفته‌اند را بیابید و پروژه‌های خود را در کرنل‌ها ایجاد کنید. کرنل‌ها شامل دیتاست‌های زیادی (از دنیای واقعی) در اندازه‌‌، اشکال و فرمت‌های مختلف هستند. علاوه بر این، می‌توانید «کرنل‌»های مربوط به هر یک از دیتاست‌ها را مشاهده کنید؛ متخصصین علوم داده نوت‌بوک‌هایی برای تحلیل دیتاست در کرنل‌ها قرار می‌دهند. برخی مواقع نیز می‌توانید نوت‌بوک‌هایی حاوی الگوریتم‌هایی پیدا کنید که به انجام مسائل مربوط به پیش‌بینی در همان دیتاست کمک می‌کنند.

۲- دیتاست‌های Amazon
Registery of Open Data on AWS

از طریق Registry of Open Data on AWS  می‌توان به دیتاست‌ها دسترسی داشت.

registery.opendata.aws

در این منبع، دیتاست‌های زیادی در زمینه‌های مختلف از جمله حمل‌و‌نقل عمومی، منابع بوم‌شناختی، تصاویر ماهواره‌ای و غیره وجود دارد. این منبع دارای یک کادر جست‌و‌جو است که به شما در یافتن دیتاست مورد نظرتان کمک می‌کند و علاوه بر این، در این منبع توضیحی درباره هر یک از دیتاست‌ها و نمونه‌هایی از موارد کاربرد آن‌ها ارائه شده که بسیار آموزنده هستند و استفاده از آن‌ها آسان است.

این دیتاست‌ها در منابع سرویس‌های وب آمازون (AWS) از جمله Amazon S3 ذخیره شده‌اند؛ Amazon S3 یک سرویس ابری ذخیره اشیا با قابلیت مقیاس‌پذیری بالا است. چنان‌چه از AWS برای توسعه و یا انجام آزمایشات مربوط به یادگیری ماشین استفاده می‌کنید، این منبع می‌تواند کمک زیادی به شما بکند، چراکه این منبع در شبکه AWS قرار دارد و به همین دلیل سرعت انتقال دیتاست‌ها بالا است.

۳- دیتاست UCI Machine Learning Repository

https://archive.ics.uci.edu/ml/index.php

دیتاست‌های یادگیری ماشین

این منبع را مدرسه علوم کامپیوتر و فن‌آوری اطلاعات School of Information and Computer Science دانشگاه کالیفرنیا توسعه داده و حاوی ۱۰۰ دیتاست است.  این منبع دیتاست‌ها را بر اساس نوع مشکل و مسئله یادگیری ماشین طبقه‌بندی می‌کند. در این منبع می‌توانید دیتاست‌هایی برای دیتاست‌های سری زمانی تک متغیره و چند متغیره Univariate and multivariate time-series datasets، طبقه‌بندی، رگرسیون و سیستم‌های توصیه‌گر بیابید. برخی از دیتاست‌های موجود در UCI مرتب شده و آماده استفاده هستند.

۴- موتور جست‌و‌جوی دیتاست‌ متعلق به گوگل
Toolbox.google.com

دیتاست‌های یادگیری ماشین

اواخر سال ۲۰۱۸، شرکت گوگل سرویس فوق‌العاده دیگری معرفی و عرضه کرد. این سرویس، جعبه‌ابزاری است که می‌تواند دیتاست‌ها را بر اساس نام جست‌و‌جو کند. هدف گوگل از عرضه این سرویس این است که ده‌ها هزار مخزن دانلود دیتاست‌ را با هم ترکیب کند و  به یک منبع واحد تبدیل کند و یافتن داده‌ها را آسان کند.

۵- دیتاست‌های مایکروسافت

ماه جولای سال ۲۰۱۸، شرکت مایکروسافت با همکاری گروهی دیگر از پژوهش‌گران، “Microsoft Research Open Data” را معرفی و عرضه کردند.

Microsoft Research Open Data

Msropendata.com

این منبع داده ابری با هدف تسهیل همکاری میان جوامع پژوهشی سراسر جهان توسعه داده شده است. این منبع شامل دیتاست‌های منتخبی است که از آن‌ها در آثار پژوهشی منتشرشده استفاده شده است.

۶- مجموعه Awesome Public Datasets
awesomedata/awesome-public-datasets

در این منبع، دیتاست‌ها بر اساس موضوع از جمله زیست‌شناسی، اقتصاد، آموزش و غیره مرتب شده‌اند. بسیاری از دیتاست‌هایی که در این منبع بارگذاری شده‌اند، رایگان هستند، اما پیش از استفاده از دیتاست‌ها حتماً محدویت‌های کاربردیمحدویت‌های کاربردی Licensing requirements آن را بررسی کنید.

۷- دیتاست‌های دولتی

یافتن دیتاست‌های دولتی آسان است. بسیاری از کشورها با هدف شفاف‌سازی، دسترسی به برخی از دیتاست‌های دولتی برای عموم مردم آزاد گذاشته‌اند. در ادامه، تعدادی از این دیتاست‌ها را معرفی می‌کنیم:

۸- دیتاست‌های بینایی کامپیوتر

چنانچه در حال انجام پروژه‌ای در زمینه پردازش تصویر، بینایی کامپیوتر یا یادگیری عمیق هستید، می‌توانید از این منبع داده، برای انجام آزمایشات خود استفاده کنید.

VisualData

www.visualdata.io

VisualData شامل چندین دیتاست فوق‌العاده است که می‌توان از آن‌ها در ساخت مدل‌های بینایی کامپیوتر استفاده کرد. در این منبع می‌توانید دیتاست‌ها را بر اساس موضوع از قبیل تقطیع معنایی Semantic segmentation، عنوان‌سازی برای تصویر Image captioning، تولید تصویر و یا حتی بر اساس موارد کاربرد از جمله (دیتاست ماشین‌های خودران) جست‌و‌جو کنید.

۹- دیتاست‌های Lionbridge AI
دیتاست‌هایی برای یادگیری ماشین | Lionbridge AI

https://lionbridge.ai/datasets/

نتیجه‌گیری

به نظر می‌رسد افراد فعال در حوزه هوش مصنوعی در تلاش هستند تا داده‌های بیشتری در اختیار جوامع پژوهشی و افراد فعال در حوزه یادگیری ماشین قرار دهند و دسترسی به داده‌ها را برای این افراد و گروه‌ها تسهیل کنند. تعداد کاربران دیتاست‌های جدید رو به افزایش است و امکان دسترسی به داده‌ها را برای دیگران تسهیل می‌کنند و در نتیجه افراد فعال در حوزه علوم کامپیوتر می‌توانند مدل‌ها، نرم‌افزارها، برنامه‌ها و غیره جدیدتر و خلاقانه‌تری ایجاد کنند و توسعه دهند.

۳ فاکتور حیاتی هوش مصنوعی: تنوع، عدالت و شمول

مقاله قبلی

هوش مصنوعی در امور مالی تغییرات جدیدی ایجاد‌‌ می‌‌کند

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

بیشتر در دیتاست

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *