یافتن دیتاست مناسب برای انجام برخی مسائل یادگیری ماشین و آزمایش کردن بر روی آنها دشوار است. در این نوشتار فهرستی از بهترین دیتاستهای یادگیری ماشین موجود تهیه کرده و به توضیح مختصری درباره هر یک و ذکر نمونههایی از موارد کاربرد آنها پرداختهایم. همچنین، الگوریتم مورد نیاز برای حل برخی مسائل یادگیری ماشین مرتبط با همان دیتاست را معرفی کردهایم.
۱- دیتاستهای Kaggle
Datasets | Kaggle www.Kaggle.com |
Kaggle جز محبوبترین منابع دانلود دیتاست است. هر دیتاست محیط کوچکی دارد که در آن میتوانید راجع به دادهها بحث و گفتوگو کنید، کدهایی که به صورت عمومی در دسترس قرار گرفتهاند را بیابید و پروژههای خود را در کرنلها ایجاد کنید. کرنلها شامل دیتاستهای زیادی (از دنیای واقعی) در اندازه، اشکال و فرمتهای مختلف هستند. علاوه بر این، میتوانید «کرنل»های مربوط به هر یک از دیتاستها را مشاهده کنید؛ متخصصین علوم داده نوتبوکهایی برای تحلیل دیتاست در کرنلها قرار میدهند. برخی مواقع نیز میتوانید نوتبوکهایی حاوی الگوریتمهایی پیدا کنید که به انجام مسائل مربوط به پیشبینی در همان دیتاست کمک میکنند.
۲- دیتاستهای Amazon
Registery of Open Data on AWS از طریق Registry of Open Data on AWS میتوان به دیتاستها دسترسی داشت. registery.opendata.aws |
در این منبع، دیتاستهای زیادی در زمینههای مختلف از جمله حملونقل عمومی، منابع بومشناختی، تصاویر ماهوارهای و غیره وجود دارد. این منبع دارای یک کادر جستوجو است که به شما در یافتن دیتاست مورد نظرتان کمک میکند و علاوه بر این، در این منبع توضیحی درباره هر یک از دیتاستها و نمونههایی از موارد کاربرد آنها ارائه شده که بسیار آموزنده هستند و استفاده از آنها آسان است.
این دیتاستها در منابع سرویسهای وب آمازون (AWS) از جمله Amazon S3 ذخیره شدهاند؛ Amazon S3 یک سرویس ابری ذخیره اشیا با قابلیت مقیاسپذیری بالا است. چنانچه از AWS برای توسعه و یا انجام آزمایشات مربوط به یادگیری ماشین استفاده میکنید، این منبع میتواند کمک زیادی به شما بکند، چراکه این منبع در شبکه AWS قرار دارد و به همین دلیل سرعت انتقال دیتاستها بالا است.
۳- دیتاست UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/index.php
این منبع را مدرسه علوم کامپیوتر و فنآوری اطلاعات School of Information and Computer Science دانشگاه کالیفرنیا توسعه داده و حاوی ۱۰۰ دیتاست است. این منبع دیتاستها را بر اساس نوع مشکل و مسئله یادگیری ماشین طبقهبندی میکند. در این منبع میتوانید دیتاستهایی برای دیتاستهای سری زمانی تک متغیره و چند متغیره Univariate and multivariate time-series datasets، طبقهبندی، رگرسیون و سیستمهای توصیهگر بیابید. برخی از دیتاستهای موجود در UCI مرتب شده و آماده استفاده هستند.
۴- موتور جستوجوی دیتاست متعلق به گوگل
Toolbox.google.com |
اواخر سال ۲۰۱۸، شرکت گوگل سرویس فوقالعاده دیگری معرفی و عرضه کرد. این سرویس، جعبهابزاری است که میتواند دیتاستها را بر اساس نام جستوجو کند. هدف گوگل از عرضه این سرویس این است که دهها هزار مخزن دانلود دیتاست را با هم ترکیب کند و به یک منبع واحد تبدیل کند و یافتن دادهها را آسان کند.
۵- دیتاستهای مایکروسافت
ماه جولای سال ۲۰۱۸، شرکت مایکروسافت با همکاری گروهی دیگر از پژوهشگران، “Microsoft Research Open Data” را معرفی و عرضه کردند.
Microsoft Research Open Data Msropendata.com |
این منبع داده ابری با هدف تسهیل همکاری میان جوامع پژوهشی سراسر جهان توسعه داده شده است. این منبع شامل دیتاستهای منتخبی است که از آنها در آثار پژوهشی منتشرشده استفاده شده است.
۶- مجموعه Awesome Public Datasets
awesomedata/awesome-public-datasets |
در این منبع، دیتاستها بر اساس موضوع از جمله زیستشناسی، اقتصاد، آموزش و غیره مرتب شدهاند. بسیاری از دیتاستهایی که در این منبع بارگذاری شدهاند، رایگان هستند، اما پیش از استفاده از دیتاستها حتماً محدویتهای کاربردیمحدویتهای کاربردی Licensing requirements آن را بررسی کنید.
۷- دیتاستهای دولتی
یافتن دیتاستهای دولتی آسان است. بسیاری از کشورها با هدف شفافسازی، دسترسی به برخی از دیتاستهای دولتی برای عموم مردم آزاد گذاشتهاند. در ادامه، تعدادی از این دیتاستها را معرفی میکنیم:
- پرتال دادههای باز اتحادیه اروپا: دیتاستهای دولتهای اروپایی
- دادههای دولتی ایالات متحده (همانگونه که در صفحه اصلی این وبسایت اعلام شده، در حال حاضر به دلیل تعطیلی دولت ترامپ یا «کمبود بودجه» امکان دسترسی به این وبسایت وجود ندارد).
- دیتاست دولت نیوزیلند
- دیتاست دولت هندوستان
- ( دیتاست عمومی ایرلند شمالی)
۸- دیتاستهای بینایی کامپیوتر
چنانچه در حال انجام پروژهای در زمینه پردازش تصویر، بینایی کامپیوتر یا یادگیری عمیق هستید، میتوانید از این منبع داده، برای انجام آزمایشات خود استفاده کنید.
VisualData www.visualdata.io |
VisualData شامل چندین دیتاست فوقالعاده است که میتوان از آنها در ساخت مدلهای بینایی کامپیوتر استفاده کرد. در این منبع میتوانید دیتاستها را بر اساس موضوع از قبیل تقطیع معنایی Semantic segmentation، عنوانسازی برای تصویر Image captioning، تولید تصویر و یا حتی بر اساس موارد کاربرد از جمله (دیتاست ماشینهای خودران) جستوجو کنید.
۹- دیتاستهای Lionbridge AI
دیتاستهایی برای یادگیری ماشین | Lionbridge AI https://lionbridge.ai/datasets/ |
نتیجهگیری
به نظر میرسد افراد فعال در حوزه هوش مصنوعی در تلاش هستند تا دادههای بیشتری در اختیار جوامع پژوهشی و افراد فعال در حوزه یادگیری ماشین قرار دهند و دسترسی به دادهها را برای این افراد و گروهها تسهیل کنند. تعداد کاربران دیتاستهای جدید رو به افزایش است و امکان دسترسی به دادهها را برای دیگران تسهیل میکنند و در نتیجه افراد فعال در حوزه علوم کامپیوتر میتوانند مدلها، نرمافزارها، برنامهها و غیره جدیدتر و خلاقانهتری ایجاد کنند و توسعه دهند.
نظرات