دیتاست سری زمانی برای یادگیری ماشین
داده کاوی و بیگ دیتادیتاست

۷ دیتاست سری زمانی برای یادگیری ماشین

0
زمان مطالعه: ۵ دقیقه

یادگیری ماشین را می‌توان در دیتاست‌‌های سری زمانی Time series datasets پیاده‌سازی و اجرا کرد. پیش‌بینی مقادیر عددی و دسته‌ای Numeric and categorical value دشوار است اما ردیف‌های داده بر اساس زمان مرتب می‌شوند. یکی از مشکلاتی که در هنگام پیش‌بینی سری‌های زمانی Time series forecasting با یادگیری ماشین با آن مواجه هستیم، پیدا کردن دیتاست‌هایی استاندارد با کیفیت خوب برای تمرین کردن است. در این پُست به معرفی ۷ دیتاست سری زمانی برای یادگیری ماشین خواهیم پرداخت و شما با بهره‌گیری از آن‌ها می‌توانید پیش‌بینی سری‌های زمانی با یادگیری ماشین را آغاز و تمرین کنید.

پس از مطالعه این پست با:

  • ۴ دیتاست سری‌زمانی یک متغیره
  • ۳ دیتاست سری‌زمانی چند متغیره
  • وب‌سایت‌هایی که می‌توانید دیتاست‌ها در آن جست‌وجو و دانلود کنید

آشنا خواهید شد.

به شما پیشنهاد می‌کنم کتاب جدید من به نام پیش‌بینی سری‌های زمانی با پایتون را مطالعه و  سپس پروژه خود را آغاز کنید. این کتاب شامل آموزش‌های مرحله به مرحله و فایل‌های کد منبع پایتون برای تمامی نمونه‌ها است.

دیتاست‌های سری‌ زمانی یک متغیره

به دیتاست‌های سری زمانی‌ای که فقط یک متغیر داشته باشند، دیتاست یک متغیره گفته می‌شود. این‌گونه دیتاست‌ها در شروع پروژه می‌توانند کمک بزرگی برای شما باشند، زیرا:

  • بسیار ساده هستند و درک آن‌ها بسیار آسان است.
  • به آسانی می‌توانید آن‌ها را در اِکسِل یا دیگر ابزارهای ترسیم رسم کنید.
  • به آسانی می‌توانید پیش‌بینی‌ها را نسبت به نتایج مورد انتظار رسم کنید.
  • به سرعت می‌توانید مجموعه‌ای از روش‌های جدیدتر و قدیمی را امتحان و ارزیابی کنید.

منابع زیادی برای دیتاست‌های سری زمانی وجود دارد؛ برای نمونه می‌توان به “Time Series Data Library” اشاره کرد که توسط راب هیندمَن Rob Hyndman ، استاد آمار در دانشگاه مانش استرالیا Monash University, Australia ساخته شده است.

در ادامه ۴ دیتاست سری زمانی یک متغیره ارائه شده است و می‌توانید دیتاست‌های مربوط به حوزه‌های گوناگون از جمله فروش، هواشناسی، فیزیک و جمعیت‌شناسی را دانلود کنید.

دیتاست فروش شامپو

این دیتاست نشان‌دهنده میزان فروش ماهانه شامپو طی سه سال گذشته است.

نمونه‌ها نشان‌دهنده تعداد فروش هستند و ۳۶ مشاهده (نمونه) در این دیتاست وجود دارد.  دیتاست‌های اصلی به ماکریداکیس Makridakis، ویل رایت Wheelwright و هیندمن (۱۹۹۸) تعلق دارند.

در ادامه نمونه‌ای از پنج ردیف اول داده، از جمله ردیف سربرگ Header row، ارائه شده است.

در تصویر مقابل کل دیتاست ترسیم شده است.

فروش شامپو

دیتاست نشان‌دهنده روند رو به افزایش و احتمالا چندین مؤلفه فصلی است.

در اینجا لینک مربوط به دانلود دیتاست را قرار می دهیم. دانلود دیتاست

انواع دیتاست‌ ها در حوزه‌ های علوم داده، داده‌کاوی و یادگیری ماشینی

دیتاست دمای کمینه روزانه

این دیتاست نشان‌دهنده کمینه دمای روزانه شهر ملبورن، استرالیا طی ده سال گذشته (۱۹۹۰ – ۱۹۸۱) است.

واحدها بر حسب درجه سلسیوس هستند و ۳۶۵۰ مشاهده (نمونه) در این دیتاست وجود دارد. این دیتاست متعلق به اداره هواشناسی استرالیا Australian Bureau of Meteorology است.

در ادامه نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست سری زمانی برای یادگیری ماشین

این دیتاست نشان‌دهنده مؤلفه‌های فصلی قوی است و دارای جزئیات دانه‌بندی ریز Fine grained detail است.

دیتاست ماهانه لکه‌های خورشیدی

این دیتاست نشان‌دهنده تعداد ماهانه لکه‌های خورشیدی است که طی ۲۳۰ سال گذشته (۱۹۸۳ – ۱۷۴۹) مشاهده شده‌اند.

در این دیتاست ۲۸۲۰ مشاهده (نمونه) وجود دارد. این دیتاست متعلق به اندرو و هِرزبرگ (۱۹۸۵) Andrews & Herzberg (1985) است.

در ادامه، نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست سری زمانی برای یادگیری ماشین

این دیتاست نشان‌دهنده فصلی‌بودن و تفاوت‌های فاحش میان فصل‌ها است.

دیتاست آمار روزانه تولد دختران

این دیتاست نشان‌دهنده تعداد دخترانی است که (روزانه) در سال ۱۹۵۹ در کالیفرنیا متولد شده‌اند.

در این دیتاست ۳۶۵ مشاهده (نمونه) وجود دارد. دیتاست اصلی متعلق به نیوتون ۱۹۸۸
Newton 1988
است.

در ادامه نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

در تصویر مقابل کل دیتاست ترسیم شده است.

ترسیم دیتاست

دیتاست‌های سری زمانی چند متغیره

به طور کلی دیتاست‌های چند متغیره چالش برانگیزتر هستند و می‌توان گفت بهترین نوع دیتاست برای یادگیری ماشین هستند.

یکی از منابع خوب دیتاست‌های سری زمانی چند متغیره UCI Machine Learning Repository است. در زمان نوشتن این پست، ۶۳ دیتاست سری زمانی وجود دارد که شما می‌توانید به صورت رایگان آن‌ها را دانلود کنید و از آن‌ها استفاده کنید.

در ادامه ۳ دیتاست سری زمانی چند متغیره از حوزه‌های هواشناسی، پزشکی و نظارتی ارائه شده است.

۱۰ دیتاست چهره برای آغاز پروژه‌های تشخیص چهره

دیتاست الکتروانسفالوگرافی حالت چشم

این دیتاست نشان‌دهنده داده‌های الکتروانسفالوگرافی EEG  افراد است و نشان می‌دهد که آیا این افراد چشم‌های‌شان بسته بود است یا باز. هدف این مسئله این پیش‌بینی باز بودن و یا بسته بودن چشم‌ها فقط با در نظر گرفت داده‌های EEG است.

هدف این مسئله این  پیش‌بینی باز بودن و یا بسته بودن چشم‌ها فقط با در نظر گرفت داده‌های EEG است.

این دیتاست مسئله H مدل‌سازی پیش‌بینی‌کننده طبقه‌بندی Classification predictive modeling problems شده‌اند و در مجموع ۱۴۹۸۰ مشاهده (نمونه) و ۱۵ متغیر ورودی وجود دارد.

عدد ۱ نشان می‌دهد که چشم باز بوده  و عدد ۰ (صفر) نشان می‌دهد که چشم بسته بوده است. داده‌ها بر حسب زمان مرتب شده‌اند و مشاهدات در طول ۱۱۷ ثانیه ثبت شده‌اند.

داده‌ها بر حسب زمان مرتب شده‌اند و مشاهدات در طول ۱۱۷ ثانیه ثبت شده‌اند.

در ادامه نمونه‌ای از ۵ ردیف اول بدون ردیف سربرگ ارائه شده است.

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست تشخیص فضای اِشغال شده

این دیتاست نشان‌دهنده مساحت یک اتاق است و هدف این دیتاست این است که پیش‌بینی کند آیا فضای اتاق اِشغال شده است یا خیر.

۲۰۵۶۰ مشاهده (نمونه) یک دقیقه‌ای وجود دارد که طی چندین هفته جمع‌آوری شده‌اند. این دیتاست یک مسئله طبقه‌بندی است. ۷ ویژگی از جمله نورهای مختلف و شرایط آب‌‌و‌هوایی مختلف وجود دارد.

داده‌های اصلی متعلق به لوییس کانداندو Luis Candanedo از UMONS است.

در ادامه نمونه‌ای از ۵ ردیف اول داده‌ها به همراه ردیف سربرگ ارائه شده است.

داده‌ها در سه فایل ارائه شده‌اند و این داده‌ها تفکیک شده‌اند و ممکن است از آنها برای آموزش و آزمایش یک مدل استفاده شود.

دیتاست تشخیص سطح اُزون

این دیتاست سری زمانی برای یادگیری ماشین نشان‌دهنده مشاهدات غلظت مضر ازون Ground ozone concentration طی ۶ سال است و هدف این دیتاست این است که پیش‌بینی کند آیا روز اُزون Ozone day  وجود دارد یا خیر.

این دیتاست شامل ۲۵۳۶ مشاهده (نمونه) و ۷۳ ویژگی است. این یک مسئله طبقه‌بندی Classification prediction problem  است و عدد ۱ نشان‌دهنده روز اُزون و عدد ۰ (صفر) نشان‌دهنده یک روز معمولی است.

در این دیتاست دو نمونه داده ، مجموعه اوج غلظت ازون طی یک ساعت و مجموعه اوج غلظت ازون طی هشت ساعت، وجود دارد. پیشنهاد می‌کنم الان از مجموعه اوج یک ساعته استفاده کنیم.

در ادامه نمونه‌ای از ۵ ردیف اول داده‌ها بدون ردیف سربرگ ارائه شده است.

جمع‌بندی

در این پست با چندین دیتاست پیش‌بینی سری زمانی آشنا شدید و می‌توانید با استفاده از این دیتا‌ست‌ها پیش‌بینی سری زمانی با تکنیک‌های یادگیری ماشین را آغاز و تمرین کنید.

در این پست به ویژه با:

  • ۴ دیتاست سری‌زمانی یک متغیره
  • ۳ دیتاست سری‌زمانی چند متغیره
  • دو وبسایت که می‌توانید دیتاست‌های زیادی را از آن‌ها دانلود کنید

آشنا شدید.

این مطلب چه میزان برای شما مفید بوده است؟
[کل: ۰ میانگین: ۰]

نکته‌هایی درباره به‌کارگیری هوش مصنوعی در شهرداری

مقاله قبلی

آینده‌‌ با خودروهای متصل خواهد بود

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد.