![۷ دیتاست سری زمانی برای یادگیری ماشین](https://hooshio.com/wp-content/uploads/2020/09/TS-7.jpg)
۷ دیتاست سری زمانی برای یادگیری ماشین
یادگیری ماشین را میتوان در دیتاستهای سری زمانی Time series datasets پیادهسازی و اجرا کرد. پیشبینی مقادیر عددی و دستهای Numeric and categorical value دشوار است اما ردیفهای داده بر اساس زمان مرتب میشوند. یکی از مشکلاتی که در هنگام پیشبینی سریهای زمانی Time series forecasting با یادگیری ماشین با آن مواجه هستیم، پیدا کردن دیتاستهایی استاندارد با کیفیت خوب برای تمرین کردن است. در این پُست به معرفی ۷ دیتاست سری زمانی برای یادگیری ماشین خواهیم پرداخت و شما با بهرهگیری از آنها میتوانید پیشبینی سریهای زمانی با یادگیری ماشین را آغاز و تمرین کنید.
پس از مطالعه این پست با:
- ۴ دیتاست سریزمانی یک متغیره
- ۳ دیتاست سریزمانی چند متغیره
- وبسایتهایی که میتوانید دیتاستها در آن جستوجو و دانلود کنید
آشنا خواهید شد.
به شما پیشنهاد میکنم کتاب جدید من به نام پیشبینی سریهای زمانی با پایتون را مطالعه و سپس پروژه خود را آغاز کنید. این کتاب شامل آموزشهای مرحله به مرحله و فایلهای کد منبع پایتون برای تمامی نمونهها است.
دیتاستهای سری زمانی یک متغیره
به دیتاستهای سری زمانیای که فقط یک متغیر داشته باشند، دیتاست یک متغیره گفته میشود. اینگونه دیتاستها در شروع پروژه میتوانند کمک بزرگی برای شما باشند، زیرا:
- بسیار ساده هستند و درک آنها بسیار آسان است.
- به آسانی میتوانید آنها را در اِکسِل یا دیگر ابزارهای ترسیم رسم کنید.
- به آسانی میتوانید پیشبینیها را نسبت به نتایج مورد انتظار رسم کنید.
- به سرعت میتوانید مجموعهای از روشهای جدیدتر و قدیمی را امتحان و ارزیابی کنید.
منابع زیادی برای دیتاستهای سری زمانی وجود دارد؛ برای نمونه میتوان به “Time Series Data Library” اشاره کرد که توسط راب هیندمَن Rob Hyndman ، استاد آمار در دانشگاه مانش استرالیا Monash University, Australia ساخته شده است.
در ادامه ۴ دیتاست سری زمانی یک متغیره ارائه شده است و میتوانید دیتاستهای مربوط به حوزههای گوناگون از جمله فروش، هواشناسی، فیزیک و جمعیتشناسی را دانلود کنید.
دیتاست فروش شامپو
این دیتاست نشاندهنده میزان فروش ماهانه شامپو طی سه سال گذشته است.
نمونهها نشاندهنده تعداد فروش هستند و ۳۶ مشاهده (نمونه) در این دیتاست وجود دارد. دیتاستهای اصلی به ماکریداکیس Makridakis، ویل رایت Wheelwright و هیندمن (۱۹۹۸) تعلق دارند.
در ادامه نمونهای از پنج ردیف اول داده، از جمله ردیف سربرگ Header row، ارائه شده است.
"Month","Sales of shampoo over a three year period" "۱-۰۱",۲۶۶.۰ "۱-۰۲",۱۴۵.۹ "۱-۰۳",۱۸۳.۱ "۱-۰۴",۱۱۹.۳ "۱-۰۵",۱۸۰.۳
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاست نشاندهنده روند رو به افزایش و احتمالا چندین مؤلفه فصلی است.
در اینجا لینک مربوط به دانلود دیتاست را قرار می دهیم. دانلود دیتاست
[irp posts=”۵۱۹۹″]دیتاست دمای کمینه روزانه
این دیتاست نشاندهنده کمینه دمای روزانه شهر ملبورن، استرالیا طی ده سال گذشته (۱۹۹۰ – ۱۹۸۱) است.
واحدها بر حسب درجه سلسیوس هستند و ۳۶۵۰ مشاهده (نمونه) در این دیتاست وجود دارد. این دیتاست متعلق به اداره هواشناسی استرالیا Australian Bureau of Meteorology است.
در ادامه نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Date","Daily minimum temperatures in Melbourne, Australia, 1981-1990" "۱۹۸۱-۰۱-۰۱",۲۰.۷ "۱۹۸۱-۰۱-۰۲",۱۷.۹ "۱۹۸۱-۰۱-۰۳",۱۸.۸ "۱۹۸۱-۰۱-۰۴",۱۴.۶ "۱۹۸۱-۰۱-۰۵",۱۵.۸
در تصویر مقابل کل دیتاست ترسیم شده است.
این دیتاست نشاندهنده مؤلفههای فصلی قوی است و دارای جزئیات دانهبندی ریز Fine grained detail است.
دیتاست ماهانه لکههای خورشیدی
این دیتاست نشاندهنده تعداد ماهانه لکههای خورشیدی است که طی ۲۳۰ سال گذشته (۱۹۸۳ – ۱۷۴۹) مشاهده شدهاند.
در این دیتاست ۲۸۲۰ مشاهده (نمونه) وجود دارد. این دیتاست متعلق به اندرو و هِرزبرگ (۱۹۸۵) Andrews & Herzberg (1985) است.
در ادامه، نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Month","Zuerich monthly sunspot numbers 1749-1983" "۱۷۴۹-۰۱",۵۸.۰ "۱۷۴۹-۰۲",۶۲.۶ "۱۷۴۹-۰۳",۷۰.۰ "۱۷۴۹-۰۴",۵۵.۷ "۱۷۴۹-۰۵",۸۵.۰
در تصویر مقابل کل دیتاست ترسیم شده است.
این دیتاست نشاندهنده فصلیبودن و تفاوتهای فاحش میان فصلها است.
دیتاست آمار روزانه تولد دختران
این دیتاست نشاندهنده تعداد دخترانی است که (روزانه) در سال ۱۹۵۹ در کالیفرنیا متولد شدهاند.
در این دیتاست ۳۶۵ مشاهده (نمونه) وجود دارد. دیتاست اصلی متعلق به نیوتون ۱۹۸۸
Newton 1988 است.
در ادامه نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Date","Daily total female births in California, 1959" "۱۹۵۹-۰۱-۰۱",۳۵ "۱۹۵۹-۰۱-۰۲",۳۲ "۱۹۵۹-۰۱-۰۳",۳۰ "۱۹۵۹-۰۱-۰۴",۳۱ "۱۹۵۹-۰۱-۰۵",۴۴
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاستهای سری زمانی چند متغیره
به طور کلی دیتاستهای چند متغیره چالش برانگیزتر هستند و میتوان گفت بهترین نوع دیتاست برای یادگیری ماشین هستند.
یکی از منابع خوب دیتاستهای سری زمانی چند متغیره UCI Machine Learning Repository است. در زمان نوشتن این پست، ۶۳ دیتاست سری زمانی وجود دارد که شما میتوانید به صورت رایگان آنها را دانلود کنید و از آنها استفاده کنید.
در ادامه ۳ دیتاست سری زمانی چند متغیره از حوزههای هواشناسی، پزشکی و نظارتی ارائه شده است.
[irp posts=”۴۱۸۲″]دیتاست الکتروانسفالوگرافی حالت چشم
این دیتاست نشاندهنده دادههای الکتروانسفالوگرافی EEG افراد است و نشان میدهد که آیا این افراد چشمهایشان بسته بود است یا باز. هدف این مسئله این پیشبینی باز بودن و یا بسته بودن چشمها فقط با در نظر گرفت دادههای EEG است.
هدف این مسئله این پیشبینی باز بودن و یا بسته بودن چشمها فقط با در نظر گرفت دادههای EEG است.
این دیتاست مسئله H مدلسازی پیشبینیکننده طبقهبندی Classification predictive modeling problems شدهاند و در مجموع ۱۴۹۸۰ مشاهده (نمونه) و ۱۵ متغیر ورودی وجود دارد.
عدد ۱ نشان میدهد که چشم باز بوده و عدد ۰ (صفر) نشان میدهد که چشم بسته بوده است. دادهها بر حسب زمان مرتب شدهاند و مشاهدات در طول ۱۱۷ ثانیه ثبت شدهاند.
دادهها بر حسب زمان مرتب شدهاند و مشاهدات در طول ۱۱۷ ثانیه ثبت شدهاند.
در ادامه نمونهای از ۵ ردیف اول بدون ردیف سربرگ ارائه شده است.
۴۳۲۹.۲۳,۴۰۰۹.۲۳,۴۲۸۹.۲۳,۴۱۴۸.۲۱,۴۳۵۰.۲۶,۴۵۸۶.۱۵,۴۰۹۶.۹۲,۴۶۴۱.۰۳,۴۲۲۲.۰۵,۴۲۳۸.۴۶,۴۲۱۱.۲۸,۴۲۸۰.۵۱,۴۶۳۵.۹,۴۳۹۳.۸۵,۰ ۴۳۲۴.۶۲,۴۰۰۴.۶۲,۴۲۹۳.۸۵,۴۱۴۸.۷۲,۴۳۴۲.۰۵,۴۵۸۶.۶۷,۴۰۹۷.۴۴,۴۶۳۸.۹۷,۴۲۱۰.۷۷,۴۲۲۶.۶۷,۴۲۰۷.۶۹,۴۲۷۹.۴۹,۴۶۳۲.۸۲,۴۳۸۴.۱,۰ ۴۳۲۷.۶۹,۴۰۰۶.۶۷,۴۲۹۵.۳۸,۴۱۵۶.۴۱,۴۳۳۶.۹۲,۴۵۸۳.۵۹,۴۰۹۶.۹۲,۴۶۳۰.۲۶,۴۲۰۷.۶۹,۴۲۲۲.۰۵,۴۲۰۶.۶۷,۴۲۸۲.۰۵,۴۶۲۸.۷۲,۴۳۸۹.۲۳,۰ ۴۳۲۸.۷۲,۴۰۱۱.۷۹,۴۲۹۶.۴۱,۴۱۵۵.۹,۴۳۴۳.۵۹,۴۵۸۲.۵۶,۴۰۹۷.۴۴,۴۶۳۰.۷۷,۴۲۱۷.۴۴,۴۲۳۵.۳۸,۴۲۱۰.۷۷,۴۲۸۷.۶۹,۴۶۳۲.۳۱,۴۳۹۶.۴۱,۰ ۴۳۲۶.۱۵,۴۰۱۱.۷۹,۴۲۹۲.۳۱,۴۱۵۱.۲۸,۴۳۴۷.۶۹,۴۵۸۶.۶۷,۴۰۹۵.۹,۴۶۲۷.۶۹,۴۲۱۰.۷۷,۴۲۴۴.۱,۴۲۱۲.۸۲,۴۲۸۸.۲۱,۴۶۳۲.۸۲,۴۳۹۸.۴۶,۰
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاست تشخیص فضای اِشغال شده
این دیتاست نشاندهنده مساحت یک اتاق است و هدف این دیتاست این است که پیشبینی کند آیا فضای اتاق اِشغال شده است یا خیر.
۲۰۵۶۰ مشاهده (نمونه) یک دقیقهای وجود دارد که طی چندین هفته جمعآوری شدهاند. این دیتاست یک مسئله طبقهبندی است. ۷ ویژگی از جمله نورهای مختلف و شرایط آبوهوایی مختلف وجود دارد.
دادههای اصلی متعلق به لوییس کانداندو Luis Candanedo از UMONS است.
در ادامه نمونهای از ۵ ردیف اول دادهها به همراه ردیف سربرگ ارائه شده است.
"date","Temperature","Humidity","Light","CO2","HumidityRatio","Occupancy" "۱","۲۰۱۵-۰۲-۰۴ ۱۷:۵۱:۰۰",۲۳.۱۸,۲۷.۲۷۲,۴۲۶,۷۲۱.۲۵,۰.۰۰۴۷۹۲۹۸۸۱۷۶۵۰۵۲۹,۱ "۲","۲۰۱۵-۰۲-۰۴ ۱۷:۵۱:۵۹",۲۳.۱۵,۲۷.۲۶۷۵,۴۲۹.۵,۷۱۴,۰.۰۰۴۷۸۳۴۴۰۹۴۹۳۱۰۶۵,۱ "۳","۲۰۱۵-۰۲-۰۴ ۱۷:۵۳:۰۰",۲۳.۱۵,۲۷.۲۴۵,۴۲۶,۷۱۳.۵,۰.۰۰۴۷۷۹۴۶۳۵۲۴۴۲۱۹۹,۱ "۴","۲۰۱۵-۰۲-۰۴ ۱۷:۵۴:۰۰",۲۳.۱۵,۲۷.۲,۴۲۶,۷۰۸.۲۵,۰.۰۰۴۷۷۱۵۰۸۸۲۶۰۸۱۷۵,۱ "۵","۲۰۱۵-۰۲-۰۴ ۱۷:۵۵:۰۰",۲۳.۱,۲۷.۲,۴۲۶,۷۰۴.۵,۰.۰۰۴۷۵۶۹۹۲۹۳۳۳۱۵۱۸,۱ "۶","۲۰۱۵-۰۲-۰۴ ۱۷:۵۵:۵۹",۲۳.۱,۲۷.۲,۴۱۹,۷۰۱,۰.۰۰۴۷۵۶۹۹۲۹۳۳۳۱۵۱۸,۱
دادهها در سه فایل ارائه شدهاند و این دادهها تفکیک شدهاند و ممکن است از آنها برای آموزش و آزمایش یک مدل استفاده شود.
دیتاست تشخیص سطح اُزون
این دیتاست سری زمانی برای یادگیری ماشین نشاندهنده مشاهدات غلظت مضر ازون Ground ozone concentration طی ۶ سال است و هدف این دیتاست این است که پیشبینی کند آیا روز اُزون Ozone day وجود دارد یا خیر.
این دیتاست شامل ۲۵۳۶ مشاهده (نمونه) و ۷۳ ویژگی است. این یک مسئله طبقهبندی Classification prediction problem است و عدد ۱ نشاندهنده روز اُزون و عدد ۰ (صفر) نشاندهنده یک روز معمولی است.
در این دیتاست دو نمونه داده ، مجموعه اوج غلظت ازون طی یک ساعت و مجموعه اوج غلظت ازون طی هشت ساعت، وجود دارد. پیشنهاد میکنم الان از مجموعه اوج یک ساعته استفاده کنیم.
در ادامه نمونهای از ۵ ردیف اول دادهها بدون ردیف سربرگ ارائه شده است.
۱/۱/۱۹۹۸,۰.۸,۱.۸,۲.۴,۲.۱,۲,۲.۱,۱.۵,۱.۷,۱.۹,۲.۳,۳.۷,۵.۵,۵.۱,۵.۴,۵.۴,۴.۷,۴.۳,۳.۵,۳.۵,۲.۹,۳.۲,۳.۲,۲.۸,۲.۶,۵.۵,۳.۱,۵.۲,۶.۱,۶.۱,۶.۱,۶.۱,۵.۶,۵.۲,۵.۴,۷.۲,۱۰.۶,۱۴.۵,۱۷.۲,۱۸.۳,۱۸.۹,۱۹.۱,۱۸.۹,۱۸.۳,۱۷.۳,۱۶.۸,۱۶.۱,۱۵.۴,۱۴.۹,۱۴.۸,۱۵,۱۹.۱,۱۲.۵,۶.۷,۰.۱۱,۳.۸۳,۰.۱۴,۱۶۱۲,-۲.۳,۰.۳,۷.۱۸,۰.۱۲,۳۱۷۸.۵,-۱۵.۵,۰.۱۵,۱۰.۶۷,-۱.۵۶,۵۷۹۵,-۱۲.۱,۱۷.۹,۱۰۳۳۰,-۵۵,۰,۰. ۱/۲/۱۹۹۸,۲.۸,۳.۲,۳.۳,۲.۷,۳.۳,۳.۲,۲.۹,۲.۸,۳.۱,۳.۴,۴.۲,۴.۵,۴.۵,۴.۳,۵.۵,۵.۱,۳.۸,۳,۲.۶,۳,۲.۲,۲.۳,۲.۵,۲.۸,۵.۵,۳.۴,۱۵.۱,۱۵.۳,۱۵.۶,۱۵.۶,۱۵.۹,۱۶.۲,۱۶.۲,۱۶.۲,۱۶.۶,۱۷.۸,۱۹.۴,۲۰.۶,۲۱.۲,۲۱.۸,۲۲.۴,۲۲.۱,۲۰.۸,۱۹.۱,۱۸.۱,۱۷.۲,۱۶.۵,۱۶.۱,۱۶,۱۶.۲,۲۲.۴,۱۷.۸,۹,۰.۲۵,-۰.۴۱,۹.۵۳,۱۵۹۴.۵,-۲.۲,۰.۹۶,۸.۲۴,۷.۳,۳۱۷۲,-۱۴.۵,۰.۴۸,۸.۳۹,۳.۸۴,۵۸۰۵,۱۴.۰۵,۲۹,۱۰۲۷۵,-۵۵,۰,۰. ۱/۳/۱۹۹۸,۲.۹,۲.۸,۲.۶,۲.۱,۲.۲,۲.۵,۲.۵,۲.۷,۲.۲,۲.۵,۳.۱,۴,۴.۴,۴.۶,۵.۶,۵.۴,۵.۲,۴.۴,۳.۵,۲.۷,۲.۹,۳.۹,۴.۱,۴.۶,۵.۶,۳.۵,۱۶.۶,۱۶.۷,۱۶.۷,۱۶.۸,۱۶.۸,۱۶.۸,۱۶.۹,۱۶.۹,۱۷.۱,۱۷.۶,۱۹.۱,۲۱.۳,۲۱.۸,۲۲,۲۲.۱,۲۲.۲,۲۱.۳,۱۹.۸,۱۸.۶,۱۸,۱۸,۱۸.۲,۱۸.۳,۱۸.۴,۲۲.۲,۱۸.۷,۹,۰.۵۶,۰.۸۹,۱۰.۱۷,۱۵۶۸.۵,۰.۹,۰.۵۴,۳.۸,۴.۴۲,۳۱۶۰,-۱۵.۹,۰.۶,۶.۹۴,۹.۸,۵۷۹۰,۱۷.۹,۴۱.۳,۱۰۲۳۵,-۴۰,۰,۰. ۱/۴/۱۹۹۸,۴.۷,۳.۸,۳.۷,۳.۸,۲.۹,۳.۱,۲.۸,۲.۵,۲.۴,۳.۱,۳.۳,۳.۱,۲.۳,۲.۱,۲.۲,۳.۸,۲.۸,۲.۴,۱.۹,۳.۲,۴.۱,۳.۹,۴.۵,۴.۳,۴.۷,۳.۲,۱۸.۳,۱۸.۲,۱۸.۳,۱۸.۴,۱۸.۶,۱۸.۶,۱۸.۵,۱۸.۷,۱۸.۶,۱۸.۸,۱۹,۱۹,۱۹.۳,۱۹.۴,۱۹.۶,۱۹.۲,۱۸.۹,۱۸.۸,۱۸.۶,۱۸.۵,۱۸.۳,۱۸.۵,۱۸.۸,۱۸.۹,۱۹.۶,۱۸.۷,۹.۹,۰.۸۹,-۰.۳۴,۸.۵۸,۱۵۴۶.۵,۳,۰.۷۷,۴.۱۷,۸.۱۱,۳۱۴۵.۵,-۱۶.۸,۰.۴۹,۸.۷۳,۱۰.۵۴,۵۷۷۵,۳۱.۱۵,۵۱.۷,۱۰۱۹۵,-۴۰,۲.۰۸,۰. ۱/۵/۱۹۹۸,۲.۶,۲.۱,۱.۶,۱.۴,۰.۹,۱.۵,۱.۲,۱.۴,۱.۳,۱.۴,۲.۲,۲,۳,۳,۳.۱,۳.۱,۲.۷,۳,۲.۴,۲.۸,۲.۵,۲.۵,۳.۷,۳.۴,۳.۷,۲.۳,۱۸.۸,۱۸.۶,۱۸.۵,۱۸.۵,۱۸.۶,۱۸.۹,۱۹.۲,۱۹.۴,۱۹.۸,۲۰.۵,۲۱.۱,۲۱.۹,۲۳.۸,۲۵.۱,۲۵.۸,۲۶,۲۵.۶,۲۴.۲,۲۲.۹,۲۱.۶,۲۰,۱۹.۵,۱۹.۱,۱۹.۱,۲۶,۲۱.۱,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,۰.۵۸,۰. ۱/۶/۱۹۹۸,۳.۱,۳.۵,۳.۳,۲.۵,۱.۶,۱.۷,۱.۶,۱.۶,۲.۳,۱.۸,۲.۵,۳.۹,۳.۴,۲.۷,۳.۴,۲.۵,۲.۲,۴.۴,۴.۳,۳.۲,۶.۲,۶.۸,۵.۱,۴,۶.۸,۳.۲,۱۸.۹,۱۹.۵,۱۹.۶,۱۹.۵,۱۹.۵,۱۹.۵,۱۹.۴,۱۹.۲,۱۹.۱,۱۹.۵,۱۹.۶,۱۸.۶,۱۸.۶,۱۸.۹,۱۹.۲,۱۹.۳,۱۹.۲,۱۸.۸,۱۷.۶,۱۶.۹,۱۵.۶,۱۵.۴,۱۵.۹,۱۵.۸,۱۹.۶,۱۸.۵,۱۴.۴,۰.۶۸,۱.۵۲,۸.۶۲,۱۴۹۹.۵,۴.۳,۰.۶۱,۹.۰۴,۱۰.۸۱,۳۱۱۱,-۱۱.۸,۰.۰۹,۱۱.۹۸,۱۱.۲۸,۵۷۷۰,۲۷.۹۵,۴۶.۲۵,۱۰۱۲۰,?,۵.۸۴,۰.
جمعبندی
در این پست با چندین دیتاست پیشبینی سری زمانی آشنا شدید و میتوانید با استفاده از این دیتاستها پیشبینی سری زمانی با تکنیکهای یادگیری ماشین را آغاز و تمرین کنید.
در این پست به ویژه با:
- ۴ دیتاست سریزمانی یک متغیره
- ۳ دیتاست سریزمانی چند متغیره
- دو وبسایت که میتوانید دیتاستهای زیادی را از آنها دانلود کنید
آشنا شدید.