7 دیتاست سری زمانی برای یادگیری ماشین
یادگیری ماشین را میتوان در دیتاستهای سری زمانی Time series datasets پیادهسازی و اجرا کرد. پیشبینی مقادیر عددی و دستهای Numeric and categorical value دشوار است اما ردیفهای داده بر اساس زمان مرتب میشوند. یکی از مشکلاتی که در هنگام پیشبینی سریهای زمانی Time series forecasting با یادگیری ماشین با آن مواجه هستیم، پیدا کردن دیتاستهایی استاندارد با کیفیت خوب برای تمرین کردن است. در این پُست به معرفی 7 دیتاست سری زمانی برای یادگیری ماشین خواهیم پرداخت و شما با بهرهگیری از آنها میتوانید پیشبینی سریهای زمانی با یادگیری ماشین را آغاز و تمرین کنید.
پس از مطالعه این پست با:
- 4 دیتاست سریزمانی یک متغیره
- 3 دیتاست سریزمانی چند متغیره
- وبسایتهایی که میتوانید دیتاستها در آن جستوجو و دانلود کنید
آشنا خواهید شد.
به شما پیشنهاد میکنم کتاب جدید من به نام پیشبینی سریهای زمانی با پایتون را مطالعه و سپس پروژه خود را آغاز کنید. این کتاب شامل آموزشهای مرحله به مرحله و فایلهای کد منبع پایتون برای تمامی نمونهها است.
دیتاستهای سری زمانی یک متغیره
به دیتاستهای سری زمانیای که فقط یک متغیر داشته باشند، دیتاست یک متغیره گفته میشود. اینگونه دیتاستها در شروع پروژه میتوانند کمک بزرگی برای شما باشند، زیرا:
- بسیار ساده هستند و درک آنها بسیار آسان است.
- به آسانی میتوانید آنها را در اِکسِل یا دیگر ابزارهای ترسیم رسم کنید.
- به آسانی میتوانید پیشبینیها را نسبت به نتایج مورد انتظار رسم کنید.
- به سرعت میتوانید مجموعهای از روشهای جدیدتر و قدیمی را امتحان و ارزیابی کنید.
منابع زیادی برای دیتاستهای سری زمانی وجود دارد؛ برای نمونه میتوان به “Time Series Data Library” اشاره کرد که توسط راب هیندمَن Rob Hyndman ، استاد آمار در دانشگاه مانش استرالیا Monash University, Australia ساخته شده است.
در ادامه 4 دیتاست سری زمانی یک متغیره ارائه شده است و میتوانید دیتاستهای مربوط به حوزههای گوناگون از جمله فروش، هواشناسی، فیزیک و جمعیتشناسی را دانلود کنید.
دیتاست فروش شامپو
این دیتاست نشاندهنده میزان فروش ماهانه شامپو طی سه سال گذشته است.
نمونهها نشاندهنده تعداد فروش هستند و 36 مشاهده (نمونه) در این دیتاست وجود دارد. دیتاستهای اصلی به ماکریداکیس Makridakis، ویل رایت Wheelwright و هیندمن (1998) تعلق دارند.
در ادامه نمونهای از پنج ردیف اول داده، از جمله ردیف سربرگ Header row، ارائه شده است.
"Month","Sales of shampoo over a three year period" "1-01",266.0 "1-02",145.9 "1-03",183.1 "1-04",119.3 "1-05",180.3
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاست نشاندهنده روند رو به افزایش و احتمالا چندین مؤلفه فصلی است.
در اینجا لینک مربوط به دانلود دیتاست را قرار می دهیم. دانلود دیتاست
[irp posts=”5199″]دیتاست دمای کمینه روزانه
این دیتاست نشاندهنده کمینه دمای روزانه شهر ملبورن، استرالیا طی ده سال گذشته (1990 – 1981) است.
واحدها بر حسب درجه سلسیوس هستند و 3650 مشاهده (نمونه) در این دیتاست وجود دارد. این دیتاست متعلق به اداره هواشناسی استرالیا Australian Bureau of Meteorology است.
در ادامه نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Date","Daily minimum temperatures in Melbourne, Australia, 1981-1990" "1981-01-01",20.7 "1981-01-02",17.9 "1981-01-03",18.8 "1981-01-04",14.6 "1981-01-05",15.8
در تصویر مقابل کل دیتاست ترسیم شده است.
این دیتاست نشاندهنده مؤلفههای فصلی قوی است و دارای جزئیات دانهبندی ریز Fine grained detail است.
دیتاست ماهانه لکههای خورشیدی
این دیتاست نشاندهنده تعداد ماهانه لکههای خورشیدی است که طی 230 سال گذشته (1983 – 1749) مشاهده شدهاند.
در این دیتاست 2820 مشاهده (نمونه) وجود دارد. این دیتاست متعلق به اندرو و هِرزبرگ (1985) Andrews & Herzberg (1985) است.
در ادامه، نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Month","Zuerich monthly sunspot numbers 1749-1983" "1749-01",58.0 "1749-02",62.6 "1749-03",70.0 "1749-04",55.7 "1749-05",85.0
در تصویر مقابل کل دیتاست ترسیم شده است.
این دیتاست نشاندهنده فصلیبودن و تفاوتهای فاحش میان فصلها است.
دیتاست آمار روزانه تولد دختران
این دیتاست نشاندهنده تعداد دخترانی است که (روزانه) در سال 1959 در کالیفرنیا متولد شدهاند.
در این دیتاست 365 مشاهده (نمونه) وجود دارد. دیتاست اصلی متعلق به نیوتون 1988
Newton 1988 است.
در ادامه نمونهای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.
"Date","Daily total female births in California, 1959" "1959-01-01",35 "1959-01-02",32 "1959-01-03",30 "1959-01-04",31 "1959-01-05",44
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاستهای سری زمانی چند متغیره
به طور کلی دیتاستهای چند متغیره چالش برانگیزتر هستند و میتوان گفت بهترین نوع دیتاست برای یادگیری ماشین هستند.
یکی از منابع خوب دیتاستهای سری زمانی چند متغیره UCI Machine Learning Repository است. در زمان نوشتن این پست، 63 دیتاست سری زمانی وجود دارد که شما میتوانید به صورت رایگان آنها را دانلود کنید و از آنها استفاده کنید.
در ادامه 3 دیتاست سری زمانی چند متغیره از حوزههای هواشناسی، پزشکی و نظارتی ارائه شده است.
[irp posts=”4182″]دیتاست الکتروانسفالوگرافی حالت چشم
این دیتاست نشاندهنده دادههای الکتروانسفالوگرافی EEG افراد است و نشان میدهد که آیا این افراد چشمهایشان بسته بود است یا باز. هدف این مسئله این پیشبینی باز بودن و یا بسته بودن چشمها فقط با در نظر گرفت دادههای EEG است.
هدف این مسئله این پیشبینی باز بودن و یا بسته بودن چشمها فقط با در نظر گرفت دادههای EEG است.
این دیتاست مسئله H مدلسازی پیشبینیکننده طبقهبندی Classification predictive modeling problems شدهاند و در مجموع 14980 مشاهده (نمونه) و 15 متغیر ورودی وجود دارد.
عدد 1 نشان میدهد که چشم باز بوده و عدد 0 (صفر) نشان میدهد که چشم بسته بوده است. دادهها بر حسب زمان مرتب شدهاند و مشاهدات در طول 117 ثانیه ثبت شدهاند.
دادهها بر حسب زمان مرتب شدهاند و مشاهدات در طول 117 ثانیه ثبت شدهاند.
در ادامه نمونهای از 5 ردیف اول بدون ردیف سربرگ ارائه شده است.
4329.23,4009.23,4289.23,4148.21,4350.26,4586.15,4096.92,4641.03,4222.05,4238.46,4211.28,4280.51,4635.9,4393.85,0 4324.62,4004.62,4293.85,4148.72,4342.05,4586.67,4097.44,4638.97,4210.77,4226.67,4207.69,4279.49,4632.82,4384.1,0 4327.69,4006.67,4295.38,4156.41,4336.92,4583.59,4096.92,4630.26,4207.69,4222.05,4206.67,4282.05,4628.72,4389.23,0 4328.72,4011.79,4296.41,4155.9,4343.59,4582.56,4097.44,4630.77,4217.44,4235.38,4210.77,4287.69,4632.31,4396.41,0 4326.15,4011.79,4292.31,4151.28,4347.69,4586.67,4095.9,4627.69,4210.77,4244.1,4212.82,4288.21,4632.82,4398.46,0
در تصویر مقابل کل دیتاست ترسیم شده است.
دیتاست تشخیص فضای اِشغال شده
این دیتاست نشاندهنده مساحت یک اتاق است و هدف این دیتاست این است که پیشبینی کند آیا فضای اتاق اِشغال شده است یا خیر.
20560 مشاهده (نمونه) یک دقیقهای وجود دارد که طی چندین هفته جمعآوری شدهاند. این دیتاست یک مسئله طبقهبندی است. 7 ویژگی از جمله نورهای مختلف و شرایط آبوهوایی مختلف وجود دارد.
دادههای اصلی متعلق به لوییس کانداندو Luis Candanedo از UMONS است.
در ادامه نمونهای از 5 ردیف اول دادهها به همراه ردیف سربرگ ارائه شده است.
"date","Temperature","Humidity","Light","CO2","HumidityRatio","Occupancy" "1","2015-02-04 17:51:00",23.18,27.272,426,721.25,0.00479298817650529,1 "2","2015-02-04 17:51:59",23.15,27.2675,429.5,714,0.00478344094931065,1 "3","2015-02-04 17:53:00",23.15,27.245,426,713.5,0.00477946352442199,1 "4","2015-02-04 17:54:00",23.15,27.2,426,708.25,0.00477150882608175,1 "5","2015-02-04 17:55:00",23.1,27.2,426,704.5,0.00475699293331518,1 "6","2015-02-04 17:55:59",23.1,27.2,419,701,0.00475699293331518,1
دادهها در سه فایل ارائه شدهاند و این دادهها تفکیک شدهاند و ممکن است از آنها برای آموزش و آزمایش یک مدل استفاده شود.
دیتاست تشخیص سطح اُزون
این دیتاست سری زمانی برای یادگیری ماشین نشاندهنده مشاهدات غلظت مضر ازون Ground ozone concentration طی 6 سال است و هدف این دیتاست این است که پیشبینی کند آیا روز اُزون Ozone day وجود دارد یا خیر.
این دیتاست شامل 2536 مشاهده (نمونه) و 73 ویژگی است. این یک مسئله طبقهبندی Classification prediction problem است و عدد 1 نشاندهنده روز اُزون و عدد 0 (صفر) نشاندهنده یک روز معمولی است.
در این دیتاست دو نمونه داده ، مجموعه اوج غلظت ازون طی یک ساعت و مجموعه اوج غلظت ازون طی هشت ساعت، وجود دارد. پیشنهاد میکنم الان از مجموعه اوج یک ساعته استفاده کنیم.
در ادامه نمونهای از 5 ردیف اول دادهها بدون ردیف سربرگ ارائه شده است.
1/1/1998,0.8,1.8,2.4,2.1,2,2.1,1.5,1.7,1.9,2.3,3.7,5.5,5.1,5.4,5.4,4.7,4.3,3.5,3.5,2.9,3.2,3.2,2.8,2.6,5.5,3.1,5.2,6.1,6.1,6.1,6.1,5.6,5.2,5.4,7.2,10.6,14.5,17.2,18.3,18.9,19.1,18.9,18.3,17.3,16.8,16.1,15.4,14.9,14.8,15,19.1,12.5,6.7,0.11,3.83,0.14,1612,-2.3,0.3,7.18,0.12,3178.5,-15.5,0.15,10.67,-1.56,5795,-12.1,17.9,10330,-55,0,0. 1/2/1998,2.8,3.2,3.3,2.7,3.3,3.2,2.9,2.8,3.1,3.4,4.2,4.5,4.5,4.3,5.5,5.1,3.8,3,2.6,3,2.2,2.3,2.5,2.8,5.5,3.4,15.1,15.3,15.6,15.6,15.9,16.2,16.2,16.2,16.6,17.8,19.4,20.6,21.2,21.8,22.4,22.1,20.8,19.1,18.1,17.2,16.5,16.1,16,16.2,22.4,17.8,9,0.25,-0.41,9.53,1594.5,-2.2,0.96,8.24,7.3,3172,-14.5,0.48,8.39,3.84,5805,14.05,29,10275,-55,0,0. 1/3/1998,2.9,2.8,2.6,2.1,2.2,2.5,2.5,2.7,2.2,2.5,3.1,4,4.4,4.6,5.6,5.4,5.2,4.4,3.5,2.7,2.9,3.9,4.1,4.6,5.6,3.5,16.6,16.7,16.7,16.8,16.8,16.8,16.9,16.9,17.1,17.6,19.1,21.3,21.8,22,22.1,22.2,21.3,19.8,18.6,18,18,18.2,18.3,18.4,22.2,18.7,9,0.56,0.89,10.17,1568.5,0.9,0.54,3.8,4.42,3160,-15.9,0.6,6.94,9.8,5790,17.9,41.3,10235,-40,0,0. 1/4/1998,4.7,3.8,3.7,3.8,2.9,3.1,2.8,2.5,2.4,3.1,3.3,3.1,2.3,2.1,2.2,3.8,2.8,2.4,1.9,3.2,4.1,3.9,4.5,4.3,4.7,3.2,18.3,18.2,18.3,18.4,18.6,18.6,18.5,18.7,18.6,18.8,19,19,19.3,19.4,19.6,19.2,18.9,18.8,18.6,18.5,18.3,18.5,18.8,18.9,19.6,18.7,9.9,0.89,-0.34,8.58,1546.5,3,0.77,4.17,8.11,3145.5,-16.8,0.49,8.73,10.54,5775,31.15,51.7,10195,-40,2.08,0. 1/5/1998,2.6,2.1,1.6,1.4,0.9,1.5,1.2,1.4,1.3,1.4,2.2,2,3,3,3.1,3.1,2.7,3,2.4,2.8,2.5,2.5,3.7,3.4,3.7,2.3,18.8,18.6,18.5,18.5,18.6,18.9,19.2,19.4,19.8,20.5,21.1,21.9,23.8,25.1,25.8,26,25.6,24.2,22.9,21.6,20,19.5,19.1,19.1,26,21.1,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,0.58,0. 1/6/1998,3.1,3.5,3.3,2.5,1.6,1.7,1.6,1.6,2.3,1.8,2.5,3.9,3.4,2.7,3.4,2.5,2.2,4.4,4.3,3.2,6.2,6.8,5.1,4,6.8,3.2,18.9,19.5,19.6,19.5,19.5,19.5,19.4,19.2,19.1,19.5,19.6,18.6,18.6,18.9,19.2,19.3,19.2,18.8,17.6,16.9,15.6,15.4,15.9,15.8,19.6,18.5,14.4,0.68,1.52,8.62,1499.5,4.3,0.61,9.04,10.81,3111,-11.8,0.09,11.98,11.28,5770,27.95,46.25,10120,?,5.84,0.
جمعبندی
در این پست با چندین دیتاست پیشبینی سری زمانی آشنا شدید و میتوانید با استفاده از این دیتاستها پیشبینی سری زمانی با تکنیکهای یادگیری ماشین را آغاز و تمرین کنید.
در این پست به ویژه با:
- 4 دیتاست سریزمانی یک متغیره
- 3 دیتاست سریزمانی چند متغیره
- دو وبسایت که میتوانید دیتاستهای زیادی را از آنها دانلود کنید
آشنا شدید.