Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 7 دیتاست سری زمانی برای یادگیری ماشین

7 دیتاست سری زمانی برای یادگیری ماشین

زمان مطالعه: 4 دقیقه

یادگیری ماشین را می‌توان در دیتاست‌‌های سری زمانی Time series datasets پیاده‌سازی و اجرا کرد. پیش‌بینی مقادیر عددی و دسته‌ای Numeric and categorical value دشوار است اما ردیف‌های داده بر اساس زمان مرتب می‌شوند. یکی از مشکلاتی که در هنگام پیش‌بینی سری‌های زمانی Time series forecasting با یادگیری ماشین با آن مواجه هستیم، پیدا کردن دیتاست‌هایی استاندارد با کیفیت خوب برای تمرین کردن است. در این پُست به معرفی 7 دیتاست سری زمانی برای یادگیری ماشین خواهیم پرداخت و شما با بهره‌گیری از آن‌ها می‌توانید پیش‌بینی سری‌های زمانی با یادگیری ماشین را آغاز و تمرین کنید.

پس از مطالعه این پست با:

  • 4 دیتاست سری‌زمانی یک متغیره
  • 3 دیتاست سری‌زمانی چند متغیره
  • وب‌سایت‌هایی که می‌توانید دیتاست‌ها در آن جست‌وجو و دانلود کنید

آشنا خواهید شد.

به شما پیشنهاد می‌کنم کتاب جدید من به نام پیش‌بینی سری‌های زمانی با پایتون را مطالعه و  سپس پروژه خود را آغاز کنید. این کتاب شامل آموزش‌های مرحله به مرحله و فایل‌های کد منبع پایتون برای تمامی نمونه‌ها است.

دیتاست‌های سری‌ زمانی یک متغیره

به دیتاست‌های سری زمانی‌ای که فقط یک متغیر داشته باشند، دیتاست یک متغیره گفته می‌شود. این‌گونه دیتاست‌ها در شروع پروژه می‌توانند کمک بزرگی برای شما باشند، زیرا:

  • بسیار ساده هستند و درک آن‌ها بسیار آسان است.
  • به آسانی می‌توانید آن‌ها را در اِکسِل یا دیگر ابزارهای ترسیم رسم کنید.
  • به آسانی می‌توانید پیش‌بینی‌ها را نسبت به نتایج مورد انتظار رسم کنید.
  • به سرعت می‌توانید مجموعه‌ای از روش‌های جدیدتر و قدیمی را امتحان و ارزیابی کنید.

منابع زیادی برای دیتاست‌های سری زمانی وجود دارد؛ برای نمونه می‌توان به “Time Series Data Library” اشاره کرد که توسط راب هیندمَن Rob Hyndman ، استاد آمار در دانشگاه مانش استرالیا Monash University, Australia ساخته شده است.

در ادامه 4 دیتاست سری زمانی یک متغیره ارائه شده است و می‌توانید دیتاست‌های مربوط به حوزه‌های گوناگون از جمله فروش، هواشناسی، فیزیک و جمعیت‌شناسی را دانلود کنید.

دیتاست فروش شامپو

این دیتاست نشان‌دهنده میزان فروش ماهانه شامپو طی سه سال گذشته است.

نمونه‌ها نشان‌دهنده تعداد فروش هستند و 36 مشاهده (نمونه) در این دیتاست وجود دارد.  دیتاست‌های اصلی به ماکریداکیس Makridakis، ویل رایت Wheelwright و هیندمن (1998) تعلق دارند.

در ادامه نمونه‌ای از پنج ردیف اول داده، از جمله ردیف سربرگ Header row، ارائه شده است.

"Month","Sales of shampoo over a three year period"
"1-01",266.0
"1-02",145.9
"1-03",183.1
"1-04",119.3
"1-05",180.3

در تصویر مقابل کل دیتاست ترسیم شده است.

فروش شامپو

دیتاست نشان‌دهنده روند رو به افزایش و احتمالا چندین مؤلفه فصلی است.

در اینجا لینک مربوط به دانلود دیتاست را قرار می دهیم. دانلود دیتاست

[irp posts=”5199″]

دیتاست دمای کمینه روزانه

این دیتاست نشان‌دهنده کمینه دمای روزانه شهر ملبورن، استرالیا طی ده سال گذشته (1990 – 1981) است.

واحدها بر حسب درجه سلسیوس هستند و 3650 مشاهده (نمونه) در این دیتاست وجود دارد. این دیتاست متعلق به اداره هواشناسی استرالیا Australian Bureau of Meteorology است.

در ادامه نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

"Date","Daily minimum temperatures in Melbourne, Australia, 1981-1990"
"1981-01-01",20.7
"1981-01-02",17.9
"1981-01-03",18.8
"1981-01-04",14.6
"1981-01-05",15.8

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست سری زمانی برای یادگیری ماشین

این دیتاست نشان‌دهنده مؤلفه‌های فصلی قوی است و دارای جزئیات دانه‌بندی ریز Fine grained detail است.

دیتاست ماهانه لکه‌های خورشیدی

این دیتاست نشان‌دهنده تعداد ماهانه لکه‌های خورشیدی است که طی 230 سال گذشته (1983 – 1749) مشاهده شده‌اند.

در این دیتاست 2820 مشاهده (نمونه) وجود دارد. این دیتاست متعلق به اندرو و هِرزبرگ (1985) Andrews & Herzberg (1985) است.

در ادامه، نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

"Month","Zuerich monthly sunspot numbers 1749-1983"
"1749-01",58.0
"1749-02",62.6
"1749-03",70.0
"1749-04",55.7
"1749-05",85.0

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست سری زمانی برای یادگیری ماشین

این دیتاست نشان‌دهنده فصلی‌بودن و تفاوت‌های فاحش میان فصل‌ها است.

دیتاست آمار روزانه تولد دختران

این دیتاست نشان‌دهنده تعداد دخترانی است که (روزانه) در سال 1959 در کالیفرنیا متولد شده‌اند.

در این دیتاست 365 مشاهده (نمونه) وجود دارد. دیتاست اصلی متعلق به نیوتون 1988
Newton 1988
است.

در ادامه نمونه‌ای از پنج ردیف اول داده از جمله ردیف سربرگ ارائه شده است.

"Date","Daily total female births in California, 1959"
"1959-01-01",35
"1959-01-02",32
"1959-01-03",30
"1959-01-04",31
"1959-01-05",44

در تصویر مقابل کل دیتاست ترسیم شده است.

ترسیم دیتاست

دیتاست‌های سری زمانی چند متغیره

به طور کلی دیتاست‌های چند متغیره چالش برانگیزتر هستند و می‌توان گفت بهترین نوع دیتاست برای یادگیری ماشین هستند.

یکی از منابع خوب دیتاست‌های سری زمانی چند متغیره UCI Machine Learning Repository است. در زمان نوشتن این پست، 63 دیتاست سری زمانی وجود دارد که شما می‌توانید به صورت رایگان آن‌ها را دانلود کنید و از آن‌ها استفاده کنید.

در ادامه 3 دیتاست سری زمانی چند متغیره از حوزه‌های هواشناسی، پزشکی و نظارتی ارائه شده است.

[irp posts=”4182″]

دیتاست الکتروانسفالوگرافی حالت چشم

این دیتاست نشان‌دهنده داده‌های الکتروانسفالوگرافی EEG  افراد است و نشان می‌دهد که آیا این افراد چشم‌های‌شان بسته بود است یا باز. هدف این مسئله این پیش‌بینی باز بودن و یا بسته بودن چشم‌ها فقط با در نظر گرفت داده‌های EEG است.

هدف این مسئله این  پیش‌بینی باز بودن و یا بسته بودن چشم‌ها فقط با در نظر گرفت داده‌های EEG است.

این دیتاست مسئله H مدل‌سازی پیش‌بینی‌کننده طبقه‌بندی Classification predictive modeling problems شده‌اند و در مجموع 14980 مشاهده (نمونه) و 15 متغیر ورودی وجود دارد.

عدد 1 نشان می‌دهد که چشم باز بوده  و عدد 0 (صفر) نشان می‌دهد که چشم بسته بوده است. داده‌ها بر حسب زمان مرتب شده‌اند و مشاهدات در طول 117 ثانیه ثبت شده‌اند.

داده‌ها بر حسب زمان مرتب شده‌اند و مشاهدات در طول 117 ثانیه ثبت شده‌اند.

در ادامه نمونه‌ای از 5 ردیف اول بدون ردیف سربرگ ارائه شده است.

4329.23,4009.23,4289.23,4148.21,4350.26,4586.15,4096.92,4641.03,4222.05,4238.46,4211.28,4280.51,4635.9,4393.85,0
4324.62,4004.62,4293.85,4148.72,4342.05,4586.67,4097.44,4638.97,4210.77,4226.67,4207.69,4279.49,4632.82,4384.1,0
4327.69,4006.67,4295.38,4156.41,4336.92,4583.59,4096.92,4630.26,4207.69,4222.05,4206.67,4282.05,4628.72,4389.23,0
4328.72,4011.79,4296.41,4155.9,4343.59,4582.56,4097.44,4630.77,4217.44,4235.38,4210.77,4287.69,4632.31,4396.41,0
4326.15,4011.79,4292.31,4151.28,4347.69,4586.67,4095.9,4627.69,4210.77,4244.1,4212.82,4288.21,4632.82,4398.46,0

در تصویر مقابل کل دیتاست ترسیم شده است.

دیتاست تشخیص فضای اِشغال شده

این دیتاست نشان‌دهنده مساحت یک اتاق است و هدف این دیتاست این است که پیش‌بینی کند آیا فضای اتاق اِشغال شده است یا خیر.

20560 مشاهده (نمونه) یک دقیقه‌ای وجود دارد که طی چندین هفته جمع‌آوری شده‌اند. این دیتاست یک مسئله طبقه‌بندی است. 7 ویژگی از جمله نورهای مختلف و شرایط آب‌‌و‌هوایی مختلف وجود دارد.

داده‌های اصلی متعلق به لوییس کانداندو Luis Candanedo از UMONS است.

در ادامه نمونه‌ای از 5 ردیف اول داده‌ها به همراه ردیف سربرگ ارائه شده است.

"date","Temperature","Humidity","Light","CO2","HumidityRatio","Occupancy"
"1","2015-02-04 17:51:00",23.18,27.272,426,721.25,0.00479298817650529,1
"2","2015-02-04 17:51:59",23.15,27.2675,429.5,714,0.00478344094931065,1
"3","2015-02-04 17:53:00",23.15,27.245,426,713.5,0.00477946352442199,1
"4","2015-02-04 17:54:00",23.15,27.2,426,708.25,0.00477150882608175,1
"5","2015-02-04 17:55:00",23.1,27.2,426,704.5,0.00475699293331518,1
"6","2015-02-04 17:55:59",23.1,27.2,419,701,0.00475699293331518,1

داده‌ها در سه فایل ارائه شده‌اند و این داده‌ها تفکیک شده‌اند و ممکن است از آنها برای آموزش و آزمایش یک مدل استفاده شود.

دیتاست تشخیص سطح اُزون

این دیتاست سری زمانی برای یادگیری ماشین نشان‌دهنده مشاهدات غلظت مضر ازون Ground ozone concentration طی 6 سال است و هدف این دیتاست این است که پیش‌بینی کند آیا روز اُزون Ozone day  وجود دارد یا خیر.

این دیتاست شامل 2536 مشاهده (نمونه) و 73 ویژگی است. این یک مسئله طبقه‌بندی Classification prediction problem  است و عدد 1 نشان‌دهنده روز اُزون و عدد 0 (صفر) نشان‌دهنده یک روز معمولی است.

در این دیتاست دو نمونه داده ، مجموعه اوج غلظت ازون طی یک ساعت و مجموعه اوج غلظت ازون طی هشت ساعت، وجود دارد. پیشنهاد می‌کنم الان از مجموعه اوج یک ساعته استفاده کنیم.

در ادامه نمونه‌ای از 5 ردیف اول داده‌ها بدون ردیف سربرگ ارائه شده است.

1/1/1998,0.8,1.8,2.4,2.1,2,2.1,1.5,1.7,1.9,2.3,3.7,5.5,5.1,5.4,5.4,4.7,4.3,3.5,3.5,2.9,3.2,3.2,2.8,2.6,5.5,3.1,5.2,6.1,6.1,6.1,6.1,5.6,5.2,5.4,7.2,10.6,14.5,17.2,18.3,18.9,19.1,18.9,18.3,17.3,16.8,16.1,15.4,14.9,14.8,15,19.1,12.5,6.7,0.11,3.83,0.14,1612,-2.3,0.3,7.18,0.12,3178.5,-15.5,0.15,10.67,-1.56,5795,-12.1,17.9,10330,-55,0,0.
1/2/1998,2.8,3.2,3.3,2.7,3.3,3.2,2.9,2.8,3.1,3.4,4.2,4.5,4.5,4.3,5.5,5.1,3.8,3,2.6,3,2.2,2.3,2.5,2.8,5.5,3.4,15.1,15.3,15.6,15.6,15.9,16.2,16.2,16.2,16.6,17.8,19.4,20.6,21.2,21.8,22.4,22.1,20.8,19.1,18.1,17.2,16.5,16.1,16,16.2,22.4,17.8,9,0.25,-0.41,9.53,1594.5,-2.2,0.96,8.24,7.3,3172,-14.5,0.48,8.39,3.84,5805,14.05,29,10275,-55,0,0.
1/3/1998,2.9,2.8,2.6,2.1,2.2,2.5,2.5,2.7,2.2,2.5,3.1,4,4.4,4.6,5.6,5.4,5.2,4.4,3.5,2.7,2.9,3.9,4.1,4.6,5.6,3.5,16.6,16.7,16.7,16.8,16.8,16.8,16.9,16.9,17.1,17.6,19.1,21.3,21.8,22,22.1,22.2,21.3,19.8,18.6,18,18,18.2,18.3,18.4,22.2,18.7,9,0.56,0.89,10.17,1568.5,0.9,0.54,3.8,4.42,3160,-15.9,0.6,6.94,9.8,5790,17.9,41.3,10235,-40,0,0.
1/4/1998,4.7,3.8,3.7,3.8,2.9,3.1,2.8,2.5,2.4,3.1,3.3,3.1,2.3,2.1,2.2,3.8,2.8,2.4,1.9,3.2,4.1,3.9,4.5,4.3,4.7,3.2,18.3,18.2,18.3,18.4,18.6,18.6,18.5,18.7,18.6,18.8,19,19,19.3,19.4,19.6,19.2,18.9,18.8,18.6,18.5,18.3,18.5,18.8,18.9,19.6,18.7,9.9,0.89,-0.34,8.58,1546.5,3,0.77,4.17,8.11,3145.5,-16.8,0.49,8.73,10.54,5775,31.15,51.7,10195,-40,2.08,0.
1/5/1998,2.6,2.1,1.6,1.4,0.9,1.5,1.2,1.4,1.3,1.4,2.2,2,3,3,3.1,3.1,2.7,3,2.4,2.8,2.5,2.5,3.7,3.4,3.7,2.3,18.8,18.6,18.5,18.5,18.6,18.9,19.2,19.4,19.8,20.5,21.1,21.9,23.8,25.1,25.8,26,25.6,24.2,22.9,21.6,20,19.5,19.1,19.1,26,21.1,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,0.58,0.
1/6/1998,3.1,3.5,3.3,2.5,1.6,1.7,1.6,1.6,2.3,1.8,2.5,3.9,3.4,2.7,3.4,2.5,2.2,4.4,4.3,3.2,6.2,6.8,5.1,4,6.8,3.2,18.9,19.5,19.6,19.5,19.5,19.5,19.4,19.2,19.1,19.5,19.6,18.6,18.6,18.9,19.2,19.3,19.2,18.8,17.6,16.9,15.6,15.4,15.9,15.8,19.6,18.5,14.4,0.68,1.52,8.62,1499.5,4.3,0.61,9.04,10.81,3111,-11.8,0.09,11.98,11.28,5770,27.95,46.25,10120,?,5.84,0.

جمع‌بندی

در این پست با چندین دیتاست پیش‌بینی سری زمانی آشنا شدید و می‌توانید با استفاده از این دیتا‌ست‌ها پیش‌بینی سری زمانی با تکنیک‌های یادگیری ماشین را آغاز و تمرین کنید.

در این پست به ویژه با:

  • 4 دیتاست سری‌زمانی یک متغیره
  • 3 دیتاست سری‌زمانی چند متغیره
  • دو وبسایت که می‌توانید دیتاست‌های زیادی را از آن‌ها دانلود کنید

آشنا شدید.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]