8 مفهوم بنیادی از علم آمار برای دانشمندان داده
آمار شاخهای از ریاضیات است که با جمعآوری، تجزیه و تحلیل، تفسیر و نمایش تودههای بزرگ از دادههای عددی سروکار دارد. با ادغام برنامهنویسی و یادگیری ماشین با آمار، مهارتهای اصلی لازم برای علوم داده را به دست خواهید آورد.
آمار تقریباً در همۀ شاخههای علوم داده؛ ازجمله، تجزیه و تحلیل، تغییر و پاکسازی دادهها کاربرد دارد. همچنین برای ارزیابی و بهینهسازی الگوریتمهای یادگیری ماشین استفاده میشود و همینطور با استفاده از آن میتوان اطلاعات و یافتهها را به مخاطبان ارائه کرد.
حوزۀ علم آمار بسیار وسیع است؛ به همین دلیل، تصمیمگیری راجع به اینکه دقیقاً چه چیزی را، و تا چه حدی، باید یاد بگیرید کار دشواری است. افزون بر این، مباحث زیادی در یادگیری آمار وجود دارند که بسیار پیچیده بوده و هضمشان کار دشواری است. بهویژه، اگر تخصصی در ریاضیات پیشرفته نداشته باشید و از رشتهای همچون مهندسی نرمافزار وارد حوزۀ علوم داده شده باشید.
هدف از این مقاله، معرفی 8 مفهوم آماری بنیادی است که برای یادگیری و درک علوم داده باید بدانید. این مفاهیم الزاماً تکنیکهای پیشرفته و پیچیدهای نیستند، اما منتخبی از الزامات اساسی هستند که قبل از ورود به شیوههای پیچیدهتر، باید بر آنها مسلط شوید.
نمونهبرداری آماری
در آمار، به همۀ دادههای خام موجود برای آزمون یا آزمایش جمعیت (Population) گفته میشود. به دلایلی، ضرورتاً، نمیتوان الگوها و رویههای (Trend) موجود در کل این جمعیت را اندازه گرفت. به همین دلیل، در علم آمار مجازیم که نمونههایی از کل جمعیت یا بخشی از آن را برداریم، محاسباتی روی این مجموعه از دادهها انجام دهیم، و با استفاده از احتمالات و بعضی مفروضات، با سطح اطمینان خاصی، رویههای کل این جمعیت را بفهمیم یا رویدادهای آینده را پیشبینی کنیم.
فرض کنید میخواهیم میزان شیوع یک بیماری، مثل سرطان سینه، را در کل جامعۀ بریتانیا بدانیم. عملاً، بررسی کل جامعه ممکن نیست. در عوض، چند نمونۀ تصادفی در نظر گرفته و شیوع بیماری را در میان آنها اندازه میگیریم. با فرض اینکه این نمونهها به قدر کافی تصادفی بوده و نمایندۀ کل جامعه باشد، میتوانیم مقدار شیوع بیماری در کل جامعه را به دست آوریم.
آمار توصیفی
همانطور که از عبارت آمار توصیفی (Descriptive Statistics) بر میآید، این شاخه از آمار در توصیف دادهها کمک میکند. به بیان دیگر، به ما کمک میکند ویژگیهای زیربنایی دادهها را درک کنیم. آمار توصیفی چیزی را پیشبینی نمیکند، مفروضاتی نمیسازد و استنتاجی انجام نمیدهد؛ بلکه تنها توصیفی از نمونۀ دادههایی که در دست داریم ارائه میکند.
آمار توصیفی از طریق محاسبۀ مواردی به دست میآید که غالباً پارامتر خوانده میشوند. برخی از این پارامترها عبارتاند از:
- میانگین (Mean): مقدار مرکزی معمولاً میانگین نامیده میشود؛
- میانه Median)): اگر دادهها را از کم به زیاد مرتب کنیم و دقیقاً آنها را نصف کنیم، مقدار میانه، آن دادهای است که در وسط قرار میگیرد؛
- نما (Mode): مقداری که بیشترین فراوانی را دارد
توزیعها
آمار توصیفی مفید است، اما غالباً اطلاعات مهم راجع به دیتاست را از ما پنهان میکند. مثلاً، اگر در دیتاست چند عددی وجود داشته باشد که از بقیۀ اعداد بسیار بزرگتر باشند، آنگاه ممکن است میانگین دچار چولگی (Skew) شود و بازنمایی درستی از داده به ما ندهد.
توزیع دادهها نموداری است، اغلب به شکل هیستوگرام(Histogram)، که فراوانی هر مقدار موجود در دیتاست را نشان میدهد. این نمودار حاوی اطلاعاتی دربارۀ پراکندگی و چولگی دادههاست.
یک توزیع معمولاً نموداری منحنیشکل است. این منحنی احتمالاً بیشتر به چپ یا به راست چولگی پیدا میکند.
در برخی موارد، ممکن است منحنی چندان هموار نباشد:
یکی از مهمترین توزیعها، توزیع نرمال (Normal Distribution) است، که به خاطر شکلش، غالباً به نام منحنی زنگولهای (Bell) نیز شناخته میشود. این منحنی شکلی متقارن دارد. در چنین توزیعی، بیشتر مقادیر در اطراف نقطۀ اوج مرکزی انباشته شدهاند و مقادیر دورتر از این مرکز بهطور برابر در دو طرف این منحنی توزیع میشوند. بسیاری از متغیرها ذاتاً توزیع نرمال دارند؛ نظیر، قد انسانها یا نمرات IQ.
احتمال
احتمال، به زبان ساده، امکان وقوع یک رویداد است. در علم آمار، یک رویداد نتیجۀ یک آزمایش، مثل، پرتاب یک تاس یا نتیجۀ آزمون AB است.
احتمال یک رویداد را میتوان از طریق تقسیم تعداد رویدادها بر تعداد کل خروجیهای ممکن به دست آورد. در مورد، مثلاً، انداختن تاس برای آمدن 6، شش نتیجه امکانپذیر است. بنابراین، شانس اینکه تاس عدد 6 را نشان دهد برابر با 6/1 (=167/0) است، گاهی این عدد را به صورت درصد هم نشان میدهند (7/16%).
رویدادها میتوانند مستقل یا وابسته باشند. در رویدادهای وابسته، رویداد پیشین بر رویداد پسین تأثیر میگذارد. فرض کنید یک بسته اسمارتیز دارید و میخواهید احتمال انتخاب تصادفی یک اسمارتیز قرمز را تعیین کنید. اگر هر بار اسمارتیز انتخابی را از بسته کنار بگذاریم، احتمال انتخاب اسمارتیز قرمز بهخاطر تأثیر رویدادهای پیشین تغییر خواهد کرد.
از سوی دیگر، رویدادهای مستقل تحت تأثیر رویدادهای پیشین نیستند. در همان مثال قبلی، اگر در هر بار آزمایش اسمارتیز انتخابی را دوباره داخل بسته قرار دهیم، احتمال انتخاب اسمارتیز قرمز ثابت میماند.
مستقل یا وابستهبودن یک رویداد مهم است، چون نحوۀ محاسبۀ احتمال چند رویداد به این ویژگی بستگی دارد.
احتمال وقوع چندین رویداد مستقل، بهسادگی، از ضربکردن احتمال هرکدام از آن رویدادها محاسبه میشود. در مثالِ ریختنِ تاس، برای محاسبۀ احتمال سه بار 6 آمدن، بدین طریق عمل میکنیم:
167/0 = 6/1 (احتمال یک بار شش آمدن)
005/0 = 6/1 × 6/1 × 6/1(احتمال سه بار شش آمدن)
این محاسبه برای رویدادهای وابسته متفاوت است. به محاسبۀ احتمال وقوع چند رویداد وابسته احتمال شرطی (Conditional Probability) گفته میشود. در مثال بستۀ اسمارتیز، فرض کنید اسمارتیزهای داخل بسته تنها دو رنگ قرمز و زرد دارند، و میدانیم که این بسته حاوی 3 اسمارتیز قرمز و 2 اسمارتیز زرد است و میخواهیم احتمال انتخاب پشتسرهم دو اسمارتیز قرمز را محاسبه کنیم. در اولین مرحله، احتمال برداشتن اسمارتیز قرمز 5/3 یا 6/0 است. اما در مرحلۀ دوم، چون قبلاً یک اسمارتیز قرمز از بسته برداشتهایم، احتمال برداشتن اسمارتیز قرمز 4/2 یا 5/0 میشود. بنابراین، احتمال انتخاب پشتسرهمِ دو اسمارتیز قرمز از ضرب این مقادیر به دست میآید: 3/0 = 5/0 × 6/0.
سوگیری
همانطور که پیشتر گفته شد، در علم آمار، غالباً بر اساس نمونههایی از دادهها، برآوردی دربارۀ کل دیتاست انجام میشود. برای مدلسازی پیشبین نیز به همین شکل عمل میکنیم؛ یعنی با استفاده از چند دادۀ آموزشی، سعی میکنیم مدلی بسازیم که پیشبینیهایی راجع به دادههای جدید انجام دهد.
سوگیری (Bias) گرایش یک مدل آماری یا پیشبین به بیشبرآورد (Overestimate) یا کمبرآورد (Underestimate) یک پارامتر است. سوگیری اغلب به خاطر روش نمونهبرداری یا شیوۀ اندازهگیری خطا اتفاق میافتد. چند نوع سوگیری در علم آمار متداول است، توضیح مختصری دربارۀ دو مورد از آنها در این قسمت ارائه میشود:
- سوگیری در انتخاب Selection Bias)): این سوگیری وقتی اتفاق میافتد که نمونه به شیوهای غیرتصادفی انتخاب میشود. مثالی که از این سوگیری در علوم داده میتوان زد این است که یک آزمون AB را زودهنگام و در حین انجام آزمون متوقف کنیم، یا دادههایی که برای آموزش یک مدل یادگیری ماشین استفاده میکنیم از یک بازۀ زمانی باشند و تأثیرات فصلی را در نظر نیاورند.
- سوگیری تأییدی (Confirmation Bias): این سوگیری وقتی اتفاق میافتد که تجزیه و تحلیل دادهها با پیشفرض قبلی دربارۀ آنها انجام شود. در چنین موقعیتی، ممکن است زمان بیشتری صرف بررسی متغیرهایی شود که احتمالاً این پیشفرض را تأیید میکنند.
واریانس
همانطور که، پیشتر، در این مقاله گفته شد، میانگین یک نمونه داده به مقدار مرکزی آن نمونه اطلاق میشود. واریانس (Variance) پارامتری است که نشان میدهد هرکدام از مقادیر موجود در دیتاست چقدر از میانگین فاصله دارند. به عبارتی میتوان گفت واریانس مقدار پراکندگی اعداد یک دیتاست را اندازه میگیرد.
انحراف معیار (Standard Deviation) معیاری متداول از تنوع دادههایی است که توزیع نرمال دارند. انحراف معیار میزان پراکندگی دادهها را نشان میدهد. انحراف معیار کم حاکی از این است که مقادیر به میانگین نزدیک هستند؛ اما انحراف معیار بالا نشان میدهد که مقادیر دیتاست پراکندگی زیادی دارند.
اگر دادهها توزیع نرمال نداشته باشند، از سایر معیارهای واریانس استفاده میشود. دامنۀ میانچارکی (Interquartile Range) یکی از پرکاربردترین این معیارهاست. برای به دست آوردن این مقدار ابتدا دادهها را به ترتیب مرتب میکنیم، سپس نقطهدادهها (Data Point) را به چهار بخش مساوی تقسیم میکنیم، به این بخشها چارک (Quartile) گفته میشود، هر چارک محل قرارگیری 25% از نقطهدادهها را نسبت به میانه نشان میدهد. دامنۀ میانچارکی از تفریق میانۀ دو چارک وسط یعنی Q1 و Q3 محاسبه میشود.
موازنه بایاس /واریانس
مفاهیم بایاس و واریانس در یادگیری ماشین بسیار مهماند. برای طراحی هر مدل یادگیری ماشین از نمونهای از دادهها استفاده میشود که به آن دیتاست آموزش میگویند. مدل، الگوهای موجود در این دیتاست را میآموزد و تابعی ریاضی تولید میکند که برچسب هدف صحیح یا مقدار y را به مجموعهای از ورودیهای X نگاشت میدهد.
هنگام تولید این تابع نگاشت، مدل برای تقریب بهتر هدف از مجموعهای از مفروضات استفاده میکند. مثلاً، در الگوریتم رگرسیون خطی فرض میشود که یک رابطۀ خطی (خط صاف) بین ورودی و هدف برقرار است. این مفروضات باعث سوگیری در مدل میشوند.
در محاسبات، بایاس تفاوت بین میانگین پیشبینی تولیدشده توسط مدل و مقدار واقعی تعریف کرد.
اگر بخواهیم با استفاده از نمونههای متفاوتی از دادههای آموزش مدلی را آموزش دهیم، در پیشبینیهای تولیدشده مدل (خروجی) تغییراتی میبینیم. واریانس در یادگیری ماشین معیاری از میزان بزرگی این اختلاف است.
در یادگیری ماشین، خطای کلی موردانتظار از پیشبینیها با استفاده از بایاس و واریانس محاسبه میشود. در حالت ایدهآل مقدار بایاس و واریانس باید کم باشد. اما در واقعیت، کمینهکردن بایاس معمولاً منجر به افزایش واریانس میشود و بالعکس. مبادلۀ بایاس/واریانس (Bias/Variance Trade-off) فرایند توازن بین این دو خطا را برای کمینهکردن خطای کلی مدل توصیف میکند.
همبستگی
همبستگی (Correlation) یکی از تکنیکهای آماری است که رابطۀ بین دو متغیر را اندازه میگیرد. همبستگی به صورت خطی در نظر گرفته میشود (در نتیجه روی نمودار به شکل یک خط رسم میشود). همبستگی را به صورت عددی بین 1+ و 1- نشان میدهند، به این عدد ضریب همبستگی (Correlation Coefficient) گفته میشود.
ضریب همبستگی 1+ نشاندهندۀ همبستگی کامل و مثبت است، یعنی زمانی که مقدار یک متغیر افزایش پیدا میکند، مقدار متغیر دوم نیز افزایش مییابد. ضریب همبستگی 0 به معنی عدم همبستگی بین دو متغیر است و ضریب همبستگی 1- نیز حاکی از همبستگی کامل و منفی است.
حوزه علم آمار گسترده و پیچیده است. هدف از این مقاله معرفی مختصر رایجترین تکنیکهای آماری استفادهشده در علوم داده بود. غالباً، در دورههای آموزشی علوم داده، یا کار با این پیشفرض شروع میشود که مخاطبان دانشی مقدماتی درباره این مفاهیم پایه دارند، یا توضیحاتی پیچیده از این مفاهیم ارائه میدهند که درکشان دشوار است.