۸ مفهوم بنیادی از علم آمار برای دانشمندان داده

تیم تحریریه
۱۹ آبان ۱۴۰۰
زمان مطالعه 8 دقیقه

آمار شاخه‌ای از ریاضیات است که با جمع‌آوری، تجزیه و تحلیل، تفسیر و نمایش توده‌های بزرگ از داده‌های عددی سروکار دارد. با ادغام برنامه‌نویسی و یادگیری ماشین با آمار، مهارت‌های اصلی لازم برای علوم داده را به دست خواهید آورد.

آمار تقریباً در همۀ شاخه‌های علوم داده؛ ازجمله، تجزیه و تحلیل، تغییر و پاکسازی داده‌ها کاربرد دارد. همچنین برای ارزیابی و بهینه‌سازی الگوریتم‌های یادگیری ماشین استفاده می‌شود و همین‌طور با استفاده از آن می‌توان اطلاعات و یافته‌ها را به مخاطبان ارائه کرد.

حوزۀ علم آمار بسیار وسیع است؛ به همین دلیل، تصمیم‌گیری راجع به اینکه دقیقاً چه چیزی را، و تا چه حدی، باید یاد بگیرید کار دشواری است. افزون بر این، مباحث زیادی در یادگیری آمار وجود دارند که بسیار پیچیده بوده و هضمشان کار دشواری است. به‌ویژه، اگر تخصصی در ریاضیات پیشرفته نداشته باشید و از رشته‌ای همچون مهندسی نرم‌افزار وارد حوزۀ علوم داده شده باشید.

هدف از این مقاله، معرفی ۸ مفهوم آماری بنیادی است که برای یادگیری و درک علوم داده باید بدانید. این مفاهیم الزاماً تکنیک‌های پیشرفته و پیچیده‌ای نیستند، اما منتخبی از الزامات اساسی هستند که قبل از ورود به شیوه‌های پیچیده‌تر، باید بر آنها مسلط شوید.

فهرست مقاله پنهان

7 موازنه بایاس /واریانس

8 همبستگی

نمونه‌برداری آماری

در آمار، به همۀ داده‌های خام موجود برای آزمون یا آزمایش جمعیت (Population) گفته می‌شود. به دلایلی، ضرورتاً، نمی‌توان الگوها و رویه‌های (Trend) موجود در کل این جمعیت را اندازه ‌گرفت. به همین دلیل، در علم آمار مجازیم که نمونه‌هایی از کل جمعیت یا بخشی از آن را ‌برداریم، محاسباتی روی این مجموعه از داده‌ها انجام دهیم، و با استفاده از احتمالات و بعضی مفروضات، با سطح اطمینان خاصی، رویه‌های کل این جمعیت را بفهمیم یا رویدادهای آینده را پیش‌بینی کنیم.

فرض کنید می‌خواهیم میزان شیوع یک بیماری، مثل سرطان سینه، را در کل جامعۀ بریتانیا بدانیم. عملاً، بررسی کل جامعه ممکن نیست. در عوض، چند نمونۀ تصادفی در نظر گرفته و شیوع بیماری را در میان آنها اندازه می‌گیریم. با فرض اینکه این نمونه‌ها به قدر کافی تصادفی بوده و نمایندۀ کل جامعه باشد، می‌توانیم مقدار شیوع بیماری در کل جامعه را به دست آوریم.

آمار توصیفی

همان‌طور که از عبارت آمار توصیفی (Descriptive Statistics) بر می‌آید، این شاخه از آمار در توصیف داده‌ها کمک می‌کند. به بیان دیگر، به ما کمک می‌کند ویژگی‌های زیربنایی داده‌ها را درک کنیم. آمار توصیفی چیزی را پیش‌بینی نمی‌کند، مفروضاتی نمی‌سازد و استنتاجی انجام نمی‌دهد؛ بلکه تنها توصیفی از نمونۀ داده‌هایی که در دست داریم ارائه می‌کند.

آمار توصیفی از طریق محاسبۀ مواردی به دست می‌آید که غالباً پارامتر خوانده می‌شوند. برخی از این پارامترها عبارت‌اند از:

میانگین (Mean): مقدار مرکزی معمولاً میانگین نامیده می‌شود؛
میانه Median)): اگر داده‌ها را از کم به زیاد مرتب کنیم و دقیقاً آنها را نصف کنیم، مقدار میانه، آن داده‌ای است که در وسط قرار می‌گیرد؛
نما (Mode): مقداری که بیشترین فراوانی را دارد

توزیع‌ها

آمار توصیفی مفید است، اما غالباً اطلاعات مهم راجع به دیتاست را از ما پنهان می‌کند. مثلاً، اگر در دیتاست چند عددی وجود داشته باشد که از بقیۀ اعداد بسیار بزرگ‌تر باشند، آنگاه ممکن است میانگین دچار چولگی (Skew) شود و بازنمایی درستی از داده به ما ندهد.

توزیع داده‌ها نموداری است، اغلب به شکل هیستوگرام(Histogram)، که فراوانی هر مقدار موجود در دیتاست را نشان می‌دهد. این نمودار حاوی اطلاعاتی دربارۀ پراکندگی و چولگی داده‌هاست.

یک توزیع معمولاً نموداری منحنی‌شکل است. این منحنی احتمالاً بیشتر به چپ یا به راست چولگی پیدا می‌کند.

در برخی موارد، ممکن است منحنی چندان هموار نباشد:

یکی از مهم‌ترین توزیع‌ها، توزیع نرمال (Normal Distribution) است، که به خاطر شکلش، غالباً به نام منحنی زنگوله‌ای (Bell) نیز شناخته می‌شود. این منحنی شکلی متقارن دارد. در چنین توزیعی، بیشتر مقادیر در اطراف نقطۀ اوج مرکزی انباشته شده‌اند و مقادیر دورتر از این مرکز به‌طور برابر در دو طرف این منحنی توزیع می‌شوند. بسیاری از متغیرها ذاتاً توزیع نرمال دارند؛ نظیر، قد انسان‌ها یا نمرات IQ.

احتمال

احتمال، به زبان ساده، امکان وقوع یک رویداد است. در علم آمار، یک رویداد نتیجۀ یک آزمایش، مثل، پرتاب یک تاس یا نتیجۀ آزمون AB است.

احتمال یک رویداد را می‌توان از طریق تقسیم تعداد رویدادها بر تعداد کل خروجی‌های ممکن به دست آورد. در مورد، مثلاً، انداختن تاس برای آمدن ۶، شش نتیجه امکان‌پذیر است. بنابراین، شانس اینکه تاس عدد ۶ را نشان دهد برابر با ۶/۱ (=۱۶۷/۰) است، گاهی این عدد را به صورت درصد هم نشان می‌دهند (۷/۱۶%).

رویدادها می‌توانند مستقل یا وابسته باشند. در رویدادهای وابسته، رویداد پیشین بر رویداد پسین تأثیر می‌گذارد. فرض کنید یک بسته اسمارتیز دارید و می‌خواهید احتمال انتخاب تصادفی یک اسمارتیز قرمز را تعیین کنید. اگر هر بار اسمارتیز انتخابی را از بسته کنار بگذاریم، احتمال انتخاب اسمارتیز قرمز به‌خاطر تأثیر رویدادهای پیشین تغییر خواهد کرد.

از سوی دیگر، رویدادهای مستقل تحت تأثیر رویدادهای پیشین نیستند. در همان مثال قبلی، اگر در هر بار آزمایش اسمارتیز انتخابی را دوباره داخل بسته قرار دهیم، احتمال انتخاب اسمارتیز قرمز ثابت می‌ماند.

مستقل یا وابسته‌بودن یک رویداد مهم است، چون نحوۀ محاسبۀ احتمال چند رویداد به این ویژگی بستگی دارد.

احتمال وقوع چندین رویداد مستقل، به‌سادگی، از ضرب‌کردن احتمال هرکدام از آن رویدادها محاسبه می‌شود. در مثالِ ریختنِ تاس، برای محاسبۀ احتمال سه بار ۶ آمدن، بدین طریق عمل می‌کنیم:

۱۶۷/۰ = ۶/۱ (احتمال یک بار شش آمدن)

۰۰۵/۰ = ۶/۱ × ۶/۱ × ۶/۱(احتمال سه بار شش آمدن)

این محاسبه‌ برای رویدادهای وابسته متفاوت است. به محاسبۀ احتمال وقوع چند رویداد وابسته احتمال شرطی (Conditional Probability) گفته می‌شود. در مثال بستۀ اسمارتیز، فرض کنید اسمارتیزهای داخل بسته تنها دو رنگ قرمز و زرد دارند، و می‌دانیم که این بسته حاوی ۳ اسمارتیز قرمز و ۲ اسمارتیز زرد است و می‌خواهیم احتمال انتخاب پشت‌سرهم دو اسمارتیز قرمز را محاسبه کنیم. در اولین مرحله، احتمال برداشتن اسمارتیز قرمز ۵/۳ یا ۶/۰ است. اما در مرحلۀ دوم، چون قبلاً یک اسمارتیز قرمز از بسته برداشته‌ایم، احتمال برداشتن اسمارتیز قرمز ۴/۲ یا ۵/۰ می‌شود. بنابراین، احتمال انتخاب پشت‌سرهمِ دو اسمارتیز قرمز از ضرب این مقادیر به دست می‌آید: ۳/۰ = ۵/۰ × ۶/۰.

سوگیری

همان‌طور که پیش‌تر گفته شد، در علم آمار، غالباً بر اساس نمونه‌هایی از داده‌ها، برآوردی دربارۀ کل دیتاست انجام می‌شود. برای مدل‌سازی پیش‌بین نیز به همین شکل عمل می‌کنیم؛ یعنی با استفاده از چند دادۀ آموزشی، سعی می‌کنیم مدلی بسازیم که پیش‌بینی‌هایی راجع به داده‌های جدید انجام دهد.

سوگیری (Bias) گرایش یک مدل آماری یا پیش‌بین به بیش‌برآورد (Overestimate) یا کم‌برآورد (Underestimate) یک پارامتر است. سوگیری اغلب به خاطر روش نمونه‌برداری یا شیوۀ اندازه‌گیری خطا اتفاق می‌افتد. چند نوع سوگیری در علم آمار متداول است، توضیح مختصری دربارۀ دو مورد از آنها در این قسمت ارائه می‌شود:

سوگیری در انتخاب Selection Bias)): این سوگیری وقتی اتفاق می‌افتد که نمونه به شیوه‌ای غیرتصادفی انتخاب می‌شود. مثالی که از این سوگیری در علوم داده می‌توان زد این است که یک آزمون AB را زودهنگام و در حین انجام آزمون متوقف کنیم، یا داده‌هایی که برای آموزش یک مدل یادگیری ماشین استفاده می‌کنیم از یک بازۀ زمانی‌ باشند و تأثیرات فصلی را در نظر نیاورند.
سوگیری تأییدی (Confirmation Bias): این سوگیری وقتی اتفاق می‌افتد که تجزیه و تحلیل داده‌ها با پیش‌فرض قبلی دربارۀ آنها انجام شود. در چنین موقعیتی، ممکن است زمان بیشتری صرف بررسی متغیرهایی شود که احتمالاً این پیش‌فرض را تأیید می‌کنند.

واریانس

همان‌طور که، پیش‌تر، در این مقاله گفته شد، میانگین یک نمونه داده به مقدار مرکزی آن نمونه اطلاق می‌شود. واریانس (Variance) پارامتری است که نشان می‌دهد هرکدام از مقادیر موجود در دیتاست چقدر از میانگین فاصله دارند. به عبارتی می‌توان گفت واریانس مقدار پراکندگی اعداد یک دیتاست را اندازه می‌گیرد.

انحراف معیار (Standard Deviation) معیاری متداول از تنوع داده‌هایی است که توزیع نرمال دارند. انحراف معیار میزان پراکندگی داده‌ها را نشان می‌دهد. انحراف معیار کم حاکی از این است که مقادیر به میانگین نزدیک هستند؛ اما انحراف معیار بالا نشان می‌دهد که مقادیر دیتاست پراکندگی زیادی دارند.

اگر داده‌ها توزیع نرمال نداشته باشند، از سایر معیارهای واریانس استفاده می‌شود. دامنۀ میان‌چارکی (Interquartile Range) یکی از پرکاربردترین این معیارهاست. برای به دست آوردن این مقدار ابتدا داده‌ها را به ترتیب مرتب می‌کنیم، سپس نقطه‌داده‌ها (Data Point) را به چهار بخش مساوی تقسیم می‌کنیم، به این بخش‌ها چارک (Quartile) گفته می‌شود، هر چارک محل قرارگیری ۲۵% از نقطه‌داده‌ها را نسبت به میانه نشان می‌دهد. دامنۀ میان‌چارکی از تفریق میانۀ دو چارک وسط یعنی Q1 و Q3 محاسبه می‌شود.

موازنه بایاس /واریانس

مفاهیم بایاس و واریانس در یادگیری ماشین بسیار مهم‌اند. برای طراحی هر مدل یادگیری ماشین از نمونه‌ای از داده‌ها استفاده می‌شود که به آن دیتاست آموزش می‌گویند. مدل، الگوهای موجود در این دیتاست را می‌آموزد و تابعی ریاضی تولید می‌کند که برچسب هدف صحیح یا مقدار y را به مجموعه‌ای از ورودی‌های X نگاشت می‌دهد.

هنگام تولید این تابع نگاشت، مدل برای تقریب بهتر هدف از مجموعه‌ای از مفروضات استفاده می‌کند. مثلاً، در الگوریتم رگرسیون خطی فرض می‌شود که یک رابطۀ خطی (خط صاف) بین ورودی و هدف برقرار است. این مفروضات باعث سوگیری در مدل می‌شوند.

در محاسبات، بایاس تفاوت بین میانگین پیش‌بینی‌ تولیدشده توسط مدل و مقدار واقعی تعریف کرد.

اگر بخواهیم با استفاده از نمونه‌های متفاوتی از داده‌های آموزش مدلی را آموزش دهیم، در پیش‌بینی‌های تولیدشده مدل (خروجی) تغییراتی می‌بینیم. واریانس در یادگیری ماشین معیاری از میزان بزرگی این اختلاف است.

در یادگیری ماشین، خطای کلی موردانتظار از پیش‌بینی‌ها با استفاده از بایاس و واریانس محاسبه می‌شود. در حالت ایده‌آل مقدار بایاس و واریانس باید کم باشد. اما در واقعیت، کمینه‌کردن بایاس معمولاً منجر به افزایش واریانس می‌شود و بالعکس. مبادلۀ بایاس/واریانس (Bias/Variance Trade-off) فرایند توازن بین این دو خطا را برای کمینه‌کردن خطای کلی مدل توصیف می‌کند.

همبستگی

همبستگی (Correlation) یکی از تکنیک‌های آماری است که رابطۀ بین دو متغیر را اندازه می‌گیرد. همبستگی به صورت خطی در نظر گرفته می‌شود (در نتیجه روی نمودار به شکل یک خط رسم می‌شود). همبستگی را به صورت عددی بین ۱+ و ۱- نشان می‌دهند، به این عدد ضریب همبستگی (Correlation Coefficient) گفته می‌شود.

ضریب همبستگی ۱+ نشان‌دهندۀ همبستگی کامل و مثبت است، یعنی زمانی که مقدار یک متغیر افزایش پیدا می‌کند، مقدار متغیر دوم نیز افزایش می‌یابد. ضریب همبستگی ۰ به معنی عدم همبستگی بین دو متغیر است و ضریب همبستگی ۱- نیز حاکی از همبستگی کامل و منفی است.

حوزه علم آمار گسترده و پیچیده است. هدف از این مقاله معرفی مختصر رایج‌ترین تکنیک‌های آماری استفاده‌شده در علوم داده بود. غالباً، در دوره‌های آموزشی علوم داده، یا کار با این پیش‌فرض شروع می‌شود که مخاطبان دانشی مقدماتی درباره این مفاهیم پایه دارند، یا توضیحاتی پیچیده از این مفاهیم ارائه می‌دهند که درکشان دشوار است.