همبستگی
آموزش‌های پیشرفته هوش مصنوعیداده کاوی و بیگ دیتاعلوم شناختی

همبستگی و معرفی معیار بهتری برای آن: همبستگی فاصله‌ای

    0
    زمان مطالعه: ۳ دقیقه

    احتمالاً همه بر سر این موضوع توافق نظر دارند که یکی از پرکاربردترین معیارها در مشاغل، همبستگی، یا به بیان دقیق‌تر، همبستگی‌‌‍‌‌‌‌‌‌ پیرسون (Pearson Correlation) است.

    یادآوری: همبستگی‌‌‌‌‌ رابطۀ خطی بین دو متغیر را اندازه می‌گیرد. مسئله این است که بسیاری از روابط خطی نیستند.

    مثلاً، شاید در نتیجۀ محاسبات به این نتیجه برسید که بین متغیر X و درآمد همبستگی وجود ندارد، درحالی‌که واقعاً اینطور نیست. شاید این دو متغیر همبستگی داشته باشند، فقط این همبستگی‌‌‌‌‌ غیرخطی باشد. اینجاست که همبستگی فاصله‌ای به کمکمان می‌آید.

    همبستگی فاصله‌ای چیست؟

    همبستگی فاصله‌ای معیار قوت وابستگی بین دو متغیر تصادفی غیرخطی است. این معیار از همبستگی پیرسون فراتر می‌رود، زیرا تنها به اندازه‌گیری وابستگی‌های خطی محدود نمی‌شود و می‌تواند به صورت چندبُعدی کار کند. مقدار همبستگی فاصله‌ای عددی بین ۰ تا ۱ است، ۰ حاکی از استقلال دو متغیر X و Y است و ۱ نشان می‌دهد زیرفضاهای خطی (Linear Subspace) X و Y برابر هستند.

    تصویر پایین همبستگی‌‌‌‌‌ فاصله‌ای را در مقایسه با همبستگی پیرسون نشان می‌دهد.

    همبستگی

    فرمول محاسبۀ همبستگی‌‌‌‌‌ فاصله‌ای از قرار ادامه است:

    همبستگی فاصله ای

    همبستگی‌‌‌‌‌ فاصله‌ای همبستگی بین خود فواصل را نشان نمی‌دهد، بلکه همبستگی‌‌‌‌‌ بین ضرب‌های داخلی (Scalar Product) است که مولد ماتریس‌هایی هستند که جمع درایه‌های هر سطر و ستونشان صفر است، به این ماتریس‌ها double-centered می‌گویند.

    مبنای ریاضی

    فرض کنید (Xk, Yk), k= 1, 2, …, n یک نمونۀ آماری از دو متغیر تصادفی X و Y باشد.

    ابتدا، ماتریس‌های فاصله‌ای (aj, k) و (bj, k) با ابعاد n در n محاسبه می‌شوند، این ماتریس‌ها شامل فاصلۀ بین همۀ جفت درایه‌‌ها هستند.

    مبنای ریاضی همبستگی فاصله ای

    سپس فواصل double-centered محاسبه می‌شوند:

    double-centered

    از چشم‌انداز بصری، با محاسبۀ فواصل double-centered، نمایش ماتریسی (در سمت چپ) به طرح سمت راست (ماتریس double-centered) تبدیل می‌شود.

    مارتیس

    چرا این عملیات انجام می‌شود؟

    کوواریانس‌ ضرب خارجی (Cross-product) گشتاورها (Moment) است. از آنجایی که فواصل گشتاور نیستند، باید آنها را برحسب گشتاور محاسبه کرد. برای محاسبۀ این گشتاورها، ابتدا باید انحراف از میانگین (Deviation from the Mean) را محاسبه کرد، یعنی همان کاری که double-centering انجام می‌دهد.

    در نهایت، میانگین حسابی (Arithmetic Average) حاصلضرب A و B محاسبه می‌شود تا مربع کوواریانس فاصله‌ای نمونه (Squared Sample Distance Covariance) به دست آید:

    واریانس فاصله‌ای در واقع کواریانس فاصله‌ایِ دو متغیر یکسان است. پس از جذر این معادله به دست می‌آید:

    پیاده‌سازی در پایتون

    در صورتی که قصد دارید از معیار همبستگی فاصله‌ای استفاده کنید، خوشبختانه، کتابخانه‌ای در پایتون وجود دارد که امکان پیاده‌سازی آن را بسیار ساده می‌کند.

    یک نمونه از کد اسنیپت (Snippet) در پایتون را در این قسمت مشاهده می‌کنید:

    با این تابع به‌راحتی می‌توانید همبستگی‌‌‌‌‌ فاصله‌ای بین دو نمونۀ a و b را محاسبه کنید.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    ویراستار هوشمند؛ دستیاری که می‌تواند کیفیت نوشتار فارسی را در دنیای دیجیتال دگرگون کند!

    مقاله قبلی

    آزمایش بیزی AB ــ قسمت اول: تبدیل‌ها

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد.