مدل‌های‌ داده‌ای: مقدمه‌ای بر معیارهای ارزیابی عملکرد مدل رده بندی

تیم تحریریه
۱۸ آبان ۱۴۰۰

زمان مطالعه: 2 دقیقه

وقتی صحبت از مدل‌سازی داده‌ها می‌شود، اکثر افراد به مدل‌های رگرسیون فکر می‌کنند که می‌توانند بر اساس داده‌های جمع‌آوری شده، متغیر هدف را پیش‌بینی کنند. با این حال، ارزیابی عملکرد مدل رده بندی نشان داده که آن‌ها نیز (با این‌که روش متفاوتی را در پیش‌ می‌گیرند) در پیش‌بینی خوب بوده‌اند. متغیرهایی که توسط مدل‌های رگرسیون پیش‌بینی می‌شوند، توزیع پیوسته دارند، بدین معنی که تعداد خروجی‌هایشان بی‌شمار است.

از مسائل رگرسیون می‌توان به این موارد اشاره کرد: پیش‌بینی قیمت فروش یک خانه، پیش‌بینی دمای هوا در یک روز خاص یا پیش‌بینی امتیازاتی که بازیکنی خاص در یک مسابقه‌ی بسکتبال به دست خواهد آورد. از سوی دیگر، متغیر هدفی که مدل‌های رده‌بندی پیش‌بینی می‌کنند یک توزیع گسسته دارد و تعداد خروجی‌های آن بی‌نهایت نیست.

برای مثال، پیش‌بینی نامزدی که در انتخابات برنده خواهد شد، یا پیش‌بینی روزی در هفته که بیشترین میزان فروش را به خود اختصاص خواهد داد. در ادامه‌ این نوشتار، بر مدل‌های رده‌بندی دودویی تمرکز می‌کنیم؛ این مدل‌ها محتمل‌ترین گزینه از دو خروجی ممکن را پیش‌بینی می‌کنند.

فهرست مقاله پنهان

1 معیارهای ارزیابی پیش‌بینی رده‌بندی

2 معیارهای ارزیابی عملکرد مدل رده بندی

معیارهای ارزیابی پیش‌بینی رده‌بندی

عملکرد مدل‌های رگرسیون داده، از طریق مقایسه‌ مقادیر مشاهده‌شده با مقادیر واقعی با استفاده از معیاری همچون خطای میانگین مجذورات Mean squared error یا ضریب تعیین Coefficient of determination، ارزیابی می‌شود.

[irp posts=”12401″]

ارزیابی عملکرد مدل رده بندی می‌تواند بر اساس معیارهای خاصی صورت گیرد.انتخاب این معیارها به نوع مسئله بستگی دارد. علاوه بر این، همانطور که پیش‌تر نیز گفته شد، معیارهایی که برای ارزیابی مدل‌های رده‌بندی به کار می‌روند باید مخصوص متغیرهای گسسته باشند.

منفی حقیقی (TN): پیش‌بینی خروجی منفی، هنگامی که پاسخ واقعاً منفی است.
منفی کاذب (FN): پیش‌بینی خروجی منفی، هنگامی که پاسخ در واقع منفی نیست.
مثبت حقیقی (TP): پیش‌بینی خروجی مثبت هنگامی که پاسخ واقعاً مثبت است.
مثبت کاذب (FP): پیش‌بینی خروجی مثبت هنگامی که پاسخ در واقع مثبت نیست.

این مقادیر را می‌توان در قالب یک ماتریس درهم‌ریختگی Confusion matrix نمایش داد؛ در این ماتریس، تعداد داده‌های موجود در هر دسته (منفی حقیقی، منفی کاذب، مثبت حقیقی، مثبت کاذب) نشان داده می‌شود.

معیارهای ارزیابی عملکرد مدل رده بندی

یک نمونه‌ مشهور از مسئله‌ رده‌بندی دودویی، پیش‌بینی باردار بودن یا نبودن یک فرد است. در این مثال مثبت حقیقی، باردار بودن و منفی حقیقی باردار نبودن است (تعیین این‌که کدام پاسخ مثبت یا منفی است به عهده‌ فردی است که قصد دارد پیش‌بینی‌های مدل را ارزیابی کند). اگر کسی واقعاً باردار باشد و مدل خلاف این را پیش‌بینی کند، پیش‌بینی در دسته‌ منفی کاذب قرار می‌گیرد.

[irp posts=”17303″]

اگر کسی واقعاً باردار نباشد اما مدل پیش‌بینی کند که او باردار است، خروجی مدل مثبت کاذب است. بنابراین، مثبت حقیقی و منفی حقیقی شرایطی هستند که باردار بودن یا نبودن فرد به درستی پیش‌بینی شده است. برای ارزیابی عملکرد مدل رده بندی (با استفاده از یک عدد)، معیارهای زیادی وجود دارند:

صحت: چند خروجی به درستی پیش‌بینی شده‌اند؟

نرخ رده‌بندی نادرست: چند خروجی به اشتباه پیش‌بینی شده‌اند؟

حساسیت/بازخوانی: چند خروجی از مواردی که مدل مثبت پیش‌بینی کرده واقعاً مثبت بوده‌اند؟

توجه داشته باشید که در این بافت، حساسیت و بازخوانی هم‌معنی هستند.

اختصاصی بودن: چند خروجی از مواردی که مدل منفی پیش‌بینی کرده واقعاً منفی بوده‌اند؟

دقت: مدل چند خروجی مثبت را به درستی پیش‌بینی کرده است؟

جمع‌بندی

انتخاب معیاری برای ارزیابی عملکرد که به بهینه‌سازی مدل کمک کند، به بافت آن مسئله‌ رده‌بندی بستگی دارد. به مثال بالا برمی‌گردیم (پیش‌بینی باردار بودن یا نبودن فرد)؛ در چنین شرایطی، اگر مدل وضعیت کسی که واقعاً باردار است، را به اشتباه رده‌بندی کند (منفی کاذب)، خطای فاحش‌تری را مرتکب شده است (نسبت به زمانی که اشتباهاً پیش‌بینی کند فرد غیرباردار، باردار است)؛ چون بافت مسئله به گونه‌ای است که اگر یک خانم باردار فکر کند باردار نیست، ممکن است فعالیت‌هایی انجام دهد که به جنین آسیب برساند.

[irp posts=”12521″]

بنابراین مدلی که قرار است برای این مسئله‌ رده‌بندی خاص ساخته شود، باید با هدف به حداقل رساندن منفی‌های کاذب بهینه‌سازی شود. «حساسیت» آن معیاری است که منفی کاذب را به حداقل می‌رساند؛ بنابراین مدل را باید به نحوی بهینه‌سازی کرد که مقدار حساسیت به کمترین حد ممکن برسد. استفاده از معیارهای عملکردی مناسب هنگام ساخت مدل‌های رده‌بندی دودویی منجر به ارتقای چشم‌گیر کیفیت مدل، با توجه به مسئله‌ی مدنظر، می‌شود.