مدلهای دادهای: مقدمهای بر معیارهای ارزیابی عملکرد مدل رده بندی
وقتی صحبت از مدلسازی دادهها میشود، اکثر افراد به مدلهای رگرسیون فکر میکنند که میتوانند بر اساس دادههای جمعآوری شده، متغیر هدف را پیشبینی کنند. با این حال، ارزیابی عملکرد مدل رده بندی نشان داده که آنها نیز (با اینکه روش متفاوتی را در پیش میگیرند) در پیشبینی خوب بودهاند. متغیرهایی که توسط مدلهای رگرسیون پیشبینی میشوند، توزیع پیوسته دارند، بدین معنی که تعداد خروجیهایشان بیشمار است.
از مسائل رگرسیون میتوان به این موارد اشاره کرد: پیشبینی قیمت فروش یک خانه، پیشبینی دمای هوا در یک روز خاص یا پیشبینی امتیازاتی که بازیکنی خاص در یک مسابقهی بسکتبال به دست خواهد آورد. از سوی دیگر، متغیر هدفی که مدلهای ردهبندی پیشبینی میکنند یک توزیع گسسته دارد و تعداد خروجیهای آن بینهایت نیست.
برای مثال، پیشبینی نامزدی که در انتخابات برنده خواهد شد، یا پیشبینی روزی در هفته که بیشترین میزان فروش را به خود اختصاص خواهد داد. در ادامه این نوشتار، بر مدلهای ردهبندی دودویی تمرکز میکنیم؛ این مدلها محتملترین گزینه از دو خروجی ممکن را پیشبینی میکنند.
معیارهای ارزیابی پیشبینی ردهبندی
عملکرد مدلهای رگرسیون داده، از طریق مقایسه مقادیر مشاهدهشده با مقادیر واقعی با استفاده از معیاری همچون خطای میانگین مجذورات Mean squared error یا ضریب تعیین Coefficient of determination، ارزیابی میشود.
[irp posts=”12401″]ارزیابی عملکرد مدل رده بندی میتواند بر اساس معیارهای خاصی صورت گیرد.انتخاب این معیارها به نوع مسئله بستگی دارد. علاوه بر این، همانطور که پیشتر نیز گفته شد، معیارهایی که برای ارزیابی مدلهای ردهبندی به کار میروند باید مخصوص متغیرهای گسسته باشند.
- منفی حقیقی (TN): پیشبینی خروجی منفی، هنگامی که پاسخ واقعاً منفی است.
- منفی کاذب (FN): پیشبینی خروجی منفی، هنگامی که پاسخ در واقع منفی نیست.
- مثبت حقیقی (TP): پیشبینی خروجی مثبت هنگامی که پاسخ واقعاً مثبت است.
- مثبت کاذب (FP): پیشبینی خروجی مثبت هنگامی که پاسخ در واقع مثبت نیست.
این مقادیر را میتوان در قالب یک ماتریس درهمریختگی Confusion matrix نمایش داد؛ در این ماتریس، تعداد دادههای موجود در هر دسته (منفی حقیقی، منفی کاذب، مثبت حقیقی، مثبت کاذب) نشان داده میشود.
معیارهای ارزیابی عملکرد مدل رده بندی
یک نمونه مشهور از مسئله ردهبندی دودویی، پیشبینی باردار بودن یا نبودن یک فرد است. در این مثال مثبت حقیقی، باردار بودن و منفی حقیقی باردار نبودن است (تعیین اینکه کدام پاسخ مثبت یا منفی است به عهده فردی است که قصد دارد پیشبینیهای مدل را ارزیابی کند). اگر کسی واقعاً باردار باشد و مدل خلاف این را پیشبینی کند، پیشبینی در دسته منفی کاذب قرار میگیرد.
[irp posts=”17303″]اگر کسی واقعاً باردار نباشد اما مدل پیشبینی کند که او باردار است، خروجی مدل مثبت کاذب است. بنابراین، مثبت حقیقی و منفی حقیقی شرایطی هستند که باردار بودن یا نبودن فرد به درستی پیشبینی شده است. برای ارزیابی عملکرد مدل رده بندی (با استفاده از یک عدد)، معیارهای زیادی وجود دارند:
صحت: چند خروجی به درستی پیشبینی شدهاند؟
نرخ ردهبندی نادرست: چند خروجی به اشتباه پیشبینی شدهاند؟
حساسیت/بازخوانی: چند خروجی از مواردی که مدل مثبت پیشبینی کرده واقعاً مثبت بودهاند؟
توجه داشته باشید که در این بافت، حساسیت و بازخوانی هممعنی هستند.
اختصاصی بودن: چند خروجی از مواردی که مدل منفی پیشبینی کرده واقعاً منفی بودهاند؟
دقت: مدل چند خروجی مثبت را به درستی پیشبینی کرده است؟
جمعبندی
انتخاب معیاری برای ارزیابی عملکرد که به بهینهسازی مدل کمک کند، به بافت آن مسئله ردهبندی بستگی دارد. به مثال بالا برمیگردیم (پیشبینی باردار بودن یا نبودن فرد)؛ در چنین شرایطی، اگر مدل وضعیت کسی که واقعاً باردار است، را به اشتباه ردهبندی کند (منفی کاذب)، خطای فاحشتری را مرتکب شده است (نسبت به زمانی که اشتباهاً پیشبینی کند فرد غیرباردار، باردار است)؛ چون بافت مسئله به گونهای است که اگر یک خانم باردار فکر کند باردار نیست، ممکن است فعالیتهایی انجام دهد که به جنین آسیب برساند.
[irp posts=”12521″]بنابراین مدلی که قرار است برای این مسئله ردهبندی خاص ساخته شود، باید با هدف به حداقل رساندن منفیهای کاذب بهینهسازی شود. «حساسیت» آن معیاری است که منفی کاذب را به حداقل میرساند؛ بنابراین مدل را باید به نحوی بهینهسازی کرد که مقدار حساسیت به کمترین حد ممکن برسد. استفاده از معیارهای عملکردی مناسب هنگام ساخت مدلهای ردهبندی دودویی منجر به ارتقای چشمگیر کیفیت مدل، با توجه به مسئلهی مدنظر، میشود.