چطور مدلهای یادگیری ماشین میتوانند نابرابریها را در تشخیص و درمان پزشکی افزایش دهند؟
«مرضیه قاسمی» پیش از دریافت مدرک دکترای علوم کامپیوتر از MIT در سال ۲۰۱۷، به این فکر افتاده بود که آیا استفاده از تکنیکهای هوش مصنوعی میتواند به تقویت تعصبات موجود در نظام بهداشت و درمان منجر شود یا نه؟ او یکی از اولین محققانی بود که به این مسئله پرداخت و از آن زمان به بعد همچنان در حال بررسی آن است.
تغییرات زیر جمعیتی
«مرضیه قسمی» که اکنون در دپارتمان علوم و مهندسی برق MIT استادیار است، در مقالهای جدید، به همراه سه همکار خود از آزمایشگاه علوم کامپیوتر و هوش مصنوعی، به بررسی دلایل مشکلاتی پرداختهاند که ممکن است در یادگیری ماشین به وجود بیاید. این مشکلات باعث میشود مدلهایی که به طور کلی خوب عمل میکنند، در مواجهه با زیرگروههایی که دادههای کمی از آنها جمعآوری و در فرآیند آموزش مدلها استفاده شده، دچار مشکل شوند.
این مقاله که توسط دو دانشجوی دکتری MIT به نامهای «یوزه یانگ» و «هائوران ژانگ» به همراه «دینا کاتابی»، دانشمند علوم کامپیوتر و «مرضیه قاسمی» نوشته شده است و چندی پیش در چهلمین کنفرانس بینالمللی یادگیری ماشین در هونولولو، هاوایی ارائه شده.
پژوهشگران در تحلیل خود، بر روی «تغییرات زیر جمعیتی» تمرکز کردند، یعنی تفاوت در عملکرد مدلهای یادگیری ماشین برای یک زیرگروه در مقایسه با زیرگروهی دیگر؛ یانگ، یکی از نویسندگان اصلی مقاله، میگوید: «ما میخواهیم مدلها عادلانه باشند و برای همه گروهها به یک اندازه خوب عمل کنند، اما به جای آن، به طور مداوم شاهد تغییراتی بین گروههای مختلف هستیم که میتواند منجر به تشخیص و درمان نامطلوب پزشکی شود.»
هدف اصلی پژوهشگران این است که بفهمند چه نوع تغییراتی در زیرگروهها ممکن است اتفاق بیفتد و چرا این تغییرات رخ میدهند. این کار به آنها کمک میکند تا در نهایت مدلهایی بسازند که برای همه گروهها عادلانهتر و بهتر عمل کنند.
دکتر «سانمی کویهجو»، دانشمند علوم کامپیوتر دانشگاه استنفورد، میگوید: «این مقاله به طور قابل توجهی درک ما را از پدیده تغییرات زیر جمعیتی افزایش میدهد. این تحقیق بینشهای ارزشمندی برای پیشرفتهای آینده در عملکرد مدلهای یادگیری ماشین بر روی گروههای کمتر بررسیشده ارائه میدهد.»
شترها و گاوها
گروه MIT چهار نوع اصلی از نابرابریها در مدلهای یادگیری ماشین را شناسایی کرده است: «همبستگیهای کاذب، عدم تعادل ویژگیها، عدم تعادل کلاسها و تعمیم ویژگیها». یانگ میگوید که این موارد تاکنون به صورت یک چارچوب منظم و یکپارچه بررسی نشدهاند و آنها معادلهای را ارائه کردهاند که نشان میدهد تعصبات از کجا ناشی میشوند.
تعصبات میتوانند از دو موضوع «کلاس» (به نوع اشیاء یا موجودات اشاره دارد مثل گاوها و شترها) و «ویژگیها» (به صفات یا ویژگیهای خاص موجودات اشاره میکند) سرچشمه بگیرند. برای مثال، فرض کنید یک مدل یادگیری ماشین باید تصاویر حیوانات را به دو دسته گاوها و شترها تقسیم کند.
ویژگیها به توصیف صفات اشیاء کمک میکنند و همیشه به خود کلاس مربوط نیستند. به عنوان مثال، ممکن است تمام تصاویری که استفاده شدهاند، گاوها را نشان دهند که روی چمن ایستادهاند و شترها را که روی شن هستند. اگر مدل فقط این دادهها را ببیند، ممکن است نتیجهگیری نادرستی انجام دهد و تصور کند که گاوها فقط روی چمن هستند و شترها فقط روی شن، در حالی که واقعیت ممکن است متفاوت باشد.
بهطورکلی اگر مدل به این نتیجهگیری نادرست برسد، یافتههای او غلط هستند و به آن «همبستگی کاذب» میگویند. یانگ توضیح میدهد که همبستگی کاذب یک نوع خاص از نابرابری است، جایی که هم تعصب در شناسایی کلاس (مثل اینکه گاوها فقط روی چمن هستند) و هم در ویژگیها (مثل اینکه شترها فقط روی شن هستند) وجود دارد.
در بیمارستانها میتوانند از کامپیوترها و مدلهای یادگیری ماشین استفاده کنند تا بفهمند آیا یک نفر بیماری ذاتالریه دارد یا خیر. این کار با بررسی عکسهای اشعه ایکس انجام میشود. در اینجا دو دسته وجود دارد:
- افرادی که ذاتالریه دارند.
- افرادی که سالم هستند و هیچ بیماری ندارند.
یک مثال ساده میتواند این باشد: افرادی که تحت اشعه ایکس قرار میگیرند، یا زن هستند یا مرد. اگر در این مجموعه داده خاص، برای هر یک زن مبتلا به ذاتالریه، ۱۰۰ مرد مبتلا به این بیماری وجود داشته باشد، این امر میتواند منجر به عدم تعادل ویژگیها شود و احتمالاً مدل بهتر میتواند ذاتالریه را در مردان تشخیص دهد تا در زنان.
به همین ترتیب، اگر تعداد افرادی که سالم هستند (یعنی دچار ذاتالریه نیستند) ۱۰۰۰ برابر بیشتر از افراد بیمار باشد، این باعث میشود که کامپیوتر بیشتر به سمت تشخیص افراد سالم برود. این مشکل به عدم تعادل در دادهها معروف است.
تعمیم ویژگیها
آخرین نکتهای که در این تحقیق به آن اشاره شده، تعمیم ویژگیها است. اگر نمونه شما شامل ۱۰۰ بیمار مرد مبتلا به ذاتالریه و هیچ بیمار زنی مبتلا به همین بیماری نباشد، هنوز هم میخواهید که مدل بتواند به طور کلی تعمیم داده و پیشبینیهایی درباره بیماران زن انجام دهد، حتی اگر هیچ نمونهای از زنان مبتلا به ذاتالریه در دادههای آموزشی وجود نداشته باشد.
تیم تحقیق ۲۰ الگوریتم پیشرفته را که برای طبقهبندی طراحی شده بودند، انتخاب کرد و آنها را بر روی ۱۲ مجموعه داده آزمایش کردند تا ببینند در گروههای مختلف مردم چگونه عمل میکنند. نتایج غیرمنتظرهای به دست آوردند: با بهتر کردن «طبقهبندیکننده» (یک مدل یا الگوریتم گفته میشود که وظیفهاش تقسیمبندی دادهها به گروهها یا کلاسهای مختلف است) توانستند همبستگیهای کاذب و عدم تعادل در تعداد بیمارها و سالمها را کاهش دهند، اما نتایج دیگر تغییر نکرد.
بهبود «رمزگذار» (که یکی از قسمتهای بالایی شبکه عصبی است) میتواند مشکل عدم تعادل در ویژگیها را حل کند. یانگ میگوید: «با این حال، هر کاری که در مورد رمزگذار یا طبقهبند انجام دادیم، نتوانستیم در زمینه تعمیم ویژگیها بهبودی ببینیم و هنوز نمیدانیم چگونه این مشکل را حل کنیم.»
دقت کامل
سؤالی که وجود دارد این است که چگونه میتوان فهمید که مدل شما برای گروههای مختلف مردم به طور عادلانه و یکسان عمل میکند. یکی از روشهایی که معمولاً برای ارزیابی این موضوع استفاده میشود، دقت بدترین گروه (WGA) نام دارد. این روش بر این اصل استوار است که اگر شما بتوانید دقت (مثلاً در تشخیص بیماری) را برای گروهی که بدترین عملکرد را دارد بهتر کنید، به این معنی که مدل شما بهبود یافته است.
نویسندگان این مقاله میگویند که WGA بهعنوان بهترین روش برای ارزیابی عملکرد مدل در گروههای مختلف در نظر گرفته میشود. البته آنها به یک نتیجه جالب رسیدند؛ وقتی دقت بدترین گروه را بالا میبریم، ممکن است دقت در بدترین حالت (worst-case precision) کاهش یابد.
ما در تصمیمگیریهای پزشکی نیاز داریم که هم صحت یافتهها (Accuracy) دو هم قابلیت اعتماد به روشها (Precision) داشته باشیم. یانگ میگوید که هر دوی این معیارها در کارهای طبقهبندی، بهخصوص در تشخیص بیماریها، بسیار مهم هستند. او تأکید میکند که نباید دقت را به خاطر صحت قربانی کنید و همیشه باید این دو را متعادل نگه دارید.
با وجود افزایش آگاهی در مورد این مشکل، هنوز هم این هدف دور از دسترس است، یانگ میگوید. «ما تفاوتهای زیادی را در سنین مختلف، جنسیت، قومیت و گروههای مختلف مشاهده میکنیم.»
ایجاد عدالت در خدمات بهداشتی برای همه افراد، یکی از اهداف مهم دانشمندان MIT به شمار میآید. البته آنها میگویند: «برای رسیدن به این هدف، نیاز است که ابتدا بفهمیم ناعدالتیها از کجا ناشی میشوند و چگونه در سیستم فعلی نفوذ میکنند». دانشمندان MIT در کنفرانس هونولولو مقالهای با نام «تغییر سخت است» ارائه دادند. این مقاله نشاندهنده چالشهای زیادی بود که آنها و سایر پژوهشگران با آن روبرو هستند. همچنین تمامی تحقیقات این زمینه با حمایت مالی آزمایشگاه MIT-IBM Watson انجام میشود.