تعصب هوش مصنوعی در تحلیل تصاویر پزشکی
مدلهای هوش مصنوعی قادرند نژاد، جنسیت و سن بیماران را پیشبینی کنند، به همین دلیل این ویژگیها به عنوان راهکارهایی سریع برای انجام تشخیصهای پزشکی به کار گرفته میشوند.
هوش مصنوعی وارد میشد
مدلهای هوش مصنوعی اغلب در تشخیصهای پزشکی نقش کلیدی دارند، به ویژه در تحلیل تصاویری مانند عکسهای رادیولوژی (X-ray). با این حال، تحقیقات نشان دادهاند که این مدلها همیشه در تمامی گروههای جمعیتی عملکرد یکسانی ندارند و معمولاً در تشخیصهای مربوط به زنان و افراد رنگینپوست دقت کمتری دارند.
این مدلها همچنین قابلیتهای شگفتانگیزی را به نمایش گذاشتهاند. در سال 2022، محققان MIT اعلام کردند که مدلهای هوش مصنوعی قادرند پیشبینیهای دقیقی درباره نژاد بیماران براساس تصاویر رادیولوژی قفسه سینه ارائه دهند، امری که حتی ماهرترین رادیولوژیستها نیز نمیتوانند به آن دست یابند.
نگاه متعصبانه
این تیم تحقیقاتی پس از مدت زمان کوتاهی به برخی ایرادات خاص پی برد. در واقع، مدلهایی که در پیشبینی ویژگیهای جمعیتی دقت بیشتری دارند، بزرگترین «شکافهای عدالت» را نیز نمایان میسازند. این به این معناست که در شناسایی صحیح تصاویر افراد با نژادها یا جنسیتهای مختلف، تفاوتهایی وجود دارد.
پژوهشگران اعلام کردهاند که نتایج تحقیق نشان میدهد این مدلها ممکن است در ارزیابیهای تشخیصی به «میانبرهای جمعیتی» متوسل شوند، به این معنا که از ویژگیهای ساده و سطحی مانند نژاد، جنسیت یا سن برای تشخیص استفاده میکنند. به طور کلی، این موضوع میتواند به نتایج نادرست برای زنان، افراد سیاهپوست و سایر گروهها منجر شود.
«مرضیه قاسمی»، استاد مهندسی برق و علوم کامپیوتر در MIT و نویسنده اصلی این تحقیق، بیان میکند: «این مقاله نه تنها این قابلیت را دوباره تأیید میکند، بلکه برای نخستین بار نشان میدهد که این قابلیت چگونه با کاهش عملکرد مدلها در گروههای مختلف مرتبط است.»
پژوهشگران همچنین متوجه شدهاند که میتوانند مدلها را دوباره آموزش دهند تا دقت و عدالت آنها بهبود یابد. با این حال، این روشها زمانی بهترین عملکرد را دارند که مدلها بر روی همان نوع بیماران آزمایش شوند که برای آنها آموزش دیدهاند. در واقع، زمانی که این مدلها برای بیماران از بیمارستانهای دیگر به کار گرفته میشوند، مشکلات مربوط به عدالت دوباره بروز میکند.
«هائوران ژانگ»، دانشجوی تحصیلات تکمیلی در MIT و یکی از نویسندگان اصلی این مقاله، بیان میکند: «به نظر من نکات کلیدی این است که اولاً باید هر مدل خارجی را با دقت بر روی دادههای خودتان ارزیابی کنید، زیرا تضمینهایی که سازندگان مدلها درباره عدالت آنها ارائه میدهند، ممکن است برای جمعیت شما صحیح نباشد. ثانیاً، هر زمان که دادههای کافی در دسترس باشد، باید مدلها را با استفاده از دادههای خودتان آموزش دهید.»
«یوزه یانگ»، دانشجوی تحصیلات تکمیلی در MIT، یکی از نویسندگان اصلی مقالهای است که در مجله Nature Medicine منتشر شده است. همچنین، «جودی گیچویا»، استاد همکار در رشته رادیولوژی و علوم تصویربرداری در دانشکده پزشکی دانشگاه اموری، و «دینا کاتابی»، استاد مهندسی برق و علوم کامپیوتر در MIT، نیز از دیگر نویسندگان این مقاله به شمار میروند.
از بین بردن تعصبات
تا ماه مه 2024، سازمان غذا و داروی آمریکا (FDA) تعداد 882 دستگاه پزشکی با فناوری هوش مصنوعی را تأیید کرده است که از این تعداد، 671 دستگاه به منظور استفاده در رادیولوژی طراحی شدهاند.
در سال 2022، مرضیه قاسمی و همکارانش به این نتیجه رسیدند که این مدلهای تشخیصی قادرند نژاد بیماران را با دقت پیشبینی کنند. علاوه بر این، آنها متوجه شدند که این مدلها در پیشبینی جنسیت و سن نیز عملکرد بسیار خوبی دارند، حتی اگر به طور خاص برای این اهداف آموزش ندیده باشند.
«بسیاری از مدلهای شناختهشده یادگیری ماشین قادرند ویژگیهای جمعیتی، از جمله نژاد افراد، را به طور دقیقتری نسبت به پزشکان پیشبینی کنند. به عنوان مثال، پزشکان نمیتوانند نژاد یک فرد را تنها با مشاهده عکس رادیولوژی قفسه سینه تشخیص دهند، در حالی که مدلهای هوش مصنوعی این توانایی را دارند.»
مرضیه قاسمی اظهار میدارد: «این مدلها در شناسایی بیماریها عملکرد بسیار خوبی دارند، اما در فرآیند یادگیری ممکن است اطلاعات دیگری مانند نژاد را نیز فرا بگیرند که این موضوع ممکن است مناسب نباشد.»
در این تحقیق، محققان به تحلیل این موضوع پرداختند که چرا این مدلها در مورد برخی گروهها عملکرد مناسبی ندارند. بهویژه، آنها قصد داشتند بررسی کنند که آیا این مدلها در پیشبینی بیماریها به ویژگیهای جمعیتی وابستهاند. در صورت وقوع این امر، ممکن است نتایج برای برخی گروهها نادرست باشد.
این میانبرها در مدلهای هوش مصنوعی زمانی شکل میگیرند که این مدلها به جای اتکا به ویژگیهای مختلف تصاویر، از ویژگیهای جمعیتی برای شناسایی بیماری بهره میبرند.
در یک مطالعه، محققان مجموعهای از دادههای عمومی مربوط به عکسهای رادیولوژی قفسه سینه را از مرکز پزشکی دیکونز در بوستون دریافت کردند و با استفاده از آن، چندین مدل طراحی کردند. این مدلها به منظور پیشبینی وجود یکی از سه وضعیت پزشکی شامل تجمع مایع در ریهها، فرورفتگی ریه و بزرگ شدن قلب توسعه یافتند. پس از مراحل آموزش، این مدلها بر روی عکسهای رادیولوژی دیگری که در فرآیند آموزش به کار نرفته بودند، آزمایش شدند.
عدم تعادل در دقت
به طور کلی، مدلها عملکرد قابلقبولی از خود نشان دادند، اما اکثر آنها حاکی از «عدم تعادل در دقت» بودند. به عبارت دیگر، نرخ دقت در تشخیص برای مردان و زنان و همچنین برای بیماران سفیدپوست و سیاهپوست متفاوت بود.
مدلها همچنین توانایی پیشبینی جنسیت، نژاد و سن موضوعات عکسبرداری را داشتند. علاوه بر این، رابطه معناداری بین دقت هر مدل در پیشبینی ویژگیهای جمعیتی و میزان عدم تعادل در دقت آن مشاهده شد. این امر نشان میدهد که مدلها ممکن است از طبقهبندیهای جمعیتی بهعنوان یک راهکار سریع برای انجام پیشبینیهای مرتبط با بیماری بهرهبرداری کنند.
پژوهشگران سپس تلاش کردند تا عدم تعادل در دقت را با به کارگیری دو نوع استراتژی کاهش دهند. برای یک مجموعه از مدلها، آنها را به گونهای آموزش دادند که بر روی «استحکام زیرگروه» تمرکز کنند. به عبارت دیگر، مدلها برای بهبود عملکرد در زیرگروهی که کمترین دقت را دارد، تشویق میشوند و در صورتی که نرخ خطای آنها برای یک گروه بیشتر از سایر گروهها باشد، مورد جریمه قرار میگیرند.
در یک مجموعه دیگر از مدلها، پژوهشگران از آنها خواستند که هر نوع اطلاعات جمعیتی را از تصاویر حذف کنند و از روشهای «مقابلهای گروهی» (group adversarial) بهره ببرند. نتایج نشان داد که هر دو استراتژی به طور نسبتاً مؤثری عمل کردند.
قاسمی بیان میکند: «چنانچه دادهها در یک دسته خاص قرار گیرند، میتوان از تکنیکهای پیشرفتهای بهره برد تا عدم تعادل در دقت را کاهش داد. این کار میتواند بدون تأثیر قابل توجهی بر عملکرد کلی مدلها انجام شود. روشهای استحکام زیرگروه باعث میشوند که مدلها نسبت به خطاهای پیشبینی در یک گروه خاص حساستر شوند. در مقابل، روشهای رقابتی برای گروهها سعی دارند اطلاعات مربوط به گروهها را به طور کامل حذف کنند.»
با این وجود، این روشها تنها زمانی کارایی داشتند که مدلها بر روی دادههای مربوط به همان نوع بیمارانی که برای آموزش استفاده شده بودند، مورد آزمایش قرار میگرفتند. به عنوان نمونه، این روشها فقط برای بیماران حاضر در مرکز پزشکی دیکونز در بوستون مؤثر بودند.
ژانگ بیان میکند: «اگر شما یک مدل را در یک گروه خاص از بیماران متعادلسازی کنید، این تضمین وجود ندارد که این تعادل در گروه جدیدی از بیماران (از بیمارستانی دیگر و در مکانی متفاوت) نیز حفظ شود.»
پژوهشگران اظهار میکنند: «این مسئله نگرانکننده است، زیرا در بسیاری از موارد، بیمارستانها از مدلهایی بهره میبرند که بر اساس دادههای بیمارستانهای دیگر طراحی شدهاند، بهویژه زمانی که یک مدل بهصورت آماده خریداری میشود.»
قاسمی بیان میکند: «ما متوجه شدیم که حتی مدلهای پیشرفتهای که در دادههای مشابه مجموعههای آموزشی خود بهترین نتایج را به دست میآورند، در شرایط جدید بهینه عمل نمیکنند؛ به این معنا که آنها نتوانستهاند تعادل مناسبی بین عملکرد کلی و عملکرد زیرگروهها برقرار کنند.» او همچنین اضافه میکند: «متأسفانه، این روشی است که معمولاً برای پیادهسازی مدلها به کار میرود. بیشتر مدلها با استفاده از دادههای یک بیمارستان یا منبع خاصی آموزش و اعتبارسنجی میشوند و سپس به طور گستردهای مورد استفاده قرار میگیرند.»
پژوهشگران دریافتند که مدلهایی که با استفاده از روشهای رقابتی برای گروههای غیر متعادل طراحی شدهاند، در آزمایش بر روی گروههای جدید بیماران عملکرد بهتری از خود نشان داده و تعادل بیشتری دارند. در مقابل، مدلهایی که با روشهای استحکام زیرگروه غیر متعادل شدهاند، چنین کارایی را نداشتند. اکنون پژوهشگران در نظر دارند روشهای جدیدی را توسعه دهند و آزمایش کنند تا ببینند آیا میتوانند مدلهایی بسازند که در پیشبینیهای عادلانه بر روی دادههای جدید عملکرد بهتری داشته باشند.
یافتهها نشان میدهد که بیمارستانها باید قبل از بهکارگیری این نوع مدلهای هوش مصنوعی، آنها را بر روی جمعیت بیماران خود مورد ارزیابی قرار دهند تا از ارائه نتایج نادرست برای برخی گروهها اطمینان حاصل کنند.
این پژوهش با تأمین مالی از چندین منبع مختلف صورتگرفته است. این منابع شامل جایزه محقق گوگل، برنامه توسعه اعضای هیئتعلمی پزشکی «هارولد آموه از «بنیاد رابرت وود جانسون»، برنامه نابرابریهای سلامت RSNA، بنیاد لاکونا، بنیاد گوردون و بتی مور، مؤسسه ملی تصویربرداری زیستپزشکی و مهندسی بیوالکتریک و همچنین مؤسسه ملی قلب، ریه و خون میباشند.