Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 تعصب هوش مصنوعی در تحلیل تصاویر پزشکی

تعصب هوش مصنوعی در تحلیل تصاویر پزشکی

زمان مطالعه: 4 دقیقه

مدل‌های هوش مصنوعی قادرند نژاد، جنسیت و سن بیماران را پیش‌بینی کنند، به همین دلیل این ویژگی‌ها به عنوان راهکارهایی سریع برای انجام تشخیص‌های پزشکی به کار گرفته می‌شوند.

هوش مصنوعی وارد می‌شد

مدل‌های هوش مصنوعی اغلب در تشخیص‌های پزشکی نقش کلیدی دارند، به ویژه در تحلیل تصاویری مانند عکس‌های رادیولوژی (X-ray). با این حال، تحقیقات نشان داده‌اند که این مدل‌ها همیشه در تمامی گروه‌های جمعیتی عملکرد یکسانی ندارند و معمولاً در تشخیص‌های مربوط به زنان و افراد رنگین‌پوست دقت کمتری دارند.

این مدل‌ها همچنین قابلیت‌های شگفت‌انگیزی را به نمایش گذاشته‌اند. در سال 2022، محققان MIT اعلام کردند که مدل‌های هوش مصنوعی قادرند پیش‌بینی‌های دقیقی درباره نژاد بیماران براساس تصاویر رادیولوژی قفسه سینه ارائه دهند، امری که حتی ماهرترین رادیولوژیست‌ها نیز نمی‌توانند به آن دست یابند.

نگاه متعصبانه

این تیم تحقیقاتی پس از مدت زمان کوتاهی به برخی ایرادات خاص پی برد. در واقع، مدل‌هایی که در پیش‌بینی ویژگی‌های جمعیتی دقت بیشتری دارند، بزرگ‌ترین «شکاف‌های عدالت» را نیز نمایان می‌سازند. این به این معناست که در شناسایی صحیح تصاویر افراد با نژادها یا جنسیت‌های مختلف، تفاوت‌هایی وجود دارد.

پژوهشگران اعلام کرده‌اند که نتایج تحقیق نشان می‌دهد این مدل‌ها ممکن است در ارزیابی‌های تشخیصی به «میان‌برهای جمعیتی» متوسل شوند، به این معنا که از ویژگی‌های ساده و سطحی مانند نژاد، جنسیت یا سن برای تشخیص استفاده می‌کنند. به طور کلی، این موضوع می‌تواند به نتایج نادرست برای زنان، افراد سیاه‌پوست و سایر گروه‌ها منجر شود.

«مرضیه قاسمی»، استاد مهندسی برق و علوم کامپیوتر در MIT و نویسنده اصلی این تحقیق، بیان می‌کند: «این مقاله نه تنها این قابلیت را دوباره تأیید می‌کند، بلکه برای نخستین بار نشان می‌دهد که این قابلیت چگونه با کاهش عملکرد مدل‌ها در گروه‌های مختلف مرتبط است.»

پژوهشگران همچنین متوجه شده‌اند که می‌توانند مدل‌ها را دوباره آموزش دهند تا دقت و عدالت آن‌ها بهبود یابد. با این حال، این روش‌ها زمانی بهترین عملکرد را دارند که مدل‌ها بر روی همان نوع بیماران آزمایش شوند که برای آن‌ها آموزش دیده‌اند. در واقع، زمانی که این مدل‌ها برای بیماران از بیمارستان‌های دیگر به کار گرفته می‌شوند، مشکلات مربوط به عدالت دوباره بروز می‌کند.

«هائوران ژانگ»، دانشجوی تحصیلات تکمیلی در MIT و یکی از نویسندگان اصلی این مقاله، بیان می‌کند: «به نظر من نکات کلیدی این است که اولاً باید هر مدل خارجی را با دقت بر روی داده‌های خودتان ارزیابی کنید، زیرا تضمین‌هایی که سازندگان مدل‌ها درباره عدالت آن‌ها ارائه می‌دهند، ممکن است برای جمعیت شما صحیح نباشد. ثانیاً، هر زمان که داده‌های کافی در دسترس باشد، باید مدل‌ها را با استفاده از داده‌های خودتان آموزش دهید.»

«یوزه یانگ»، دانشجوی تحصیلات تکمیلی در MIT، یکی از نویسندگان اصلی مقاله‌ای است که در مجله Nature Medicine منتشر شده است. همچنین، «جودی گیچویا»، استاد همکار در رشته رادیولوژی و علوم تصویربرداری در دانشکده پزشکی دانشگاه اموری، و «دینا کاتابی»، استاد مهندسی برق و علوم کامپیوتر در MIT، نیز از دیگر نویسندگان این مقاله به شمار می‌روند.

از بین بردن تعصبات

تا ماه مه 2024، سازمان غذا و داروی آمریکا (FDA) تعداد 882 دستگاه پزشکی با فناوری هوش مصنوعی را تأیید کرده است که از این تعداد، 671 دستگاه به منظور استفاده در رادیولوژی طراحی شده‌اند.

در سال 2022، مرضیه قاسمی و همکارانش به این نتیجه رسیدند که این مدل‌های تشخیصی قادرند نژاد بیماران را با دقت پیش‌بینی کنند. علاوه بر این، آن‌ها متوجه شدند که این مدل‌ها در پیش‌بینی جنسیت و سن نیز عملکرد بسیار خوبی دارند، حتی اگر به طور خاص برای این اهداف آموزش ندیده باشند.

«بسیاری از مدل‌های شناخته‌شده یادگیری ماشین قادرند ویژگی‌های جمعیتی، از جمله نژاد افراد، را به طور دقیق‌تری نسبت به پزشکان پیش‌بینی کنند. به عنوان مثال، پزشکان نمی‌توانند نژاد یک فرد را تنها با مشاهده عکس رادیولوژی قفسه سینه تشخیص دهند، در حالی که مدل‌های هوش مصنوعی این توانایی را دارند.»

مرضیه قاسمی اظهار می‌دارد: «این مدل‌ها در شناسایی بیماری‌ها عملکرد بسیار خوبی دارند، اما در فرآیند یادگیری ممکن است اطلاعات دیگری مانند نژاد را نیز فرا بگیرند که این موضوع ممکن است مناسب نباشد.»

در این تحقیق، محققان به تحلیل این موضوع پرداختند که چرا این مدل‌ها در مورد برخی گروه‌ها عملکرد مناسبی ندارند. به‌ویژه، آن‌ها قصد داشتند بررسی کنند که آیا این مدل‌ها در پیش‌بینی بیماری‌ها به ویژگی‌های جمعیتی وابسته‌اند. در صورت وقوع این امر، ممکن است نتایج برای برخی گروه‌ها نادرست باشد.

این میان‌برها در مدل‌های هوش مصنوعی زمانی شکل می‌گیرند که این مدل‌ها به جای اتکا به ویژگی‌های مختلف تصاویر، از ویژگی‌های جمعیتی برای شناسایی بیماری بهره می‌برند.

در یک مطالعه، محققان مجموعه‌ای از داده‌های عمومی مربوط به عکس‌های رادیولوژی قفسه سینه را از مرکز پزشکی دیکونز در بوستون دریافت کردند و با استفاده از آن، چندین مدل طراحی کردند. این مدل‌ها به منظور پیش‌بینی وجود یکی از سه وضعیت پزشکی شامل تجمع مایع در ریه‌ها، فرورفتگی ریه و بزرگ شدن قلب توسعه یافتند. پس از مراحل آموزش، این مدل‌ها بر روی عکس‌های رادیولوژی دیگری که در فرآیند آموزش به کار نرفته بودند، آزمایش شدند.

عدم تعادل در دقت

به طور کلی، مدل‌ها عملکرد قابل‌قبولی از خود نشان دادند، اما اکثر آن‌ها حاکی از «عدم تعادل در دقت» بودند. به عبارت دیگر، نرخ دقت در تشخیص برای مردان و زنان و همچنین برای بیماران سفیدپوست و سیاه‌پوست متفاوت بود.

مدل‌ها همچنین توانایی پیش‌بینی جنسیت، نژاد و سن موضوعات عکس‌برداری را داشتند. علاوه بر این، رابطه معناداری بین دقت هر مدل در پیش‌بینی ویژگی‌های جمعیتی و میزان عدم تعادل در دقت آن مشاهده شد. این امر نشان می‌دهد که مدل‌ها ممکن است از طبقه‌بندی‌های جمعیتی به‌عنوان یک راهکار سریع برای انجام پیش‌بینی‌های مرتبط با بیماری بهره‌برداری کنند.

پژوهشگران سپس تلاش کردند تا عدم تعادل در دقت را با به کارگیری دو نوع استراتژی کاهش دهند. برای یک مجموعه از مدل‌ها، آن‌ها را به گونه‌ای آموزش دادند که بر روی «استحکام زیرگروه» تمرکز کنند. به عبارت دیگر، مدل‌ها برای بهبود عملکرد در زیرگروهی که کمترین دقت را دارد، تشویق می‌شوند و در صورتی که نرخ خطای آن‌ها برای یک گروه بیشتر از سایر گروه‌ها باشد، مورد جریمه قرار می‌گیرند.

در یک مجموعه دیگر از مدل‌ها، پژوهشگران از آن‌ها خواستند که هر نوع اطلاعات جمعیتی را از تصاویر حذف کنند و از روش‌های «مقابله‌ای گروهی» (group adversarial) بهره ببرند. نتایج نشان داد که هر دو استراتژی به طور نسبتاً مؤثری عمل کردند.

قاسمی بیان می‌کند: «چنانچه داده‌ها در یک دسته خاص قرار گیرند، می‌توان از تکنیک‌های پیشرفته‌ای بهره برد تا عدم تعادل در دقت را کاهش داد. این کار می‌تواند بدون تأثیر قابل توجهی بر عملکرد کلی مدل‌ها انجام شود. روش‌های استحکام زیرگروه باعث می‌شوند که مدل‌ها نسبت به خطاهای پیش‌بینی در یک گروه خاص حساس‌تر شوند. در مقابل، روش‌های رقابتی برای گروه‌ها سعی دارند اطلاعات مربوط به گروه‌ها را به طور کامل حذف کنند.»

با این وجود، این روش‌ها تنها زمانی کارایی داشتند که مدل‌ها بر روی داده‌های مربوط به همان نوع بیمارانی که برای آموزش استفاده شده بودند، مورد آزمایش قرار می‌گرفتند. به عنوان نمونه، این روش‌ها فقط برای بیماران حاضر در مرکز پزشکی دیکونز در بوستون مؤثر بودند.

ژانگ بیان می‌کند: «اگر شما یک مدل را در یک گروه خاص از بیماران متعادل‌سازی کنید، این تضمین وجود ندارد که این تعادل در گروه جدیدی از بیماران (از بیمارستانی دیگر و در مکانی متفاوت) نیز حفظ شود.»

پژوهشگران اظهار می‌کنند: «این مسئله نگران‌کننده است، زیرا در بسیاری از موارد، بیمارستان‌ها از مدل‌هایی بهره می‌برند که بر اساس داده‌های بیمارستان‌های دیگر طراحی شده‌اند، به‌ویژه زمانی که یک مدل به‌صورت آماده خریداری می‌شود.»

قاسمی بیان می‌کند: «ما متوجه شدیم که حتی مدل‌های پیشرفته‌ای که در داده‌های مشابه مجموعه‌های آموزشی خود بهترین نتایج را به دست می‌آورند، در شرایط جدید بهینه عمل نمی‌کنند؛ به این معنا که آن‌ها نتوانسته‌اند تعادل مناسبی بین عملکرد کلی و عملکرد زیرگروه‌ها برقرار کنند.» او همچنین اضافه می‌کند: «متأسفانه، این روشی است که معمولاً برای پیاده‌سازی مدل‌ها به کار می‌رود. بیشتر مدل‌ها با استفاده از داده‌های یک بیمارستان یا منبع خاصی آموزش و اعتبارسنجی می‌شوند و سپس به طور گسترده‌ای مورد استفاده قرار می‌گیرند.»

پژوهشگران دریافتند که مدل‌هایی که با استفاده از روش‌های رقابتی برای گروه‌های غیر متعادل طراحی شده‌اند، در آزمایش بر روی گروه‌های جدید بیماران عملکرد بهتری از خود نشان داده و تعادل بیشتری دارند. در مقابل، مدل‌هایی که با روش‌های استحکام زیرگروه غیر متعادل شده‌اند، چنین کارایی را نداشتند. اکنون پژوهشگران در نظر دارند روش‌های جدیدی را توسعه دهند و آزمایش کنند تا ببینند آیا می‌توانند مدل‌هایی بسازند که در پیش‌بینی‌های عادلانه بر روی داده‌های جدید عملکرد بهتری داشته باشند.

یافته‌ها نشان می‌دهد که بیمارستان‌ها باید قبل از به‌کارگیری این نوع مدل‌های هوش مصنوعی، آن‌ها را بر روی جمعیت بیماران خود مورد ارزیابی قرار دهند تا از ارائه نتایج نادرست برای برخی گروه‌ها اطمینان حاصل کنند.

این پژوهش با تأمین مالی از چندین منبع مختلف صورت‌گرفته است. این منابع شامل جایزه محقق گوگل، برنامه توسعه اعضای هیئت‌علمی پزشکی «هارولد آموه از «بنیاد رابرت وود جانسون»، برنامه نابرابری‌های سلامت RSNA، بنیاد لاکونا، بنیاد گوردون و بتی مور، مؤسسه ملی تصویربرداری زیست‌پزشکی و مهندسی بیوالکتریک و همچنین مؤسسه ملی قلب، ریه و خون می‌باشند.

منبع

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]