از سیاه سفید تا تصاویر رنگی: کاهش سوگیری نژادی در بینایی کامپیوتر
بینایی کامپیوتر از جمله حوزههایی است که همواره شاهد پیشرفت آن هستیم، اما یک مشکل بزرگ دارد: بینایی کامپیوتر نژادپرست است و نیاز به کاهش سوگیری نژادی در آن محسوس است.
قدرت بینایی به مثابه یک معجزه است؛ رابطه بین انعکاس، شکست نور، و رمزگشایی پیام نورونها در مغز شگفتانگیز است. زمانی که به شیای نگاه میکنید، در واقع به انعکاس نوری که به صورت موج وارد قرنیه میشود، خیره شدهاید. به محض ورود نور به قرنیه، نور به طرف عدسی کریستالی نازک و خمیدهی چشم میرود و آنجا بیشتر شکست پیدا میکند.
عدسی یک تنظیمکننده است و نور را مستقیماً روی شبکیه میاندازد و پرتو کوچکتر و متمرکزتری تشکیل میدهد. شبکیه متشکل از سلولهای دریافتکننده نور یا همان سلولهای استوانهای و مخروطی است. این سلولها را مترجمهای ریزی در نظر بگیرید که نور را به پالسهای الکتریکی تبدیل کرده و به مغز میفرستند.
عصب بینایی پالسها را به سمت قشر بینایی مغز شلیک میکند؛ تصویر در قشر بینایی خلاف عقربههای ساعت چرخانده میشود. سپس این قشر مغز سیگنالها را تفسیر کرده و به انسان کمک میکند در مورد آنها تصمیمات معناداری بگیرد، مانند: «نگاه کن، این یک سگ است».
توانایی دیدن در رایانهها
انسان از دیرباز توانایی دیدن را داشته است، اما امروزه رایانهها نیز به قابلیت دیدن مجهز شدهاند. در حقیقت، عصر جدیدی تحت عنوان عصر بینایی برای رایانهها رقم خورده است.
بینایی کامپیوتر بخشی از بینایی ماشین و نوعی هوش مصنوعی است که به رایانهها یاد میدهد عکسها را دریافت و تفسیر کنند. داستان بینایی کامپیوتر با کمک دو دانشمند، یک گربه و یک نورون شلیک شده در اواخر دهه 1950 آغاز شد.
دیوید هوبل و تورشتن ویسل به بررسی رفتارهای بینایی گربه و نحوه واکنش نورونهای سطح بالاتر مغز به تصاویر پرداختند. منظور از رفتار بینایی گربه، قابلیت آنها برای دیدن نقاط کوچک نور یا یک نقطه سیاه روی یک اسلاید شیشهای شفاف است که بر روی پرده نمایش داده میشد. پس از انجام آزمایشات دشوار، این دو محقق به طور تصادفی به کشف بزرگی دست یافتند.
زمانی که گربهها به پرده نگاه میکردند، یکی از محققان به طور تصادفی اسلاید شیشهای را کمی بیشتر از حد معمول تکان داد، به طوری که لبههای نازک آن را در معرض دید قرار گرفت. این حرکتِ خطیِ لکه که با زاویهای خاص روی پرده دیده میشد، منجر به شلیک نوورنی در مغز گربهها شد. این اشتباه، نگرش دانشمندان به پردازش بصری را تغییر داد.
محققان دریافتند که برخی از نورونهای قشر بینایی مسئول پاسخ به محرکهای خاص مانند خطوط و زاویهها هستند. نتایج این پژوهش و مطالعات بعدی نشان دادند که چگونه سیستم بینایی از محرکهای ساده تا بازنماییهای پیچیده تصویر میسازد. این تصادف، مبنایی برای تمام مدلهای یادگیری عمیق، به ویژه مدلهای مورد استفاده در بینایی کامپیوتر، قرار گرفت.
سوگیری در بینایی کامپیوتر
در دهه 1980، بینایی کامپیوتر پیشرفت چشمگیری داشت. در سال 1982، دیوید مار ساختار الگوریتمی جدیدی ایجاد کرد که میتوانست گوشهها، لبهها و سایر ویژگیهای بصری متمایز را شناسایی کند. نظریه نئوشناختِ (Neocognitron) کونیهیکو فوکوشیما مدلی برای ایجاد شبکههای خودسازمانده، از جمله شبکههای ساده و پیچیده، ارائه کرد که میتوانست الگوها را تشخیص دهد. این شبکهها که شبکههای عصبی پیچشی نام داشتند، به خوبی میتوانستند تصاویر را شناسایی کنند. با این حال، به سختی میشد آنها را برای تصاویر با وضوح بالا اعمال کرد و آموزش شبکهی آنها بسیار زمانبر بود.
در واقع، مسابقات هوش مصنوعی سالِ 2012 موجبات پیشرفت بینایی کامپیوتر را فراهم آورد.
در آن دوران، نرخ خطای 5 برای بازشناسی تصاویر حدود 26 درصد بود و هیچ تغییری نمیکرد. سپس AlexNet پا به عرصه نهاد. تیم دانشگاه تورنتو یک شبکه عصبی کانولوشن (convolutional neural network) ایجاد کرد: یک مدل یادگیری عمیق که با تعیین وزن و سوگیری عناصر هر تصویر، تصاویر را شناسایی میکرد. به این ترتیب، ترخ خطای 5 بهبود یافت و به 15/3% رسید.
کامپیوترها به جایی رسیده بودند که مانند انسان، قوه بینایی داشتند. اما ایراد بینایی کامپیوتر چیزیهای که میدید نبود، بلکه چیزهایی بود که نمیتوانست ببیند.
بینایی کامپیوتر به یادگیری عمیق وابسته است و یادگیری عمیق زیر شاخهای از یادگیری ماشین است. به منظور تنظیم دقیق «قوه دید» رایانه، باید دادههای بسیار زیادی به مدل تغذیه شود. اما ایراد این دادهها این است که اغلب دچار سوگیری هستند.
سوگیری داده ها ایراد بزرگی است، ایرادی که در شدیدترین نمونهها حتی میتواند منجر به مرگ انسان شود. برای مثال، تخمین زده میشود که تا سال 2040، حدود 33 میلیون خودروی خودران در جادهها تردد خواهند کرد؛ مشکل کجاست؟ سیستمهای بینایی کامپیوتری این وسایلنقلیه نمیتوانند عابران پیاده با رنگ پوست تیره تر را تشخیص دهند.
تبعیض جنسیتی
در سال 2018، جوی بولاموینی مقاله «سایه تبعیض جنسیتی: همپوشانی تعارض در طبقهبندی تجاری جنسیتی» را منتشر کرد. پروژه سایههای جنسیتی بولاموینی نگرش ما به رنگینپوستان و بینایی کامپیوتر را تغییر داد. این پژوهش دقت سه الگوریتم اصلی طبقهبندی جنسیتی را، که برخی از رایجترین و پرکاربردترینها بودند (از جمله مایکروسافت و IBM)، در چهار گروه طبقهبندی کرد: مردان سفیدپوست، زنان سفیدپوست، مردان رنگینپوست و زنان رنگینپوست. بولاموینی دریافت که به طور کلی، دقت تمام برنامهها در شناسایی افراد سفیدپوست بالاتر است و خطای شناسایی افراد سفیدپوست با افراد رنگینپوست بین 11/8 تا 19/2 درصد متغیر است. این مسئله موجبات نگرانی را فراهم آورد: نرمافزار نمیتوانست افراد رنگینپوست را با همان دقتی شناسایی کند که افراد سفیدپوست را شناسایی میکرد.
سپس بولاموینی دقت شناسایی افراد را بر اساس جنسیت و رنگپوست بررسی کرد. الگوریتمهای مایکروسافت و IBM بیشترین دقت را در شناسایی مردان سفیدپوست بدست آوردند. مایکروسافت حتی در شناسایی این گروه دقت 100 درصدی داشت و پایینترین نمره عملکرد آن با 99/2% مربوط میشد به Face++.
با این حال، روند نگرانکنندهتری در برنامهها مشاهده میشد.
در بین زنان رنگینپوست، میزان دقت مدل 34 درصد کمتر از دقت آن برای شناسایی مردان سفیدپوست بود. در حقیقت، 93/6% چهرههایی که مایکروسافت برچسب جنسیت اشتباه برای آنها گذاشته بود، افراد رنگینپوست بودند.
سپس بولاموینی با استفاده از مقیاس رنگ پوست فیتزپاتریک Fitzpatrick Skin Type system، نتایج را در طیف مشخصتری بررسی کرد و متوجه شد که با تیره شدن رنگپوستِ زنان، دقت مدل در شناسایی آنها تقریباً به 50% میرسد.
علاوه بر این، هوش مصنوعی تشخیص تصاویر میتواند به راحتی قربانی کلیشههای طبقهبندی تصویر شود. در سال 2021، دانشگاه کارنگی ملون و دانشگاه جورج واشنگتن در پژوهش خود از رویکرد جدیدی برای تشخیص ارتباطات سوگیرانه در مفاهیمی مانند نژاد، جنسیت و شغل در دیتاستهای تصویری استفاده کردند.
بررسی دو مدل بینایی کامپیوتر iGPT و SimCLR
آنها نتایج را در دو مدل بینایی کامپیوتر iGPT و SimCLR بررسی کردند. در آزمون شغلی جنسیت، آزمونی که رابطه جنسیت و ویژگیهای شغلی را اندازهگیری میکند، مردان در کنار مفاهیمی مانند «دفتر» یا «کسبوکار» قرار گرفتند، در حالی که زنان با «کودکان» و «خانه» همراه شدند. این یافتهها سوگیری بسیار زیادی را نشان میداد.
محققان دریافتند که هر دو مدل دچار سوگیری نژادی هستند که به لحاظ آماری معنادار است. در آزمایش طبقهبندی نژادهای بر اساس ارتباط با اشیا، هر دو مدل iGPT و SimCLRv2 افراد سفیدپوست را با «ابزار» و سیاهپوستان را با «سلاح» مرتبط میدانستند. هر دو مدل «عربهای مسلمان» را در مقایسه با «آمریکایی-اروپاییها»، افرادی «ناخوشایند» دستهبندی کردند؛ در این میان، iGPT نشان میداد که هرچه رنگ پوست روشنتر باشد، فرد «دلپذیرتر» است.
این تصور که هرچه رنگپوست روشنتر باشد، فرد «دلپذیرتر» است، با واکنشهای زیادی در شبکههای اجتماعی مواجه شد و این امر خود منعکسکننده عمق مسئله رنگین پوستی در جامعه است. در سال 2017، نرمافزار محبوب ویرایش عکس، FaceApp، به دلیل فیلتر «جذابیت» خود، فیلتری که ادعا میکرد کاربران را با روشن کردن رنگ پوست آنها «جذابتر» نشان میدهد، مورد انتقاد قرار گرفت. به عبارت دیگر، برای اینکه افراد ظاهر بهتری داشته باشند، سیستم هوش مصنوعی رنگپوست آنها را روشنتر میکرد.
رنگگرایی سابقه طولانی در آسیب رساندن به گروههای رنگینپوست دارد و امروزه کماکان نقشی فعال و مخرب در جامعه ایفا میکند. رنگگرایی عبارت است از نوعی تبعیض که در آن با افراد سفیدپوست نسبت به رنگین پوستان، بهتر رفتار میشود.
بیشتر این تبعیضها ناشی از ایدههای برتری نژاد سفید و اروپامحوری است. تحقیقات نشان میدهد در دروانی که بردهداری در ایالات متحده رواج داشت، با بردههایی با ویژگیهای «اروپایی» که رنگ پوست روشنتری داشتند با خشونت کمتری رفتار میشد و آنها رفتار «مطلوبتری» دریافت میکردند.
آزمایش پاکت کاغذی
یکی از بدنامترینِ این رفتارهای تبغیضآمیز در ایالات متحده، آزمایش پاکت کاغذی بود. اگر پوست یک سیاهپوست از رنگ پاکت کاغذی تیرهتر میبود، آن سیاهپوست اجازه ورود به برخی مکانها را نداشت و یا فرصت شغلی برای او فراهم نمیشد.
اگر رنگ پوست کسی روشنتر بود، این فرصتها معجزهوار در اختیار او قرار میگرفت. با گذشت زمان، این تصورات رنگگرایی به همه جنبههای زندگی آمریکایی نفوذ کرده و به آینده شغلی، سلامت روان، دادگاه و موارد دیگر آسیب رسانده است.
حال، این کلیشهها (برچسبهای نژادی) و رفتارهای ناشایست در هوش مصنوعی تدوام پیدا کرده و ادامه دارد.
چگونه میتوانیم این سوگیریها را برطرف کنیم؟ چگونه میتوانیم بینایی کامپیوتر را فراگیرتر و با سوگیری کمتری همراه کنیم؟ پاسخ در اصلاح دیتاستها نهفته است.
دقت یادگیری ماشین و مسئله سوگیری
دقت یادگیری ماشینِ مبتنی بر هوش مصنوعی کاملاً به دادههایی که از آن تغذیه میشود بستگی دارد. اگر برنامهای را با میلیونها تصویر لاکپشت تغذیه کنید، آن برنامه در شناسایی تصاویر لاکپشتها بسیار خوب عمل خواهد کرد. اما اگر تنها یک تصویر از مار به مدل نشان دهید، نمیتواند این تصویر را شناسایی کند.
مسئله نژاد نیز به همین صورت است. بسیاری از دیتاستهای تصویری، از جمله ImageNet، که یکی از پرکاربردترین دیتاستهای تصویری است، تصاویر بیشتری از افراد سفیدپوست دارند. در مقاله سایه تبعیض جنسیتی، بولاموینی به این مسئله اشاره میکند که در دنیایی که میلیاردها رنگینپوست زندگی میکنند، در برخی از دیتاست بیش از 85% تصاویر مربوط به افراد سفیدپوست است.
به بیان ساده، دیتاستهای مورد استفاده، تنوع ندارند و به همین دلیل هوش مصنوعی کارایی کافی در شناسایی افراد رنگین پوست را ندارد. حتی مقیاس رنگ پوستی که در حال حاضر در هوش مصنوعی استفاده میشود، مقیاس رنگِ پوست فیتزپاتریک، برای تشخیص نژاد افراد ایجاد نشده است؛ این طبقهبندی در واقع انواع پوستی را نشان میدهد که بیشتر در معرض آفتاب سوختگی قرار گرفتهاند. مقیاس فیتزپاتریک رنگ را بسیار ساده کرده و برای رنگهای تیره تنها شش گروه در نظر میگیرد.
نرم افزار طبقهبندی پوست
در حال حاضر، گوگل و گروههای دیگر در حال بازسازی نرم افزار طبقهبندی پوست هستند؛ به این امید که روزی کامپیوترها بتوانند نژادهای مختلف را به راحتی شناسایی کنند.
اکنون، بیش از هر زمان دیگری، به اهمیت تنوع در جامعه و سیستمهای ماشینی اذعان میکنیم. در دهههای 1960 و 1970، شاهد مبارزه دانشجویان برای تحصیل برابر در دانشگاهها بودیم. شاهد این هستیم که پارکهای فرهنگی، مانند پارک فرهنگی سان پدرو کریک، جشنهایی از فرهنگهای مختلف برگزار میکند. در حال حاضر، تنوع نیروی کار در ایالات متحده به بالاترین حد خود رسیده است.
برای اطمینان از برابری و ایمنی برای آحاد جامعه، باید این تنوع را در هوش مصنوعی نیز بگنجانیم.