از سیاه سفید تا تصاویر رنگی: کاهش سوگیری نژادی در بینایی کامپیوتر

تیم تحریریه
۱۸ مهر ۱۴۰۰
زمان مطالعه 2 دقیقه

بینایی کامپیوتر از جمله حوزه‌هایی است که همواره شاهد پیشرفت آن هستیم، اما یک مشکل بزرگ دارد: بینایی کامپیوتر نژادپرست است و نیاز به کاهش سوگیری نژادی در آن محسوس است.

قدرت بینایی به مثابه یک معجزه است؛ رابطه بین انعکاس، شکست نور، و رمزگشایی پیام‌ نورون‌ها در مغز شگفت‌انگیز است. زمانی که به شی‌ای نگاه می‌کنید، در واقع به انعکاس نوری که به صورت موج وارد قرنیه می‌شود، خیره شده‌اید. به محض ورود نور به قرنیه، نور به طرف عدسی کریستالی نازک و خمیده‌ی چشم می‌‌رود و آنجا بیشتر شکست پیدا می‌کند.

عدسی یک تنظیم‌کننده است و نور را مستقیماً روی شبکیه می‌اندازد و پرتو کوچک‌تر و متمرکزتری تشکیل می‌دهد. شبکیه متشکل از سلول‌های دریافت‌کننده نور یا همان سلول‌های استوانه‌ای و مخروطی است. این سلول‌ها را مترجم‌های ریزی در نظر بگیرید که نور را به پالس‌های الکتریکی تبدیل کرده و به مغز می‌فرستند.

عصب بینایی پالس‌ها را به سمت قشر بینایی مغز شلیک می‌کند؛ تصویر در قشر بینایی خلاف عقربه‌های ساعت چرخانده می‌شود. سپس این قشر مغز سیگنال‌ها را تفسیر کرده و به انسان کمک می‌کند در مورد آن‌ها تصمیمات معناداری بگیرد، مانند: «نگاه کن، این یک سگ است».

فهرست مقاله پنهان

1 توانایی دیدن در رایانه‌ها

2 سوگیری در بینایی کامپیوتر

3 تبعیض جنسیتی

4 بررسی دو مدل بینایی کامپیوتر iGPT و SimCLR

5 آزمایش پاکت کاغذی

6 دقت یادگیری ماشین و مسئله سوگیری

7 نرم افزار طبقه‌بندی پوست

توانایی دیدن در رایانه‌ها

انسان از دیرباز توانایی دیدن را داشته است، اما امروزه رایانه‌ها نیز به قابلیت دیدن مجهز شده‌اند. در حقیقت، عصر جدیدی تحت عنوان عصر بینایی برای رایانه‌ها رقم خورده است.

بینایی کامپیوتر بخشی از بینایی ماشین و نوعی هوش مصنوعی است که به رایانه‌ها یاد می‌دهد عکس‌ها را دریافت و تفسیر کنند. داستان بینایی کامپیوتر با کمک دو دانشمند، یک گربه و یک نورون شلیک شده در اواخر دهه ۱۹۵۰ آغاز شد.

دیوید هوبل و تورشتن ویسل به بررسی رفتارهای بینایی گربه و نحوه واکنش نورون‌های سطح بالاتر مغز به تصاویر پرداختند. منظور از رفتار بینایی گربه، قابلیت آن‌ها برای دیدن نقاط کوچک نور یا یک نقطه سیاه روی یک اسلاید شیشه‌ای شفاف است که بر روی پرده نمایش داده می‌شد. پس از انجام آزمایشات دشوار، این دو محقق به طور تصادفی به کشف بزرگی دست ‌یافتند.

زمانی که گربه‌ها به پرده نگاه می‌کردند‌، یکی از محققان به طور تصادفی اسلاید شیشه‌ای را کمی ‌بیشتر از حد معمول تکان داد، به طوری که لبه‌های نازک آن را در معرض دید قرار گرفت. این حرکتِ خطیِ لکه که با زاویه‌ای خاص روی پرده دیده می‌شد، منجر به شلیک نوورنی در مغز گربه‌ها شد. این اشتباه‌، نگرش دانشمندان به پردازش بصری را تغییر داد.

محققان دریافتند که برخی از نورون‌های قشر بینایی مسئول پاسخ به محرک‌های خاص مانند خطوط و زاویه‌ها هستند. نتایج این پژوهش و مطالعات بعدی نشان دادند که چگونه سیستم بینایی از محرک‌های ساده تا بازنمایی‌های پیچیده تصویر می‌سازد. این تصادف، مبنایی برای تمام مدل‌های یادگیری عمیق‌، به ویژه مدل‌های مورد استفاده در بینایی کامپیوتر، قرار گرفت.

سوگیری در بینایی کامپیوتر

در دهه ۱۹۸۰، بینایی کامپیوتر پیشرفت چشمگیری داشت. در سال ۱۹۸۲‌، دیوید مار ساختار الگوریتمی جدیدی ایجاد کرد که می‌توانست گوشه‌ها‌، لبه‌ها و سایر ویژگی‌های بصری متمایز را شناسایی کند. نظریه نئوشناختِ (Neocognitron) کونیهیکو فوکوشیما مدلی برای ایجاد شبکه‌های خودسازمان‌ده، از جمله شبکه‌های ساده و پیچیده، ارائه کرد که می‌توانست الگوها را تشخیص دهد. این شبکه‌ها که شبکه‌های عصبی پیچشی نام داشتند، به خوبی می‌توانستند تصاویر را شناسایی کنند. با این حال‌، به سختی می‌شد آن‌ها را برای تصاویر با وضوح بالا اعمال کرد‌ و آموزش شبکه‌ی آن‌ها بسیار زمان‌بر بود.

در واقع، مسابقات هوش مصنوعی سالِ ۲۰۱۲ موجبات پیشرفت بینایی کامپیوتر را فراهم آورد.

در آن دوران، نرخ خطای ۵ برای بازشناسی تصاویر حدود ۲۶ درصد بود و هیچ تغییری نمی‌کرد. سپس AlexNet پا به عرصه نهاد. تیم دانشگاه تورنتو یک شبکه عصبی کانولوشن (convolutional neural network) ایجاد کرد: یک مدل یادگیری عمیق که با تعیین وزن و سوگیری عناصر هر تصویر‌، تصاویر را شناسایی می‌کرد. به این ترتیب، ترخ خطای ۵ بهبود یافت و به ۱۵/۳% رسید.

کامپیوتر‌ها به جایی رسیده بودند که مانند انسان‌‌، قوه بینایی داشتند. اما ایراد بینایی کامپیوتر چیزی‌های که می‌دید نبود، بلکه چیزهایی بود که نمی‌توانست ببیند.

بینایی کامپیوتر به یادگیری عمیق وابسته است‌ و یادگیری عمیق زیر شاخه‌ای از یادگیری ماشین است. به منظور تنظیم دقیق «قوه دید» رایانه‌، باید داده‌های بسیار زیادی به مدل تغذیه شود. اما ایراد این داده‌ها این است که اغلب دچار سوگیری هستند.

سوگیری داده ها ایراد بزرگی است‌، ایرادی که در شدیدترین نمونه‌ها حتی می‌تواند منجر به مرگ انسان شود. برای مثال‌، تخمین زده می‌شود که تا سال ۲۰۴۰، حدود ۳۳ میلیون خودروی خودران در جاده‌ها تردد خواهند کرد؛ مشکل کجاست؟ سیستم‌های بینایی کامپیوتری این وسایل‌نقلیه نمی‌توانند عابران پیاده با رنگ پوست تیره تر را تشخیص دهند.

تبعیض جنسیتی

در سال ۲۰۱۸‌، جوی بولاموینی مقاله «سایه تبعیض جنسیتی: همپوشانی تعارض در طبقه‌بندی تجاری جنسیتی» را منتشر کرد. پروژه سایه‌های جنسیتی بولاموینی نگرش ما به رنگین‌پوستان و بینایی کامپیوتر را تغییر داد. این پژوهش دقت سه الگوریتم اصلی طبقه‌بندی جنسیتی را، که برخی از رایج‌ترین و پرکاربردترین‌ها بودند (از جمله مایکروسافت و IBM)، در چهار گروه طبقه‌بندی کرد: مردان سفیدپوست‌، زنان سفید‌پوست‌، مردان رنگین‌پوست و زنان رنگین‌پوست. بولاموینی دریافت که به طور کلی‌، دقت تمام برنامه‌ها در شناسایی افراد سفید‌پوست بالاتر است و خطای شناسایی افراد سفید‌پوست با افراد رنگین‌پوست بین ۱۱/۸ تا ۱۹/۲ درصد متغیر است. این مسئله موجبات نگرانی را فراهم آورد: نرم‌افزار نمی‌توانست افراد رنگین‌پوست را با همان دقتی شناسایی کند که افراد سفید‌پوست را شناسایی می‌کرد.

سپس بولاموینی دقت شناسایی افراد را بر اساس جنسیت و رنگ‌پوست بررسی کرد. الگوریتم‌های مایکروسافت و IBM بیشترین دقت را در شناسایی مردان سفید‌پوست بدست آوردند. مایکروسافت حتی در شناسایی این گروه دقت ۱۰۰ درصدی داشت و پایین‌ترین نمره عملکرد آن با ۹۹/۲% مربوط می‌شد به Face++.

با این حال، روند نگران‌کننده‌تری در برنامه‌ها مشاهده می‌شد.

در بین زنان رنگین‌پوست، میزان دقت مدل ۳۴ درصد کمتر از دقت آن برای شناسایی مردان سفید‌پوست بود. در حقیقت‌، ۹۳/۶% چهره‌هایی که مایکروسافت‌ برچسب جنسیت اشتباه برای آن‌ها گذاشته بود، افراد رنگین‌پوست بودند.

سپس بولاموینی با استفاده از مقیاس رنگ پوست فیتزپاتریک Fitzpatrick Skin Type system، نتایج را در طیف مشخص‌تری بررسی کرد و متوجه شد که با تیره شدن رنگ‌پوستِ زنان‌، دقت مدل در شناسایی آن‌ها تقریباً به ۵۰% می‌رسد.

علاوه بر این‌، هوش مصنوعی تشخیص تصاویر می‌تواند به راحتی قربانی کلیشه‌های طبقه‌بندی تصویر شود. در سال ۲۰۲۱، دانشگاه کارنگی ملون و دانشگاه جورج واشنگتن در پژوهش خود از رویکرد جدیدی برای تشخیص ارتباطات سوگیرانه در مفاهیمی ‌مانند نژاد‌، جنسیت و شغل در دیتاست‌های تصویری استفاده کردند.

بررسی دو مدل بینایی کامپیوتر iGPT و SimCLR

آن‌ها نتایج را در دو مدل بینایی کامپیوتر iGPT و SimCLR بررسی کردند. در آزمون شغلی جنسیت‌، آزمونی که رابطه جنسیت‌ و ویژگی‌های شغلی را اندازه‌گیری می‌کند‌، مردان در کنار مفاهیمی ‌مانند «دفتر» یا «کسب‌وکار» قرار گرفتند، در حالی که زنان با «کودکان» و «خانه» همراه شدند. این یافته‌ها سوگیری بسیار زیادی را نشان می‌داد.

محققان دریافتند که هر دو مدل دچار سوگیری نژادی هستند که به لحاظ آماری معنادار است. در آزمایش طبقه‌بندی نژادهای بر اساس ارتباط با اشیا‌، هر دو مدل iGPT و SimCLRv2 افراد سفیدپوست را با «ابزار» و سیاه‌پوستان را با «سلاح» مرتبط می‌دانستند. هر دو مدل «عرب‌های مسلمان» را در مقایسه با «آمریکایی‌-اروپایی‌ها»، افرادی «ناخوشایند» دسته‌بندی کردند‌؛ در این میان، iGPT نشان می‌داد که هرچه رنگ پوست روشن‌تر باشد، فرد «دلپذیرتر» است.

این تصور که هرچه رنگ‌پوست روشن‌تر باشد، فرد «دلپذیرتر» است، با واکنش‌های زیادی در شبکه‌های اجتماعی مواجه شد و این امر خود منعکس‌کننده عمق مسئله رنگین پوستی در جامعه است. در سال ۲۰۱۷‌، نرم‌افزار محبوب ویرایش عکس، FaceApp، به دلیل فیلتر «جذابیت» خود، فیلتری که ادعا می‌کرد کاربران را با روشن کردن رنگ پوست آن‌ها «جذاب‌تر» نشان می‌دهد، مورد انتقاد قرار گرفت. به عبارت دیگر‌، برای اینکه افراد ظاهر بهتری داشته باشند‌، سیستم هوش مصنوعی رنگ‌پوست آن‌ها را روشن‌تر می‌کرد.

رنگ‌گرایی سابقه طولانی در آسیب رساندن به گروه‌های رنگین‌پوست دارد و امروزه کماکان نقشی فعال و مخرب در جامعه ایفا می‌کند. رنگ‌گرایی عبارت است از نوعی تبعیض که در آن با افراد سفیدپوست نسبت به رنگین پوستان، بهتر رفتار می‌شود.

بیشتر این تبعیض‌ها ناشی از ایده‌های برتری نژاد سفید و اروپامحوری است. تحقیقات نشان می‌دهد در دروانی که برده‌داری در ایالات متحده رواج داشت، با برده‌هایی با ویژگی‌های «اروپایی» که رنگ پوست روشن‌تری داشتند با خشونت کمتری رفتار می‌شد و آن‌ها رفتار «مطلوب‌تری» دریافت می‌کردند.

آزمایش پاکت کاغذی

یکی از بدنام‌ترینِ این رفتارهای تبغیض‌آمیز در ایالات متحده‌، آزمایش پاکت کاغذی بود. اگر پوست یک سیاه‌پوست از رنگ پاکت کاغذی تیره‌تر می‌بود‌، آن سیاه‌پوست اجازه ورود به برخی مکان‌ها را نداشت و یا فرصت شغلی برای او فراهم نمی‌شد.

اگر رنگ پوست کسی روشن‌تر بود‌، این فرصت‌ها معجزه‌وار در اختیار او قرار می‌گرفت. با گذشت زمان‌، این تصورات رنگ‌گرایی به همه جنبه‌های زندگی آمریکایی نفوذ کرده و به آینده شغلی‌، سلامت روان‌، دادگاه و موارد دیگر آسیب رسانده است.

حال، این کلیشه‌ها (برچسب‌های نژادی) و رفتارهای ناشایست در هوش مصنوعی تدوام پیدا کرده و ادامه دارد.

چگونه می‌توانیم این سوگیری‌ها را برطرف کنیم؟ چگونه می‌توانیم بینایی کامپیوتر را فراگیرتر و با سوگیری کمتری همراه کنیم؟ پاسخ در اصلاح دیتاست‌ها نهفته است.

دقت یادگیری ماشین و مسئله سوگیری

دقت یادگیری ماشینِ مبتنی بر هوش مصنوعی کاملاً به داده‌هایی که از آن تغذیه می‌شود بستگی دارد. اگر برنامه‌ای را با میلیون‌ها تصویر لاک‌پشت تغذیه کنید‌، آن برنامه در شناسایی تصاویر لاک‌پشت‌ها بسیار خوب عمل خواهد کرد. اما اگر تنها یک تصویر از مار به مدل نشان دهید‌، نمی‌تواند این تصویر را شناسایی کند.

مسئله نژاد نیز به همین صورت است. بسیاری از دیتاست‌های تصویری‌، از جمله ImageNet‌، که یکی از پرکاربردترین دیتاست‌های تصویری است‌، تصاویر بیشتری از افراد سفیدپوست دارند. در مقاله سایه تبعیض جنسیتی، بولاموینی به این مسئله اشاره می‌کند که در دنیایی که میلیاردها رنگین‌پوست زندگی می‌کنند، در برخی از دیتاست بیش از ۸۵% تصاویر مربوط به افراد سفیدپوست است.

به بیان ساده، دیتاست‌های مورد استفاده، تنوع ندارند و به همین دلیل هوش مصنوعی کارایی کافی در شناسایی افراد رنگین پوست را ندارد. حتی مقیاس رنگ پوستی که در حال حاضر در هوش مصنوعی‌ استفاده می‌شود، مقیاس رنگِ پوست فیتزپاتریک، برای تشخیص نژاد افراد ایجاد نشده است؛ این طبقه‌بندی در واقع انواع پوستی را نشان می‌دهد که بیشتر در معرض آفتاب سوختگی قرار گرفته‌اند. مقیاس فیتزپاتریک رنگ را بسیار ساده کرده و برای رنگ‌های تیره تنها شش گروه در نظر می‌گیرد.

نرم افزار طبقه‌بندی پوست

در حال حاضر‌، گوگل و گروه‌های دیگر در حال بازسازی نرم افزار طبقه‌بندی پوست هستند؛ به این امید که روزی کامپیوترها بتوانند نژادهای مختلف را به راحتی شناسایی کنند.

اکنون‌، بیش از هر زمان دیگری‌، به اهمیت تنوع در جامعه و سیستم‌های ماشینی اذعان می‌کنیم. در دهه‌های ۱۹۶۰ و ۱۹۷۰‌، شاهد مبارزه دانشجویان برای تحصیل برابر در دانشگاه‌ها بودیم. شاهد این هستیم که پارک‌های فرهنگی، مانند پارک فرهنگی سان پدرو کریک، جشن‌هایی از فرهنگ‌های مختلف برگزار می‌کند. در حال حاضر‌، تنوع نیروی کار در ایالات متحده به بالاترین حد خود رسیده است.

برای اطمینان از برابری و ایمنی برای آحاد جامعه، باید این تنوع را در هوش مصنوعی نیز بگنجانیم.