تشخیص افسردگی از روی صدا با دقت ۷۷ درصدی

تیم تحریریه
۵ آذر ۱۴۰۱
زمان مطالعه 7 دقیقه

تصور کنید در تمام طول روز، لباسی آهنین پوشیده‌اید که اجازه نمی‌دهد به‌راحتی نفس بکشید، حرکت کنید یا اصلا کاری انجام دهید، افسردگی چنین حسی دارد. این بیماری به‌ویژه برای افرادی مشکل‌زاتر می‌شود که علی‌رغم تجربه علائم، امکان دسترسی به درمان را نیز ندارند. اشتباه در تشخیص‌گذاری بیماری‌های روانشناختی یکی دیگر از مشکلات نگران‌کننده‌ این روزهاست.

به گزارش هوشیو، تشخیص‌گذاری اشتباه نه‌تنها افراد را در معرض بدنامی و برخوردهای اجتماعی منفی قرار می‌دهد، بلکه ممکن است آن‌ها را تحت درمان‌هایی قرار دهد، که به ‌ظهور علائمی دیگر می‌انجامند. به‌عنوان مثال، داروهای ضدافسردگی می‌توانند اثرات جانبی همچون خستگی، بی‌خوابی و تاری دید به همراه بیاورند. داروهای ضدافسردگی همچون مهارکننده‌های انتخابی سروتونین، به چندین ماه زمان نیاز دارند، تا به قابلیت درمانی در سیستم بیولوژیک بیمار دست یابند و بیمار ممکن است تا ‌زمانی که نتیجه‌ دارو را ببیند، به مصرف آن ادامه دهد و در این مدت به مشکلات دیگری مبتلا گردد.

انگ‌های اجتماعی که بیماری‌های روانشناختی همچون افسردگی برای بیمار به همراه دارد، بعضا باعث می‌شود که اشتغال، روابط و سایر جنبه‌های زندگی این افراد تحت‌تأثیر قرار بگیرد. به گزارش CAMH (مرکز اعتیاد و سلامت روان کانادا)، نرخ بیکاری در‌ میان افرادی که از نوعی بیماری روانشناختی شدید رنج می‌برند، بین ۷۰ تا ۹۰ درصد بیشتر از سایر افراد است.

تشخیص بیماری‌های سلامت روان امری پیچیده است، چون با آزمایشی ساده همچون آزمایش خون، اسکن یا نمونه‌برداری مشخص نمی‌شوند، بلکه به درمانگران آموزش‌دیده و متخصصانی وابسته است. این درمانگران ارزیابی‌شان از وضعیت بیمار عمدتاً مبتنی بر پاسخ‌هایی است که در‎جواب به چندین سؤال استاندارد از او دریافت می‌کنند. دلیل وجود این رویه‌ به علائم مشترک میان بیماری‌ها باز می‌گردد، اما افسردگی به شیوه‌های مختلف بروز پیدا می‌کند و ممکن است در قالب بی‌حسی، پریشانی یا اختلال الگوی خواب ظاهر گردد.

حال تصور کنید آزمایشی وجود دارد که می‌تواند به‌آسانی و با سرعت بالا، تنها از طریق بررسی صدای فرد، افسردگی را تشخیص دهد.

پژوهشگران و متخصصان کامپیوتر دانشگاه آلبرتا در اثبات تشخیص افسردگی از روی صدا نشان داده‌اند که، الگوریتم‌های یادگیری ماشینی را می‌توان برای تشخیص خلق‌ افسرده با استفاده از صدای افراد به کار برد.

فهرست مقاله پنهان

1 نحوه تاثیر یادگیری ماشین در تشخیص افسردگی

2 کارکرد یادگیری ماشین

3 مزایای به‌کار‌گیری راهکار الگوریتم‌های یادگیری ماشینی

4 شرکت‎‌‌های فعال در حوزه تشخیص بیماری‌ از روی صدا

5 دغدغه‌های اخلاقی استفاده از هوش مصنوعی

نحوه تاثیر یادگیری ماشین در تشخیص افسردگی

پیش از‌ آنکه از ‌نحوه تاثیر یادگیری ماشین در‌ تشخیص افسردگی بگوییم، باید با این‌ اصطلاح آشنا شوید. یادگیری ماشینی اصطلاحی کلی است که به یادگیری کامپیوترها از روی داده اشاره دارد و حاصل تعامل و تلفیق علوم کامپیوتر و آمار است. الگوریتم‌های یادگیری ماشین می‌توانند، بدون آنکه به‌صورت خاص برنامه‌نویسی شوند مسائل مختلف را بیاموزند. به این‌منظور الگوریتم‌های مذکور الگوهای موجود در دیتاست‌ها را می‌آموزند و در رویارویی با داده‌های جدید، الگوهای احتمالی را پیش‌بینی می‌کنند. فرایند یادگیری این الگوریتم‌ها بسته به نوع داده‌های به‌کاررفته، می‌تواند به‌صورت نظارت‌شده یا غیرنظارت‌شده صورت پذیرد.

شبکه‌های عصبی مدل‌های رگرسیونی چندلایه‌ای هستند که با الهام از نورون‌های موجود در مغز انسان ساخته شده‌اند. شبکه‌ عصبی نوعی یادگیری ماشینی است که ورودی را به خروجی تبدیل می‌کند و برای پیش‌بینی، چندین متغیر دریافت می‌کند. گره‌های موجود در شبکه‌ عصبی (که در تصویر پایین به‌صورت دایره نشان داده شده‌اند) مقادیری همچون درجه‌ میدان را ثبت می‌کنند. خروجی شبکه ‌عصبی همان چیزی است که پیش‌بینی شده است.

بر‌خلاف سایر مدل‌های رگرسیون، شبکه‌های عصبی از طریق توابع فعالسازی، مجموعه‌ی متغیرها را به همراه وزن‌شان انتقال می‌دهند و سپس تابع فعالسازی مقادیر را دریافت کرده و تغییر می‌دهد. یکی از توابع شناخته‌شده واحد یکسوساز خطی نام دارد که مقادیر منفی را به صفر تبدیل می‌کند و مقادیر مثبت را به همان شکل باقی می‌گذارد. شبکه‌های عصبی وظیفه دارند توابع فعالساز را دریابند و به‌این‌منظور، از حجم زیادی داده استفاده می‌کنند.

مدلسازی متوالی برای پیش‌بینی توالی بعدی (از حروف یا کلمات) براساس توالی‌های قبلی به کار می‌رود. هر خروجی به ورودی قبلی‌اش بستگی دارد، که طولش متغیر ثابتی نیست. این ‌دسته از مدل‌های یادگیری ماشینی مسئول مدلسازی توالی‌های موجود از داده‌های ورودی یا خروجی هستند. شبکه‌های عصبی بازگشتی (RNN) از جمله الگوریتم‌های محبوبی هستند که برای پردازش داده‌های توالی‌یابی به کار می‌روند.

شبکه‌های عصبی بازگشتی یا RNNها را می‌توان نوعی شبکه‌ عصبی دانست که خروجی گام قبلی را به‌عنوان ورودی گام بعدی به‌ کار می‌برند. این شبکه‌ها برای نگهداری حافظه‌ داخلی استفاده می‌شوند و به‌همین‌دلیل برای آن ‌دسته از مسائل یادگیری ماشینی مناسب هستند که شامل داده‌های دنباله‌ای می‌شوند.

بزرگ‌ترین مزیت استفاده از RNNها آن است که ویژگی‌ها را به اشتراک می‌گذارند. وزن متغیرها در سراسر RNN منتشر می‌شوند. این شبکه‌ها می‌توانند ورودی‌های قبلی را به خاطر بسپارند و به‌این‌ترتیب اطلاعات تاریخچه‌ای را در محاسبات خود لحاظ کنند.

کارکرد یادگیری ماشین

پژوهشگران دانشگاه آلبرتا برای تشخیص افسردگی از روی صدا از مدلسازی متوالی استفاده کرده‌اند که معمولاً برای پردازش گفتار به کار می‌رود. توالی‌های متنی و صوتی از پرسش‌ها و پاسخ‌های موجود از افراد سالم و افراد مبتلا به افسردگی، به‌صورت تک‌به‌تک به مدل تغذیه می‌شوند.

این سیستم برخلاف فناوری‌های به‌کاررفته در Siri یا Alexa، شیوه‌ صحبت افراد، ریتم و آهنگ کلام و گام آوای آن‌ها را تحلیل می‌کند، نه آنچه می‌گویند. مدلی که روی دیتابیسی بزرگ از صداهای دیگر آموزش دیده است، نمونه‌ صوتی ورودی را با این دیتابیس مقایسه می‌کند.

مدلسازی متوالی را می‌توان در تشخیص گفتار به کار برد، مدل‌های تشخیص گفتار فایل صوتی ورودی را به نسخه‌ متنی تبدیل می‌کنند.

در کارکرد یادگیری ماشین مدل در‌میان الگوها به دنبال کلمات مثل «پایین» یا «بد» می‌گردد که با سیگنال‌های صوتی یکنواخت همراه باشند. اشخاص مبتلا به افسردگی معمولاً آهسته‌تر صحبت می‌کنند و وقفه‌ بیشتری بین کلمات‌شان قرار می‌دهند. پژوهشگران MIT این مدل را به آزمایش گذاشتند و به‌دقت ۷۷ درصدی در تشخیص افسردگی از روی صدا دست یافتند.

پژوهشگران همچنین دریافتند که این مدل برای پیش‌بینی افسردگی از روی حالت صدا به‌جای کلمات، به داده‌های بسیار بیشتری نیاز دارد، چون کلمات انتخابی پیش‌بینی بهتری از افسردگی هستند.

این ابزار را می‌توان برای سایر مشکلات روانشناختی نیز به‌کار برد. به‌عنوان‌مثال، افراد مبتلا به پارکینسون صدای یکنواخت با‌شدت پایین‌تر دارند. متخصصان صوتی آموزش‌دیده معمولاً می‌توانند بر‌اساس صدای بیمار، پارکینسون را به ‌صورت فوری تشخیص دهند. با‌این‌حال، تمام بیماران به‌چنین متخصصانی دسترسی ندارند. هدف آن است که الگوریتم هوش مصنوعی به سطح دقت و مهارت این متخصصان برسد و بعد به ‌صورت عمومی، در ‌دسترس مردم کشورهای کم‌درآمد و محروم قرار گیرد.

مزایای به‌کار‌گیری راهکار الگوریتم‌های یادگیری ماشینی

صدای افراد، منحصر به خودشان است و به‌راحتی و با هزینه‌ پایین ثبت می‌شود. راهکار الگوریتم‌های یادگیری ماشینی به پژوهشگران کمک می‌کنند، تا از سرنخ‌های صوتی برای پیش‌بینی مسائل روانشناختی همچون افسردگی یا اسکیزوفرنی استفاده کنند. راهکار جدید این قابلیت را هم دارد تا ویژگی‌های صوتی را تشخیص دهد که انسان‌ها قادر به تشخیص‌شان نیستند.

استفاده از الگوریتم‌های یادگیری عمیق می‌تواند، از الگوها و ویژگی‌هایی در نمونه‌های صوتی کوتاه پرده بردارد که به ‌گوش متخصصان آموزش‌دیده قابل تشخیص نیستند.

این فناوری به متخصصان کمک می‌کند تا به‌جای تکیه بر پرسش‌های استاندارد و از پیش ‌تعیین‌شده و پاسخ‌های مراجعان، صدای آن‌ها را ارزیابی و تحلیل کنند. به‌بیان‌دیگر، مدل مذکور را می‌توان ابزار دیگری در جعبه‌ خدمات متخصصان دانست.

شرکت‎‌‌های فعال در حوزه تشخیص بیماری‌ از روی صدا

Kintsugi، Winterlight Labs و Sonde Health از جمله شرکت‌هایی هستند که صدای انسان‌ها را به‌عنوان شاخص زیستی برای تشخیص بیماری‌های روانشناختی به کار می‌برند. اقداماتی از‌این‌دست نشان‌گر درآمدزا و محبوب‌بودن فناوری تشخیص بیماری‌ از روی صدا هستند و از اثربخشی بالقوه‌اش در بافت بالینی خبر می‌دهند.

علاوه‌بر مشکل تشخیص‌گذاری اشتباه که پیش‌تر توضیح داده شد، عدم تشخیص افسردگی نیز می‌تواند یکی از چالش‌های پیش‌روی بیماران باشد که به‌خاطر عدم مراجعه به متخصص رخ می‌دهد. تشخیص دیرهنگام افسردگی می‌تواند هزینه‌ درمان را بین ۲ تا ۸ برابر افزایش دهد. اما فناوری جدید با خطوط پشتیبانی همچون مراکز تماس، سیستم‌های درمان از راه دور و نرم‌افزارهای نظارت بر وضعیت سلامت را تجهیز می‌کند، تا علائم افسردگی را به‌راحتی شناسایی کنند.

شرکت‎‌‌های فعال در حوزه تشخیص بیماری‌ از روی صدا

دغدغه‌های اخلاقی استفاده از هوش مصنوعی

سطح دقت ۷۷ درصدی مدل جدید در تشخیص افسردگی از روی صدا امیدوارکننده به نظر می‌رسد، اما احتمال وجود مثبت‌های کاذب به دغدغه‌های اخلاقی استفاده از هوش مصنوعی دامن می‌زند.

بخشی از نگرانی‌ها به تجاری‌سازی سلامت روان و احتمال سوگیری مربوط می‌شوند. اگر مدل‌ها روی نمونه‌های گفتاری آموزش ببینند که از یک گروه جمعیت‌شناختی واحد ثبت شده‌اند، احتمال تشخیص‌گذاری اشتباه برای افراد خارج از این گروه افزایش می‌یابد.

به‌عنوان‌مثال، فردی که زبان مادری‌اش ویتنامی است، وقتی به انگلیسی صحبت می‌کند احتمالا کمی ابهام داشته باشد یا بین کلماتش وقفه ایجاد شود. سیستم هوش مصنوعی که روی داده‌های فراگیر آموزش ندیده باشد، این فرد را هرچند سالم به‌عنوان افسرده تشخیص می‌دهد. به همین دلیل، این سیستم را نمی‌توان به‌زودی یا به‌صورت کامل جایگزین تشخیص متخصصان کرد.

با پیشرفت پژوهش‌های در این حوزه، دغدغه‌ها در‌مورد سوگیری و محافظت از حریم خصوصی داده‌های صوتی باید در اولویت قرار بگیرند.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید