تشخیص افسردگی از روی صدا با دقت 77 درصدی
تصور کنید در تمام طول روز، لباسی آهنین پوشیدهاید که اجازه نمیدهد بهراحتی نفس بکشید، حرکت کنید یا اصلا کاری انجام دهید، افسردگی چنین حسی دارد. این بیماری بهویژه برای افرادی مشکلزاتر میشود که علیرغم تجربه علائم، امکان دسترسی به درمان را نیز ندارند. اشتباه در تشخیصگذاری بیماریهای روانشناختی یکی دیگر از مشکلات نگرانکننده این روزهاست.
به گزارش هوشیو، تشخیصگذاری اشتباه نهتنها افراد را در معرض بدنامی و برخوردهای اجتماعی منفی قرار میدهد، بلکه ممکن است آنها را تحت درمانهایی قرار دهد، که به ظهور علائمی دیگر میانجامند. بهعنوان مثال، داروهای ضدافسردگی میتوانند اثرات جانبی همچون خستگی، بیخوابی و تاری دید به همراه بیاورند. داروهای ضدافسردگی همچون مهارکنندههای انتخابی سروتونین، به چندین ماه زمان نیاز دارند، تا به قابلیت درمانی در سیستم بیولوژیک بیمار دست یابند و بیمار ممکن است تا زمانی که نتیجه دارو را ببیند، به مصرف آن ادامه دهد و در این مدت به مشکلات دیگری مبتلا گردد.
انگهای اجتماعی که بیماریهای روانشناختی همچون افسردگی برای بیمار به همراه دارد، بعضا باعث میشود که اشتغال، روابط و سایر جنبههای زندگی این افراد تحتتأثیر قرار بگیرد. به گزارش CAMH (مرکز اعتیاد و سلامت روان کانادا)، نرخ بیکاری در میان افرادی که از نوعی بیماری روانشناختی شدید رنج میبرند، بین 70 تا 90 درصد بیشتر از سایر افراد است.
تشخیص بیماریهای سلامت روان امری پیچیده است، چون با آزمایشی ساده همچون آزمایش خون، اسکن یا نمونهبرداری مشخص نمیشوند، بلکه به درمانگران آموزشدیده و متخصصانی وابسته است. این درمانگران ارزیابیشان از وضعیت بیمار عمدتاً مبتنی بر پاسخهایی است که درجواب به چندین سؤال استاندارد از او دریافت میکنند. دلیل وجود این رویه به علائم مشترک میان بیماریها باز میگردد، اما افسردگی به شیوههای مختلف بروز پیدا میکند و ممکن است در قالب بیحسی، پریشانی یا اختلال الگوی خواب ظاهر گردد.
حال تصور کنید آزمایشی وجود دارد که میتواند بهآسانی و با سرعت بالا، تنها از طریق بررسی صدای فرد، افسردگی را تشخیص دهد.
پژوهشگران و متخصصان کامپیوتر دانشگاه آلبرتا در اثبات تشخیص افسردگی از روی صدا نشان دادهاند که، الگوریتمهای یادگیری ماشینی را میتوان برای تشخیص خلق افسرده با استفاده از صدای افراد به کار برد.
نحوه تاثیر یادگیری ماشین در تشخیص افسردگی
پیش از آنکه از نحوه تاثیر یادگیری ماشین در تشخیص افسردگی بگوییم، باید با این اصطلاح آشنا شوید. یادگیری ماشینی اصطلاحی کلی است که به یادگیری کامپیوترها از روی داده اشاره دارد و حاصل تعامل و تلفیق علوم کامپیوتر و آمار است. الگوریتمهای یادگیری ماشین میتوانند، بدون آنکه بهصورت خاص برنامهنویسی شوند مسائل مختلف را بیاموزند. به اینمنظور الگوریتمهای مذکور الگوهای موجود در دیتاستها را میآموزند و در رویارویی با دادههای جدید، الگوهای احتمالی را پیشبینی میکنند. فرایند یادگیری این الگوریتمها بسته به نوع دادههای بهکاررفته، میتواند بهصورت نظارتشده یا غیرنظارتشده صورت پذیرد.
شبکههای عصبی مدلهای رگرسیونی چندلایهای هستند که با الهام از نورونهای موجود در مغز انسان ساخته شدهاند. شبکه عصبی نوعی یادگیری ماشینی است که ورودی را به خروجی تبدیل میکند و برای پیشبینی، چندین متغیر دریافت میکند. گرههای موجود در شبکه عصبی (که در تصویر پایین بهصورت دایره نشان داده شدهاند) مقادیری همچون درجه میدان را ثبت میکنند. خروجی شبکه عصبی همان چیزی است که پیشبینی شده است.
برخلاف سایر مدلهای رگرسیون، شبکههای عصبی از طریق توابع فعالسازی، مجموعهی متغیرها را به همراه وزنشان انتقال میدهند و سپس تابع فعالسازی مقادیر را دریافت کرده و تغییر میدهد. یکی از توابع شناختهشده واحد یکسوساز خطی نام دارد که مقادیر منفی را به صفر تبدیل میکند و مقادیر مثبت را به همان شکل باقی میگذارد. شبکههای عصبی وظیفه دارند توابع فعالساز را دریابند و بهاینمنظور، از حجم زیادی داده استفاده میکنند.
مدلسازی متوالی برای پیشبینی توالی بعدی (از حروف یا کلمات) براساس توالیهای قبلی به کار میرود. هر خروجی به ورودی قبلیاش بستگی دارد، که طولش متغیر ثابتی نیست. این دسته از مدلهای یادگیری ماشینی مسئول مدلسازی توالیهای موجود از دادههای ورودی یا خروجی هستند. شبکههای عصبی بازگشتی (RNN) از جمله الگوریتمهای محبوبی هستند که برای پردازش دادههای توالییابی به کار میروند.
شبکههای عصبی بازگشتی یا RNNها را میتوان نوعی شبکه عصبی دانست که خروجی گام قبلی را بهعنوان ورودی گام بعدی به کار میبرند. این شبکهها برای نگهداری حافظه داخلی استفاده میشوند و بههمیندلیل برای آن دسته از مسائل یادگیری ماشینی مناسب هستند که شامل دادههای دنبالهای میشوند.
بزرگترین مزیت استفاده از RNNها آن است که ویژگیها را به اشتراک میگذارند. وزن متغیرها در سراسر RNN منتشر میشوند. این شبکهها میتوانند ورودیهای قبلی را به خاطر بسپارند و بهاینترتیب اطلاعات تاریخچهای را در محاسبات خود لحاظ کنند.
کارکرد یادگیری ماشین
پژوهشگران دانشگاه آلبرتا برای تشخیص افسردگی از روی صدا از مدلسازی متوالی استفاده کردهاند که معمولاً برای پردازش گفتار به کار میرود. توالیهای متنی و صوتی از پرسشها و پاسخهای موجود از افراد سالم و افراد مبتلا به افسردگی، بهصورت تکبهتک به مدل تغذیه میشوند.
این سیستم برخلاف فناوریهای بهکاررفته در Siri یا Alexa، شیوه صحبت افراد، ریتم و آهنگ کلام و گام آوای آنها را تحلیل میکند، نه آنچه میگویند. مدلی که روی دیتابیسی بزرگ از صداهای دیگر آموزش دیده است، نمونه صوتی ورودی را با این دیتابیس مقایسه میکند.
مدلسازی متوالی را میتوان در تشخیص گفتار به کار برد، مدلهای تشخیص گفتار فایل صوتی ورودی را به نسخه متنی تبدیل میکنند.
در کارکرد یادگیری ماشین مدل درمیان الگوها به دنبال کلمات مثل «پایین» یا «بد» میگردد که با سیگنالهای صوتی یکنواخت همراه باشند. اشخاص مبتلا به افسردگی معمولاً آهستهتر صحبت میکنند و وقفه بیشتری بین کلماتشان قرار میدهند. پژوهشگران MIT این مدل را به آزمایش گذاشتند و بهدقت 77 درصدی در تشخیص افسردگی از روی صدا دست یافتند.
پژوهشگران همچنین دریافتند که این مدل برای پیشبینی افسردگی از روی حالت صدا بهجای کلمات، به دادههای بسیار بیشتری نیاز دارد، چون کلمات انتخابی پیشبینی بهتری از افسردگی هستند.
این ابزار را میتوان برای سایر مشکلات روانشناختی نیز بهکار برد. بهعنوانمثال، افراد مبتلا به پارکینسون صدای یکنواخت باشدت پایینتر دارند. متخصصان صوتی آموزشدیده معمولاً میتوانند براساس صدای بیمار، پارکینسون را به صورت فوری تشخیص دهند. بااینحال، تمام بیماران بهچنین متخصصانی دسترسی ندارند. هدف آن است که الگوریتم هوش مصنوعی به سطح دقت و مهارت این متخصصان برسد و بعد به صورت عمومی، در دسترس مردم کشورهای کمدرآمد و محروم قرار گیرد.
مزایای بهکارگیری راهکار الگوریتمهای یادگیری ماشینی
صدای افراد، منحصر به خودشان است و بهراحتی و با هزینه پایین ثبت میشود. راهکار الگوریتمهای یادگیری ماشینی به پژوهشگران کمک میکنند، تا از سرنخهای صوتی برای پیشبینی مسائل روانشناختی همچون افسردگی یا اسکیزوفرنی استفاده کنند. راهکار جدید این قابلیت را هم دارد تا ویژگیهای صوتی را تشخیص دهد که انسانها قادر به تشخیصشان نیستند.
استفاده از الگوریتمهای یادگیری عمیق میتواند، از الگوها و ویژگیهایی در نمونههای صوتی کوتاه پرده بردارد که به گوش متخصصان آموزشدیده قابل تشخیص نیستند.
این فناوری به متخصصان کمک میکند تا بهجای تکیه بر پرسشهای استاندارد و از پیش تعیینشده و پاسخهای مراجعان، صدای آنها را ارزیابی و تحلیل کنند. بهبیاندیگر، مدل مذکور را میتوان ابزار دیگری در جعبه خدمات متخصصان دانست.
شرکتهای فعال در حوزه تشخیص بیماری از روی صدا
Kintsugi، Winterlight Labs و Sonde Health از جمله شرکتهایی هستند که صدای انسانها را بهعنوان شاخص زیستی برای تشخیص بیماریهای روانشناختی به کار میبرند. اقداماتی ازایندست نشانگر درآمدزا و محبوببودن فناوری تشخیص بیماری از روی صدا هستند و از اثربخشی بالقوهاش در بافت بالینی خبر میدهند.
علاوهبر مشکل تشخیصگذاری اشتباه که پیشتر توضیح داده شد، عدم تشخیص افسردگی نیز میتواند یکی از چالشهای پیشروی بیماران باشد که بهخاطر عدم مراجعه به متخصص رخ میدهد. تشخیص دیرهنگام افسردگی میتواند هزینه درمان را بین 2 تا 8 برابر افزایش دهد. اما فناوری جدید با خطوط پشتیبانی همچون مراکز تماس، سیستمهای درمان از راه دور و نرمافزارهای نظارت بر وضعیت سلامت را تجهیز میکند، تا علائم افسردگی را بهراحتی شناسایی کنند.
دغدغههای اخلاقی استفاده از هوش مصنوعی
سطح دقت 77 درصدی مدل جدید در تشخیص افسردگی از روی صدا امیدوارکننده به نظر میرسد، اما احتمال وجود مثبتهای کاذب به دغدغههای اخلاقی استفاده از هوش مصنوعی دامن میزند.
بخشی از نگرانیها به تجاریسازی سلامت روان و احتمال سوگیری مربوط میشوند. اگر مدلها روی نمونههای گفتاری آموزش ببینند که از یک گروه جمعیتشناختی واحد ثبت شدهاند، احتمال تشخیصگذاری اشتباه برای افراد خارج از این گروه افزایش مییابد.
بهعنوانمثال، فردی که زبان مادریاش ویتنامی است، وقتی به انگلیسی صحبت میکند احتمالا کمی ابهام داشته باشد یا بین کلماتش وقفه ایجاد شود. سیستم هوش مصنوعی که روی دادههای فراگیر آموزش ندیده باشد، این فرد را هرچند سالم بهعنوان افسرده تشخیص میدهد. به همین دلیل، این سیستم را نمیتوان بهزودی یا بهصورت کامل جایگزین تشخیص متخصصان کرد.
با پیشرفت پژوهشهای در این حوزه، دغدغهها درمورد سوگیری و محافظت از حریم خصوصی دادههای صوتی باید در اولویت قرار بگیرند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید