معرفی 15 دیتاست در حوزه بهداشت و درمان
ورود یادگیری ماشین به حوزهی بهداشت و درمان توجه زیادی را به خود جلب کرده است. همه جا صحبت از این است که یادگیری ماشینی (ML) چطور موجب تحول و انقلاب در زمینههای گوناگون شده است. به لطف قدرت یادگیری و پردازش ماشینها، حوزهی مراقبتهای بهداشتی و درمانی از آن زمینههایی است که سرعت این تحول در آن به طرز چشمگیری بالاست. یافتن شغل در حوزهی بهداشت و درمان به عنوان متخصص این رشته (یادگیری ماشینی) احتمال بالایی دارد. در این مقاله قصد داریم به معرفی 15 دیتاست در حوزه بهداشت و درمان بپردازیم.
بهداشت عمومی و جمعی
WHO (سازمان بهداشت جهانی): این سازمان بر اساس اولویتهای حال حاضر حوزهی سلامت در دنیا، دادههای دیتاست را فراهم میکند. سازمان بهداشت جهانی امکان جستجوی آسان را برای مخاطبان خود به وجود آورده و علاوه بر دادههایی که در اختیار میگذارد، بینش خوبی نیز در مورد موضوعات گوناگون به دست میدهد.
CDC (مرکز کنترل و پیشگیری بیماری): در این مرکز بهداشتی درمانی صرفاً دادههای ایالات متحده قابل دسترس میباشد. مرکز CDC از دادههای دیتاست WONDER Wide-ranging Online Data for Epidemiological Research (دادهی آنلاین گسترده برای پژوهشهای شیوعشناسی) استفاده میکند. قابلیت جستجو براساس موضوع، ایالت و عوامل دیگر در میان دادههای این دیتاست وجود دارد.
Data.gov: دادههای حوزهی بهداشت و درمان را در برمیگیرد، قابلیت جستجو داشته و مختص ایالات متحده است. دادههای این دیتاست به منظور بهبود زندگی افرادی تنظیم شدهاند که در ایالات متحده زندگی میکنند؛ با این حال اطلاعاتی که فراهم میآورد برای دیتاستهای آموزشی دیگر که در حوزهی تحقیقات یا سایر حوزههای بهداشت و درمان تعریف میشوند نیز مفید خواهد بود.
پژوهشهای علمی
Re3Data: این دیتاست در حوزه بهداشت و درمان حاوی دادههای بیش از 2000 موضوع پژوهشی در حوزههای مختلف است. با اینکه امکان استفاده از همهی دادههای دیتاستهای موجود به صورت رایگان وجود ندارد، اما ساختارها به وضوح مشخص شدهاند و جستجوی آسان (بر اساس این عوامل: قیمت، شرایط عضویت و محدودیتها و موانع کپیرایت) در میان آنها نیز امکانپذیر است.
CHDS Child Health and Development Studies (مطالعات بهداشت و رشد کودکی): با استفاده از دادههای دیتاستهای CHDS میتوان به تحقیق در مورد این موضوع پرداخت که سلامت و بیماریها چگونه از نسلی به نسل دیگر منتقل میشوند. تحقیقاتی که بر اساس این دادهها انجام میگیرند تنها به بحث ژنتیکی این قضیه نمیپردازند و جنبههای اجتماعی، محیط زیستی و فرهنگی را نیز دربر میگیرند.
دادههای زیستی-پزشکی دیتاستهای Kent Ridge Kent Ridge Biomedical Datasets: مجموعهای از دیتاستهای با ابعاد زیاد در حوزهی زیستپزشکی را در برمیگیرد و بر دادههای منتشرشده در مجلات (با موضوعات طبیعت، علم و …) متمرکز شده است.
چالش حرکت بهداشت و درمان مولکولی MerckMerck Molecular Health Activity Challenge: دادههای این دیتاستها برای پرورش جریان یادگیری ماشین در حوزهی کشف دارو (از طریق شبیهسازی نحوهی تعامل مولکولها با یکدیگر) به کار میروند.
SEER: در این مورد، دادههای دیتاستها که توسط دولت ایالات متحده فراهم شدهاند، بر اساس گروههای جمعیتشناختی مرتب میگردند. قابلیت جستجو بر اساس سن، نژاد و یا جنسیت در میان این دادهها وجود دارد.
پروژهی 1000 Genomes: این دادهها از 2500 نفر و 26 گروه جمعیتی متفاوت به دست آمدهاند. این دیتاست یکی از بزرگترین مخازن ژنوم در دسترس است و حاصل یک همکاری جهانی میباشد. دسترسی به این دادهها از طریق سرویسهای شبکهای آمازون (AWS) امکانپذیر خواهد بود.
خدمات بهداشت و درمان
Medicare: این سرویس دیتاستهایی را در اختیار قرار میدهد که مبتنی بر خدمات ارائه شده توسط مؤسسات طرف قرارداد Medicare هستند. میتوان گفت بیشتر این دادهها مرتب بوده و بینش خوبی نسبت به بخش خدماتی و درمانی بیمارستانها به دست میدهند.
HCUP: دادههای مربوط به دیتاستهای بیمارستان های ایالات متحده را در برمیگیرد و اطلاعاتی از این دست را شامل میشوند: بستریهای بخش اورژانس، بستریهای بیماران داخلی و آمار مربوط به آمبولانسها. دادههای دیتاستهای این سرویس تمیز هستند و در مورد خدمات و مراقبتهای درمانی ایالات متحده اطلاعات مفیدی فراهم میکنند.
تصاویر
OASIS Open Access Series of Imaging Studies (مجموعه قابل دسترس از مطالعات تصویربرداری): OASIS به صورت رایگان تصاویر عصبی از مغز تولید میکند، به این امید که پژوهشهای حوزهی بهداشت و درمان و علم عصبشناختی کلینیکی (بالینی) را رشد داده و موجب پیشرفت و توسعهی بیشتر آنها شود.
OpenfMRI: حاوی دادههای دیگری از دیتاستهای تصویربرداری است که از دستگاههای MRI به دست میآیند تا پژوهشهای مربوطه را تقویت و به تشخیص و آموزش باکیفیتتر کمک کنند. این سرویس شامل 95 دیتاست حاوی 3372 مورد بوده و همچنان که محققان دادههای خود را منتشر میکنند، به دادههای این دیتاست افزوده میشود.
تصاویر پزشکی CT CT Medical Images (پرتونگاری رایانهای): این دیتاست، دیتاست کوچکی است، اما منحصراً به بحث سرطان میپردازد. دادههای این دیتاست شامل تصاویری میشوند که بر اساس سن، حالت و تگهای متضاد برچسب خوردهاند. زمانی که این تصاویر باکیفیت با دادههای آموزشی همراه شوند، میتوانند به کشفیات و پیشرفتهای بزرگی منجر گردند.
Deep Lesion: دادههای دیتاست Deep Lesion متنوع و گسترده هستند و یکی از بزرگترین دیتاستهای تصویری موجود در حال حاضر را تشکیل میدهند. تصاویر سیتی اسکن گرفتهشده مؤسسات بهداشتی درمانی ملی (NIH) به منظور کمک به صحت بیشتر در تشخیص و مستندسازی جراحات در این دیتاست گردآوری شده تا مورد استفاده سایرین قرار گیرند. دادههای این دیتاست اطلاعات مربوط به بیش از 32000 جراحت و آسیب مربوط به 4000 بیمار را در برمیگیرند.
امتیاز ویژه! گردآورندهها (گردآورندهی دیتاستها)
Kaggle: این گردآورنده منبعی عالی است که در آن میتوان دیتاستهایی را یافت که هم مربوط به حوزهی بهداشت و درمان هستند و هم حوزههای دیگر را در برمیگیرند. اگر مطالعات شما در حوزه سلامت علاوه بر حوزهی بهداشت و درمان، به دیتاستهای زمینههای دیگر نیز برای آموزش نیاز دارد، Kaggle میتواند منبع خوبی برای شما باشد.
Subreddit: با اینکه کار با subreddit ممکن است نسبت به موارد دیگر کمی دشوارتر به نظر بیاید، میتوانید با جستجو در گفتگوهای موجود در دادههای دیتاستهای رایگان آن به یافتههای ارزشمندی دست یابید. به خصوص در مواقعی که سوال مهمی دارید که پاسخش را در دادههای دیگر دیتاستها پیدا نکردهاید، این گردآورنده به احتمال زیاد میتواند مفید واقع شود.
Healthcare.ai: این مورد را نمی توان دقیقاً یک گردآورنده در نظر گرفت، بلکه یک نرمافزار متنباز و حتی یک جامعه محسوب میشود که وقف آموزش، جنبشهای اجتماعی و … و گسترش استفاده از یادگیری ماشین در حوزههای مختلف بهداشت و درمان شده است.
یادگیری ماشین در حوزهی بهداشت و درمان
امروزه دنیا بیشتر از هر زمان دیگری نیاز به پاسخ دارد! اگر در علوم دادهها تخصص دارید و در سازمانهای بهداشتی درمانی مشغول به کار هستید و یا وقت خود را به پژوهش و یافتن پاسخ سؤالات اساسی اختصاص دادهاید میدانید که داشتن دسترسی رایگان و آسان به دادهها بسیار حیاتی است. میتوانید برای شروع از 15 دیتاست در حوزه بهداشت و درمان معرفی شده در بالا استفاده کنید.