機械学習・深層学習に使える医療系データセットまとめ
今回は「機械学習・深層学習に使える医療系データセット」を紹介します。
探せば出てくるのですが、結構分かりづらかったので、まとめてみました。
見やすく、かつシンプルにまとめて研究や学習に少しでも使いやすくなればいいなと思っています。
また、随時どんどん更新していきます。
1. テーブルデータ
Diabetes dataset
Diabetes datasetは、scikit-learnで無料で提供されている糖尿病のデータセットです。
実際に、糖尿病患者の様々なデータがテーブルデータになっているので、テーブルデータを使って機械学習で予測してみたい方などぜひお試しください。
Breast cancer wisconsin (diagnostic) dataset
Breast cancer wisconsin(diagnostic)datasetも、scikit-learnで無料で提供されている乳癌の診断のデータセットです。
実際に、乳癌の診断の様々なデータがテーブルデータになっているので、テーブルデータを使って機械学習で予測してみたい方などぜひお試しください。
ICU(Intensive Care Unit Patients)dataset
ICU(Intensive Care Unit Patients)datasetは、数多くのオープンデータセットの中にある一つになります。
こちらは、ICU患者の多くのデータがテーブルデータになっているので、機械学習で予測するのに使ってみてください。
2. 画像データ
miniJSRT_database
miniJSRT_databaseは、日本放射線技術学会の画像部会から提供されている画像データセットです。
胸部X線画像を中心に分類問題やSegmentation、超解像、Denoiseなどその他にも幅広く取り組むことが出来ます。
OASIS(Open Access Series of Imaging Studies)
OASIS (Open Access Series of Imaging Studies)は、脳の様々なモダリティの画像を扱えるデータセットです。
MRIやPET画像などを利用することが出来ます。
Open NEURO
脳画像および脳波のデータセットで、MRI、MEG、EEG、iEEG、およびECoGデータを無償提供されているオープンプラットフォームです。
CT Medical Images
CT Medical Imagesは、kaggleで提供されているがん患者のCT画像のデータセットです。
NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories
NIH Chest X-ray Dataset of 14 Common Thorax Disease Categoriesは、3万人以上の肺のX線写真11万枚のデータセットで、14のカテゴリーに分かれているため、より多くのアプローチが期待できるデータセットです。
CheXpert
CheXpertは、65,240人 (224,316枚) の患者の胸部X線写真で、14の病気について有無のラベルつきのデータセットになります。
サイトはこちら dataset download ※リンク先のサイトの下の方にあります。
DeepLesion
DeepLesionは、4,400名の患者, 32,000枚のCT画像の病変部位のデータつき、大規模なデータセットです。
Annotated lymph node CT data
Annotated lymph node CT dataは、リンパ節の位置にアノテーションが付いた胸腹部のCT画像のデータセットです。
IDRID
IDRIDは、糖尿病性網膜症の患者さんの眼底写真を集めたデータセットになります。
Breast
ここでは、Breastのデータセットを6つ一気に紹介します。研究にも使えるデータセットなので興味ある方はぜひご活用ください。
1. Digital Database for Screening Mammography(DDSM)
2. The mini-MIAS database of mammograms
3. Breast-Diagnosis
4. CBIS-DDSM
5. CMMD
6. VimDr-Mammo
コメント