医療AIのトレンド・最新技術まとめ8選【2020年代最新版】

2023年5月12日2024年3月16日

今回の記事では、2020年代の最新技術やホットなテーマについてまとめていきたいと思います。

AIは、日々とてつもないスピードで進化しています。

最新の技術やトレンドを把握しておく事は、医療AIの発展において非常に重要です。

この記事を読むことで、「医療AIのトレンドの概要」を理解することが出来ます。

Vision Transformer（ViT）

Vision Transformerとは

Vision Transformer（ViT）は、コンピュータビジョンのタスクにおいて、従来の畳み込みニューラルネットワーク（CNN）に代わる新しいアーキテクチャとして登場した、Transformerベースのニューラルネットワークです。

Transformerは、元々自然言語処理（NLP）の分野で発表され、大きな成功を収めました。その後、Transformerを画像認識や物体検出などのコンピュータビジョンタスクに適用する研究が行われ、Vision Transformerが開発されました。

Vision Transformerは、従来の畳み込みニューラルネットワーク（CNN）よりも高い精度を発揮することができるとされており、注目されています。

Vision Transformerの特徴としては、以下の4つがあります。

Vision Transformerの特徴

CNNよりも高精度
パッチの位置関係を考慮できる
テクスチャよりも形状に注目しやすい
学習データが膨大に必要

Vision TransformerとCNNを組み合わせたハイブリットなモデルなども登場しています。

医療AIにおいても、Vision Transformerを活用することで、病理学的画像診断や画像診断を支援するための高度なモデルの開発が進んでいます。

医療AIにおけるVision Transformerの応用事例

ViTによるマンモグラフィ分類

SpringerLink

Transformer Based Multi-view Network for Mammographic Image Classification Most of the existing multi-view mammographic image analysis methods adopt a simple fusion strategy: features concatenation, which is widely used in many feature…

ViTによるSegmentation、Detectionへの応用

SpringerLink

SATr: Slice Attention with Transformer for Universal Lesion Detection Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis. Promising ULD results have been reported by multi-s…

3D、時系列への応用

SpringerLink

Hybrid Spatio-Temporal Transformer Network for Predicting Ischemic Stroke Lesion Outcomes from 4D CT… Predicting the follow-up infarct lesion from baseline spatio-temporal (4D) Computed Tomography Perfusion (CTP) imaging is essential for the diagnosis and manage…

Self-supervised Learning（自己教師あり学習）

Self-supervised Learningとは

自己教師あり学習（Self-supervised Learning）とは、ラベル付けされていないデータから知識や特徴を学習するアプローチです。自己教師あり学習では、教師あり学習（Supervised Learning）とは異なり、ラベルやアノテーションが必要ありません。代わりに、データそのものやデータ間の構造、関係性を利用して様々なタスクを解決します。

実際に解きたい問題とは別に、入力データを教師とするような問題を解くことで、ウォーミングアップとして特徴を学習できるとされています。

具体的には以下のような3つの方法を紹介します。

自己教師あり学習の具体例

Auto encoder
Contrastive Learning
GAN

一つ一つ説明していきます。

Auto encoder

入力データを低次元の表現にエンコードし、その低次元のデータから元の入力データを再構築（デコード）することを学習します。このプロセスで、モデルはデータの重要な特徴を抽出し、圧縮された表現を学習します。

Contrasitive Learning

似たようなデータサンプルが近く、異なるデータサンプルが遠くなるような表現空間を学習します。これにより、モデルはデータの構造やパターンを理解することができます。

GAN

生成器と識別器という2つのネットワークが競合するように設計されたモデルです。生成器はデータを生成し、識別器はそれが本物か偽物かを判断します。この相互作用を通じて、生成器はより本物に近いデータを生成し、識別器はより正確に判断することを学習します。

また、自己教師あり学習は、異なるタスク間の共通性を学習することができるため、マルチモーダル学習などの応用にも活用されています。

医療AIにおけるSelf-supervised Learningの応用事例

ルービックキューブ

arXiv.org

Self-supervised Feature Learning for 3D Medical Images by Playing a Rubik’s Cube Witnessed the development of deep learning, increasing number of studies try to build computer aided diagnosis systems for 3D volumetric medical data. However, …

ランダムマスク

SpringerLink

Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image Modeling Transformer for Op… A large-scale labeled dataset is a key factor for the success of supervised deep learning in computer vision. However, a limited number of annotated data is ver…

脳波解析

SpringerLink

Task-Oriented Self-supervised Learning for Anomaly Detection in Electroencephalography Accurate automated analysis of electroencephalography (EEG) would largely help clinicians effectively monitor and diagnose patients with various brain diseases….

Semi-supervised Learning（半教師あり学習）

Semi-supervised Learningとは

半教師あり学習（Semi-supervised Learning）とは、少量のラベル付きデータと大量の未ラベル付きデータを組み合わせて学習を行うアプローチです。半教師あり学習は、教師あり学習（Supervised Learning）と教師なし学習（Unsupervised Learning）の中間に位置し、両者の利点を活用しています。

教師あり学習では、ラベル付きデータを利用してモデルが特定のタスク（分類や回帰など）を学習します。しかし、ラベル付きデータの取得にはコストや時間がかかることが多く、実際の問題では十分な量のラベル付きデータが利用できない場合があります。一方、教師なし学習では、ラベルなしのデータからパターンや構造を学習することができますが、特定のタスクに対する性能が低い場合があります。

半教師あり学習では、少量のラベル付きデータを利用してタスクに関する基本的な知識を学習し、未ラベル付きデータを用いてその知識を拡張し、モデルの性能を向上させることを目指しています。このアプローチは、データのラベル付けコストを削減しながら、高い性能を達成する可能性があります。

一般的な方法としては、モデルが未ラベル付きデータに対して予測を行い、その予測結果を新たなラベルとして使用してモデルを再学習させる方法があります。これを繰り返すことで、より良い学習を行うことが出来ます。

医療AIにおけるSemi-supervised Learningの応用事例

arXiv.org

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segme… Medical image segmentation is a fundamental and critical step in many image-guided clinical approaches. Recent success of deep learning-based segmentation metho…

Active Learning（能動学習）

Active Learningとは

能動学習（Active Learning）とは、学習アルゴリズムが能動的にデータのラベル付けをリクエストすることで、学習効率を向上させるアプローチです。従来の教師あり学習では、ラベル付きデータが事前に与えられることが前提となりますが、能動学習では、モデルが自身でどのデータがラベル付けされるべきかを判断し、必要なデータのみをラベル付けすることで、効率的な学習を行います。

能動学習は、特にラベル付けコストが高い場合や、ラベル付けに専門知識が必要な場合に有効です。

一般的な方法としては、モデルが最も不確かなデータを選び、そのラベルをリクエストします。不確かさは、分類器の出力における確率分布のエントロピーによって評価されます。

医療AIにおけるActive Learningの応用事例

arXiv.org

Cost-Effective Active Learning for Melanoma Segmentation We propose a novel Active Learning framework capable to train effectively a convolutional neural network for semantic segmentation of medical imaging, with a li…

GitHub

GitHub – marc-gorriz/CEAL-Medical-Image-Segmentation: Active Deep Learning for Medical Imaging Segme… Active Deep Learning for Medical Imaging Segmentation – marc-gorriz/CEAL-Medical-Image-Segmentation

Weakly-supervised Learning（弱教師あり学習）

Weakly-supervised Learningとは

弱教師あり学習（Weakly-supervised Learning）とは、不完全 or 不正確である、または間接的な教師情報（ラベル）を用いてモデルを学習させるアプローチです。完全な教師情報が利用できない状況や、ラベル付けコストが高い状況で効果的に利用されます。弱教師あり学習は、教師あり学習と教師なし学習の間に位置し、半教師あり学習や能動学習といった他の学習アプローチとも関連があります。

例えば、物体検出のタスクをする際に、画像中で検出したい物体を矩形（Bounding Box）で囲ったデータではなく、検出したい物体が写っているか否かの分類タスクに用いる様なラベルが付いているデータを使用するイメージです。

矩形を囲う作業（アノテーション）は、画像ごとに存在するか否かのラベルを付ける作業と比べて、時間的にも費用的にもコストが高いので、このような手法が有効であるとされています。

医療AIにおけるWeakly-supervised Learningの応用事例

糖尿病性網膜症

arXiv.org

Weakly-supervised localization of diabetic retinopathy lesions in retinal fundus images Convolutional neural networks (CNNs) show impressive performance for image classification and detection, extending heavily to the medical image domain. Neverthe…

Multi-task Learning（マルチタスク学習）

Multi-task Learningとは

マルチタスク学習（Multi-task Learning）とは、複数の関連するタスクを同時に学習することで、モデルの性能を向上させるアプローチです。マルチタスク学習では、複数のタスク間で知識や特徴量を共有し、モデルがそれぞれのタスクに対する共通の表現を学習することを目指します。この共通の表現が、モデルの一般化能力を向上させ、個別にタスクを学習する場合よりも高い性能を達成することが期待されます。

マルチタスク学習の主な利点は以下の通りです。

マルチタスク学習の利点

データ効率の向上：複数のタスク間で知識を共有することで、各タスクのデータ利用効率が向上し、全体的に高い性能を達成することができます。
一般化能力の向上：共通の表現を学習することで、モデルの一般化能力が向上し、未知のデータに対しても適応しやすくなります。
転移学習（Transfer Learning）：あるタスクで学習した知識を別の関連するタスクに転移させることが可能です。これにより、データが少ないタスクでも高い性能を達成することができます。
訓練時間の短縮：複数のタスクを同時に学習することで、個別にタスクを学習する場合よりも訓練時間を短縮することができます。

医療AIにおけるMulti-task Learningの応用事例

肺結節の検出

SpringerLink

Multi-task Lung Nodule Detection in Chest Radiographs with a Dual Head Network Lung nodules can be an alarming precursor to potential lung cancer. Missed nodule detections during chest radiograph analysis remains a common challenge among t…

乳癌分類

SpringerLink

Intra-class Contrastive Learning Improves Computer Aided Diagnosis of Breast Cancer in Mammography Radiologists consider fine-grained characteristics of mammograms as well as patient-specific information before making the final diagnosis. Recent literature su…

Multi-modal Learning（マルチモーダル学習）

Multi-modal Learningとは

マルチモーダル学習（Multi-modal Learning）とは、異なる種類のデータ（モダリティ）から共同で学習し、情報を統合することを目的としたアプローチです。これにより、異なるデータソース間の相補的な情報を活用して、タスクの性能を向上させることができます。マルチモーダル学習は、自然言語処理（NLP）、コンピュータビジョン（CV）、音声認識など、さまざまな研究分野で活用されています。

一般的なマルチモーダル学習のタスクには、以下のようなものがあります。

マルチモーダル学習の例

画像キャプション：画像を入力として受け取り、その画像の内容を説明するテキストを生成します。
動画解析：動画や音声データを組み合わせて、その内容を理解し、アクションを認識するなどのタスクを行います。
テキストと画像のタスク：画像とテキストを組み合わせて、質問応答や図表の理解などのタスクを行います。
音声とテキストのタスク：音声データとテキストデータを組み合わせて、音声認識や音声合成などのタスクを行います。

マルチモーダル学習の主な利点は以下の通りです。

マルチモーダル学習の利点

異なるデータソース間の相補的な情報を活用：それぞれのモダリティが持つ情報を統合することで、より豊かな表現が得られ、タスクの性能が向上します。
ロバスト性の向上：複数のモダリティを使用することで、一部のデータが欠落していても、他のデータを用いてタスクを実行できます。
より現実的な問題解決：現実世界の問題は、通常、複数のデータソースから情報を取得する必要があります。マルチモーダル学習は、これらの問題に対処するための効果的な手法を提供します。

医療AIにおけるMulti-modal Learningの応用事例

電子カルテ、CT／PET

SpringerLink

TMSS: An End-to-End Transformer-Based Multimodal Network for Segmentation and Survival Prediction When oncologists estimate cancer patient survival, they rely on multimodal data. Even though some multimodal deep learning methods have been proposed in the lit…

Diffusion Model（拡散モデル）

Diffusion Modelとは

拡散モデル（Diffusion Model）とは、確率的な過程を用いてデータ生成やデータ復元を行う手法であり、機械学習や画像生成の分野で研究されています。拡散モデルは、通常、ノイズの追加や除去に関する確率的なプロセスを表す拡散方程式に基づいています。

最近の研究では、拡散モデルは、生成モデルとしてディープラーニングのアーキテクチャ（例：ニューラルネットワーク）と組み合わせて用いられています。拡散モデルは、データを生成するために、ノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデルです

拡散モデルは、画像生成や自然言語処理などの分野で利用されており、生成モデルとしての性能が高いことが示されています。例えば、高品質の画像生成やテキスト生成が可能であることが報告されています。

医療AIにおけるDiffusion Modelの応用事例

胸部X線

arXiv.org

Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains Multi-modal foundation models are typically trained on millions of pairs of natural images and text captions, frequently obtained through web-crawling approache…

MRI　脳腫瘍

arXiv.org

Brain Imaging Generation with Latent Diffusion Models Deep neural networks have brought remarkable breakthroughs in medical image analysis. However, due to their data-hungry nature, the modest dataset sizes in medi…

拡散モデルを用いた異常検知

SpringerLink

Diffusion Models for Medical Anomaly Detection In medical applications, weakly supervised anomaly detection methods are of great interest, as only image-level annotations are required for training. Current a…

おわりに（まとめ）

今回の記事では、医療AIのトレンド最新技術8選を紹介しました。

医療AIは、医師の負担軽減やワークフローの効率化と改善に役立つ可能性を持っています。

しかし、日本は医療AI先進国に比べて5年以上も遅れています。医療AI機器として承認を受けている数も約20程度であり今後更なる発展が必要とされています。

日本の医療データ（画像）は、非常に質が高く有効活用できれば日本の医療AIの発展も加速する可能性があります。

今後は、今回紹介したような最新技術を組み合わせた研究・開発が重要となります。

今回のまとめ記事が、そのためのきっかけとなると嬉しいです。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

医療AIのトレンド・最新技術まとめ8選【2020年代最新版】