アリババが開発した脂肪肝AIスクリーニングモデル「MAOSS」の論文を読み解く

Last updated at 2026-03-20Posted at 2026-03-20

はじめに

2026年2月、アリババの研究機関「達摩院（DAMO Academy）」から、脂肪性肝疾患（SLD / MASLD）の早期発見に向けた新しいAIモデル MAOSS（Multimodal AI for Opportunistic Steatotic Liver Disease Screening） が Nature Communications に発表されました。

論文タイトル: Multi-modal AI for opportunistic screening, staging and progression risk stratification of steatotic liver disease
筆頭著者: Yuan Gao（ユアン・ガオ）
掲載誌: Nature Communications（2026年2月）
リンク* https://www.nature.com/articles/s41467-026-68414-3

Bloombergの記事（Alibaba AI Takes Aim at Silent Liver Epidemic）でも大きく取り上げられたこの研究は、別の目的で撮影された既存のCT画像から、追加コストなしで脂肪肝を早期発見するという「機会的スクリーニング（opportunistic screening）」の実現を目指すものです。

本記事では、この論文のAIアーキテクチャ、学習戦略、検証結果までを、できるだけ分かりやすく解説します。

1. なぜこのAIが必要なのか？

脂肪性肝疾患（MASLD）は世界人口の約30%が罹患しているとされ、2040年までにほぼ半数に達する可能性がある、極めてありふれた疾患です。しかし、以下のような厄介なパラドックスを抱えています。

症状がない： 初期には痛みも自覚症状もなく、気づかないまま進行する
確定診断が難しい： ゴールドスタンダードである肝生検は患者負担が大きく、高精度なMRI-PDFFはコストが高い
発見時には手遅れ： 既存の超音波やCT読影では初期段階の検出感度が不十分で、発見された時点では線維化や肝硬変が進行していることが多い

MAOSSのアプローチは、腹痛や外傷、がん検査など別の目的で毎年大量に撮影されている非造影CT（NCCT）画像を「ついでに」AIで解析し、脂肪肝の兆候を拾い上げるというものです。新しい検査を追加するのではなく、既にあるデータからより多くの情報を引き出す、という発想が特徴です。

2. MAOSSの全体アーキテクチャ

MAOSSは、CT画像と臨床数値データという**全く性質の異なる情報を統合して診断する「マルチモーダルAI」**です。全体の処理の流れは、大きく以下の3つのブロックに分けて理解できます。

2.1 入力：異なるデータを共通のトークンに変換する

Transformerで処理するためには、まずすべてのデータを共通の形式（トークン）に変換する必要があります。

画像データ（Image Encoder）

3Dの非造影CT画像から、3D ResNet-34（CNN） を用いて局所的なパッチ単位の特徴量を抽出します。さらに、肝臓全体のテクスチャ（質感）の変化を捉えるためのテクスチャエンコーダを通し、最終的な画像トークンを生成します。学習時には、あえて一部のパッチをゼロでマスキングすることで、病変部に対するモデルの注目度を高める工夫がされています。

数値データ（Non-image Encoder）

血液検査値（ALT、中性脂肪など）、年齢、BMIなどの数値データは、線形射影（Linear Projection） によって画像トークンと同じ次元の特徴量に変換されます。検査項目に欠損がある場合は、ダミー変数（値を1で埋める）を割り当てることで処理が途切れないようにしています。

2.2 統合：MAMAモジュール（ここが核心）

生成された画像トークンと数値トークンは連結（Concatenation）され、Transformerのバックボーンに入力されます。しかし、画像と数値データを単純に結合してSelf-Attentionにかけると、情報の性質が違いすぎるため学習がうまく収束しません。

そこで、本論文では 「MAMA（Missing-Aware Modality Alignment）アダプター」 という独自のモジュールをTransformerブロックの間に組み込んでいます。MAMAは2つのサブモジュールから構成されます。

① M-Align（Modality Align）：画像と数値の「言葉の壁」を越える

M-Alignでは、学習可能なプロンプトベクトル $P_A$（Modality Align Prompt）を導入します。

$P_A$ の正体は、画像トークンや数値トークンと**同じ次元を持つ、ランダムに初期化されたベクトル（Learnable Parameter）**です。ChatGPTに入力するテキストのプロンプトとは異なり、AIが学習の過程で自ら最適な数値を書き込んでいく「専用の空箱」のようなものです。

ここで重要なのが、アテンションマスク $\mathcal{M}_A$ の非対称な設計です（論文 Figure 9b 参照）。

方向	許可/禁止	意味
データ同士（画像↔数値）	✅ 許可（緑）	画像と数値は直接アテンションを計算し、相互作用する
データ → $P_A$	✅ 許可（緑）	データ側からプロンプトの情報を参照できる
$P_A$ → データ	❌ 禁止（黒）	プロンプトは個別の患者データを見ることができない

つまり、$P_A$ はデータの中身を見ずに（Blind）、「画像と数値をどう結びつけるか」という普遍的な翻訳ルールの学習にのみ集中するという設計です。

もし $P_A$ が個別の患者データを見てしまうと、その患者特有のノイズに引きずられ、汎用的なアライメントのルールを学習できなくなります。あえて「盲目」にすることで、 $P_A$ はオーケストラの指揮者のような存在になります。演奏者（データ）たちはお互いの音を聴き合いながらも、常に指揮者のタクトを見て、異なる楽器（モダリティ）同士のテンポや強弱を合わせるガイドラインを受け取ります。

② M-Awa（Missing Aware）：データの「欠損」パニックを防ぐ

実際の医療現場では、「ALTの値はあるが中性脂肪は測っていない」といったデータの欠損が日常茶飯事です。M-Alignと似た構造で、欠損対策用の学習可能なプロンプトベクトル $P_M$（Missing Aware Prompt）を導入しますが、$P_A$ とは正反対の設計になっています。

方向	許可/禁止	意味
データ同士	欠損項目は ❌ 禁止	欠損データとの情報交換を完全に遮断し、AIが「ないデータ」に振り回されるのを防ぐ
データ → $P_M$	✅ 許可（緑）	データ側からプロンプトの指示を参照できる
$P_M$ → データ	✅ 許可（緑）	プロンプトはすべてのデータを直接見る

$P_A$ は「盲目（Blind）」でしたが、$P_M$ は逆に**すべてのデータを見る（Aware）**ことで、「何が欠けているか」という全体状況を把握します。そして、「血液検査の値がないなら、CT画像のテクスチャ情報に強くアテンションをかけて補完しよう」というように、利用可能なデータだけで上手くカバーし合うようモデルを誘導します。

2つのプロンプトの役割分担まとめ

	$P_A$（Modality Align）	$P_M$（Missing Aware）
データを見るか	❌ 見ない（Blind）	✅ 見る（Aware）
役割	画像と数値をどう結びつけるかの普遍的な翻訳ルールに専念	何が足りないかを把握し、残されたデータでの最適な補完方法を指示

2.3 出力：2段階の学習と最終スコア

MAMAモジュールで統合された特徴量は、並行する2つの出力ヘッドに送られます（論文 Figure 8a 参照）。ここでは、質と量が異なる2種類のデータセットを使い分ける巧みな学習戦略が取られています。

Stage 1: Ordinal Regression（質の高い少量のデータで基礎固め）

正解データ： 肝生検で確定診断されたデータ（ゴールドスタンダード）
学習の工夫： 通常の分類（S0/S1/S2/S3を排他的に選ぶ）ではなく、順序回帰（Ordinal Regression） を採用

脂肪肝の重症度には「S0 → S1 → S2 → S3 と順番に進行する」という自然な階段構造があります。これを以下のようにエンコーディングします。

状態	エンコーディング
S0（なし）	`1 0 0 0`
S1（軽度）	`1 1 0 0`
S2（中等度）	`1 1 1 0`
S3（重度）	`1 1 1 1`

AIは「どれに当てはまるか？」ではなく、**「この段階（ハードル）を超えている確率は何%か？」**という複数の質問に同時に答えます。

Stage 2: Curated Distillation（ノイズ混じりの大量データで応用力アップ）

正解データ： 放射線科医の画像診断レポート（大量にあるが、ノイズも混じる）
学習の工夫： 事前学習済みモデルの予測と医師のレポートを比較し、両者の意見が一致した（Consistent）データでのみ学習する

これが「厳選された蒸留（Curated Distillation）」の正体であり、レポートの誤診にAIが引きずられるのを防ぎます。

MAOSS Scoreの算出

実際の推論時には、Stage 1（Ordinal Regression）とStage 2（Curated Distillation）の2つの出力を**平均（AVG）した上で、順序回帰の確率を足し算（SUM）**して最終スコアを算出します。

具体例で見てみましょう。ある患者の画像に対してAIが出した確率が以下だとします。

S0以上か？ → 0.98
S1以上か？ → 0.95
S2以上か？ → 0.40
S3か？　 → 0.05

これを足し算すると：

$$\text{MAOSS Score} = 0.98 + 0.95 + 0.40 + 0.05 = 2.38$$

（実装上はS0の基準分を差し引くなどの調整が入ります。）

このスコアの意味は直感的で、「S2（=2.0）の基準をやや超えている」つまり**「中等度の脂肪肝であり、少し重症側に寄っている」**ことを示します。単に「S2です」と整数で答えるよりも、小数点以下の連続的なスコアによって、進行リスクの微細な変化を医師が正確に把握できるようになります。

3. AIの判断根拠の可視化（Integrated Gradients）

MAOSSでは、Grad-CAMと同系統の可視化手法である Integrated Gradients（IG：統合勾配法） を用いて、AIがCT画像の「どの部分」を根拠に脂肪肝と判断したのかをヒートマップで示します。

Grad-CAMとの違い

Grad-CAMは主にCNNの「最後の畳み込み層」から勾配を取得して大まかなヒートマップを作りますが、IGは入力された元画像のピクセル（ボクセル）そのものに対して計算を行うため、より高精細でピクセル単位の正確な根拠を出力できるという特徴があります。

IGの計算手順

ベースラインを用意する： 特徴が完全に存在しない状態として、値がすべてゼロの画像（Null image）を基準とする
中間画像を作る： ゼロ画像から実際の患者CT画像へと少しずつピクセル値を変化させた（補間した）中間画像を複数枚作成する
各段階での勾配を計算する： 中間画像を順番にAIに入力し、「どのピクセルが変化したときにMAOSS Scoreがどれだけ動くか（勾配）」を計算する
すべてを足し合わせる（積分）： ゼロ画像から実画像に至るすべてのステップの勾配を累積する

この結果、各ピクセルがスコアにどれだけ貢献したかを示す「重要度マップ」が得られます。

可視化の検証結果（Figure 4）

論文のFigure 4では、IGによる可視化の妥当性が3つの観点から検証されています。

4a. AIは正しい医学的知識を学習しているか？

CT値（HU）が低い（=脂肪が多い）ほど、AIの注目度（IG値）が指数関数的に上昇することが確認されました。AIが「肝臓が黒くなっている部分をしっかり見つけて、それを根拠にしている」ことが数学的に証明されています。

4b. AIの視線は実際の脂肪分布と一致するか？

正常（S0）の患者では肝臓全体が青く（注目なし）、重度（S3）の患者では肝臓全体が赤くハイライトされており、MRI-PDFFで測定した実際の脂肪量分布と正確に一致していました。

4c. まだら（非均一）な脂肪肝でも正確か？

脂肪が局所的に溜まっている「まだらな脂肪肝」の症例でも、脂肪がある部分だけが赤くハイライトされ、正常な部分は青いままでした。MRI-PDFFの正解画像と完全に一致しており、ピクセル単位の精度でAIが脂肪の分布を捉えていることが示されました。

4. データセットと検証結果

この研究の大きな強みは、合計2万件以上という大規模かつ多様なデータセットで徹底的に検証を行っている点です。

4.1 学習用データ

中国医科大学附属盛京病院（SHCMU）の患者データ 2,071人分が使用されました。

データの種類	人数	内容
ゴールドスタンダード	968人	肝生検により脂肪肝の重症度（S0〜S3）と線維化（F0〜F4）が確定診断
非ゴールドスタンダード	1,103人	放射線科医のCT診断レポート付きデータ

4.2 検証結果

① 診断精度テスト（肝生検・MRI基準）

テスト条件	対象者数	脂肪肝（S1以上）検出AUC
内部テスト（同一病院・肝生検）	191人	0.917
外部テスト（別病院2施設・肝生検）	347人	0.904
MRI-PDFF基準テスト	375人	0.929

病院が変わっても精度が落ちない高い汎用性が示されています。

② 大規模リアルワールドテスト

健康診断、救急外来、一般外来、入院など、あらゆる状況で撮影されたCT画像 合計18,730人分に対してMAOSSを適用しました。健康診断データでは、放射線科医の診断とAIの判定が 96.6%（850人中821人）で一致しました。

③ 臨床ガイドライン（AASLD）との比較シミュレーション

1,192人（うち236人に追跡調査データあり）を対象に、MAOSSを既存の臨床ガイドライン（AASLD）の診断フローに組み込んだ場合の効果を検証しました。

項目	AASLD単独	AASLD + MAOSS
中〜高リスク患者の検出感度	16.6%	52.4%（約3倍）
高リスク群の肝硬変発症ハザード比	ー	5.54倍（低リスク群比）

MAOSSを組み込むことで、危険な状態の患者を約3倍多く発見でき、さらにMAOSSが「高リスク」と判定した患者は実際に肝硬変を発症するリスクが5.54倍高いことが実証されました。

4.3 AI vs 11人の放射線科医（読影試験）

このテストは、**「AIが医師の副操縦士としてどれだけ役立つか」**を検証したものです。

参加医師： 経験年数の異なる11人（若手5人、中堅3人、ベテラン3人）
テスト方法： 191人分のCT画像を、まず「AIサポートなし」で診断し、2週間後に「MAOSSのスコアとヒートマップのサポートあり」で同じ画像を再診断

結果

タスク	医師単独（AUC）	AI支援あり（AUC）
脂肪肝の有無（S0 vs S1以上）	0.709	0.798（有意に向上）
中等度以上（S1以下 vs S2以上）	0.821	0.851（有意に向上）

特に初期の脂肪肝の発見において、AIサポートの効果は顕著でした。11人全員の医師で診断精度が底上げされ（1.2%〜18.1%の向上）、中堅・ベテランの医師がAIを使った場合が最も高いパフォーマンスを発揮しました。

5. まとめと考察

MAOSSの設計思想をまとめると、以下のようになります。

機会的スクリーニング： 別の目的で撮影された既存のCTデータを活用し、追加コストなしで脂肪肝を早期発見する
マルチモーダル統合（MAMA）： 画像と数値データの「言葉の壁」を越えるための精巧なアテンション設計（$P_A$: 盲目の指揮者、$P_M$: 欠損把握のマネージャー）
ハイブリッド学習戦略： 少量の高品質データ（肝生検）と大量のノイズ混じりデータ（診断レポート）を組み合わせ、順序回帰と厳選蒸留で効率的に学習
説明可能性： Integrated Gradientsによるピクセル単位の可視化で、AIの判断根拠を医師に提示

ただし留意点もあります。本研究の大規模検証は後ろ向き研究（retrospective study）であり、前向き研究やより多様な地域・人種での検証が今後必要です。また、AIが診断した患者に対する責任の所在や、医療システムへの慎重な組み込みの設計も課題として残っています。

それでも、MAOSSが示した「日常診療データの裏に潜む疾患リスクを、AIが静かに検出する」というアプローチは、脂肪肝に限らず、予防医療全体のパラダイムシフトを示唆する重要な一歩と言えるでしょう。

参考文献

Gao, Y. et al. "Multi-modal AI for opportunistic screening, staging and progression risk stratification of steatotic liver disease." Nature Communications (2026).
Bloomberg, "Alibaba AI Takes Aim at Silent Liver Epidemic: Tech In Depth" (2026年3月18日)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up