インフォメーション
母語が日本語じゃないので、変な日本語で論文をまとめようと思います。
どうぞよろしくお願いいたします。
モチベーション
1.大規模モデルをそのまま医療分野に使えない。
近年Large-scale Vision-Language modelsの研究が盛んでいる。Vision-text pre-trainingを用いて、ゼロショットにしても高い性能が発揮できる。当然、医療にも使いたいですが、二つの問題点がある。一つ目が医療データ量が少ない、二つ目が医療分野の特殊性である。(「車や犬など」と「がんや炎症細胞など」の区別が全然違う)
2.医療AIの研究が主にテキスト分析のみ
→そのため、この論文が自由形式の質問(open-ended questions)に対応可能な新型対話式医療Vision-language model[XrayGPT]を提案した。
関連研究
1.Medical Chatbot
Chatdoctor (Li et al., 2023) [LLaMA model]
MedAlpaca (Han et al., 2023)[Based on LLM’s and finetuned on specific medical instructions]
PMC-LLaMA (Wu et al.,2023)[Based on LLM’s and finetuned on specific medical instructions]
DoctorGLM (Xiong et al., 2023)[Based on LLM’s and finetuned on specific medical instructions]
2.Large Language Vision Models(LLVM)
Image captioning
Visual question answering (Bazi et al., 2023; Liu et al.,2023; Muhammad Maaz and Khan, 2023)
Image generation (Zhang and Agrawala, 2023).
Method
事前準備:
・A pre-trained medical vision encoder (VLM)
MedClip (Wang et al., 2022)
・A medical large language model (LLM)
Vicuna (Chiang et al., 2023).
繋がり:
①画像をVLMでencodeし、その後512次元にマッピングする(線形射影)
②A trainable linear transformation layerdで①の結果をlanguage embedding tokensに変換
③ ###Doctor: XRXQ ###Assistant: XS
をLLMに入れておく。(XRが②の結果、XQが簡単な質問、XS:関連summary)
データセット:
・ MIMIC-CXR (Johnsonet al., 2019) reports:
377,110 images and 227,827 associated reports
・ OpenI (Demner-Fushman et al., 2015) reports:
6,459 images and 3,955 reports.
・ Data cleaning
gpt-3.5-turbo modelの活用
学習:
MIMIC-CXRでtrain->OpenIでtrain
以下のフォマットでLLMに入れる。
###Doctor: <Img><ImageFeature></Img> <Instruction> ###Assistant:
実験結果:
Rogue Score
GPT-based evaluation(perplexity,BLEU score,Self-BLEU score)