※この記事は2026/5/18時点の情報に基づき書かれています。
LLMとは
LLM(大規模言語モデル)は, 基本的にはTransformerアーキテクチャーをベースとし, ネット上などから収集した大量のコーパスを学習データとしてNext word prediction(次の単語を予測するタスクにおける尤度最大化)によって学習される. 学習データにはあらゆる文章を含み, これが基盤モデルとして利用される.
GPTやGeminiなどビッグテックが中心的に開発しているLLMは「なんでもこなせる」汎用的なLLMを目指していることが多い.
これには膨大な学習データおよびモデルサイズが必要とされている.
医療LLMとは
一方で, ドメイン特化と呼ばれる開発の方向性もある. これはある特定のユースケースやタスクを想定し, それらにおいて高い能力を発揮できるようなLLMの開発を目指すという意味である. 「ドメイン」に相当するものは様々考えられるが, 特に医療、金融、法律などが代表的な領域例である. しかし, 業界的な意味でのドメイン以外でも, 例えば「日本語」「和風」などもドメイン特化の一例とされることもある.
医療LLMは原則として事前学習済みの汎用LLMをベースとし, それらに対して医療ドメインのコーパスで更なる学習(継続事前学習, ファインチューニング, 強化学習 etc.)を施して開発される. これには, スクラッチで0からLLMを事前学習するのはどの機関にとっても大変すぎると言う理由と, そのようにベース能力が存在した方がドメイン特化の能力を獲得しやすいと思われているという理由とがある. ドメイン特化においては独自に追加の学習等が必要となるが, 非公開のモデルはその組織しか着手することができないため, 公開されているオープンモデルを用いた研究開発も盛り上がっている.
代表的な医療LLM
MedGemini 🇺🇸
Googleが発表した医療マルチモーダルモデルです. テキストの処理のみならず, 医療分野の多くのドメイン・データに対応しています. モデルは非公開です. アメリカの医師国家試験に相当するベンチマークMedQAにて, 91%を達成しました. 詳細はGoogleのブログに公開されています。
Googleチームからは他に
CheXThought 🇺🇸
Stanfordのチームから最近リリースされた、胸部X画像に特化したVision Language Model(VLM)。論文としては莫大なデータセットが主な貢献のようですが、モデルの方もあるようです。
a global, multimodal resource containing 103,592 chain-of-thought reasoning traces and 6,609,082 synchronized visual attention annotations across 50,312 multi-read chest X-rays from 501 radiologists in 71 countries
ただし、Huggingfaceのリンクが存在するがまだ公開されていませんでした。間も無くアクセスできるようになると思われます。
Meditron 🇨🇭
スイスのEPFLが中心となって開発しているEnglish-centricなオープンな医療LLMです.
近年はOpenMeditronという形で小規模なモデルの開発が加速しています.
初期のMeditron(70Bモデル)はMedQAで70%近くの正答率を達成しました.
HuatuoGPT 🇨🇳
香港中文大学のWang Benyouが率いるFreedomIntelligenceが開発しているChinese-centricなオープンな医療LLMです.
70Bのモデルでは, MedQAでも83%を達成しました. 8Bのモデルでも, MedQAで72%を達成しました.
Baichuan 🇨🇳
Huatuo以外の中国製モデルだとBaichuanというところが勢いがありそうです。
2024年に創業されたスタートアップで医療LLMの開発を行なっているようです。
このモデルはHuggingface Spaces上でデモが使えます。
NII(国立情報学研究所)🇯🇵
SIPの中で国産であるLLM-JPをベースモデルとした医学特化LLMが開発されています。学習されたモデルは以下ページにて公開されています。
おそらくこちらの取り組みが国内に限定した際の医療LLMのイニシアチブかと思われます。LLM-JPが完全な国産を掲げており、また最新のLLM-JP-4は性能評判もよさそうである(ただし医療ファインチューニングは未実施)な点も大きいです。
JPharmatron 🇯🇵
(株)EQUESのGENIAC事業で開発された製薬ドメイン特化LLMです.
モデルサイズは7Bと現場でも実装しやすい軽量なものとなっています.
ドメインは医療とは少しずれていますが, 医師国家試験ベンチマークでのスコアでは同サイズのモデルを上回り, 65%を達成しました.
関連論文がIJCNLP-AACL2025という国際会議に採択されています。[注1]
オープンウェイト以外の取り組み
米国の医療従事者向けにChatGPT for Cliniciansが発表されました。
Google DeepmindからもAI Co-clinicianの記事が公開されました。
また、どうしても英語での技術開発が先行する世界の中、リソースが少ない言語でも性能を高めるにはどうすれば良いかという研究もあります。英語の高いreasoning性能を活用する形で、7言語を収録したMultiMed-Xというベンチマークにおいて平均5%の性能改善(特に低リソース言語での改善が顕著)を報告しています。
注意
※ 筆者は上記[注1]にて紹介した論文の著者に含まれています。
※ より詳細にご興味がある方は以下のまとめ資料(内容は随時更新中)もぜひご覧ください。
- JMedData4LLM:医療LLMの研究に有用なデータセットへのリンクを集めています。
- awesome-latest-LLM:ベースモデルと医療モデルについて最新情報を列挙しています。
- SpeakerDeck「医療分野に特化したLLM 研究紹介」 :スライドでの最近の論文紹介です。