3年前なら端末内で動くLLMは「おもちゃ」と呼ばれた。それがいまPixel Watch 4のSmart Repliesも、ChromeのWeb要約も、サーバを叩かずに端末内のGemmaが返している。GoogleがこのエッジAIの動きを束ねる基盤として2026年に出し揃えたのがLiteRT-LMだ。本記事はこのオンデバイスAIランタイムの設計と、Googleの外で先行する活用事例を読み解く。
用語の地図──LiteRT-LM・LiteRT・MediaPipe LLM Inference APIを最初に整理する
エッジAI界隈は紛らわしい用語が並ぶので、3つの位置関係を先に整理する。
- LiteRT:オンデバイスML汎用ランタイム。TensorFlow Liteの正統後継で、2026年1月にproduction GA。
- LiteRT-LM:LiteRTの上に乗るLLM特化レイヤ。Apache 2.0、Google製で、2025年9月のC++プレビュー以降に段階的に最適化が乗ってきた。
- MediaPipe LLM Inference API:従来モバイルでLLM呼び出しに使われていた高レベルAPI。Android/iOS実装は段階的に非推奨化されており、Googleは「移行先はLiteRT-LM」と公式に明記する(移行時期は公式ガイドの最新告知を要確認)。
「汎用=LiteRT、LLM特化=LiteRT-LM、旧API=MediaPipe(廃止予告)」を押さえれば以降は迷わない。
EngineとSession──1モデルで複数機能を回す設計
LiteRT-LMの核には2つの概念がある。Engineはアプリ全体で1つだけ常駐し、基盤モデルの重みをメモリに保持する。Sessionは会話・機能ごとに作る軽量インスタンスで、会話履歴、KVキャッシュ(直前の文脈を覚えておく専用メモリ)、LoRA adapter(特定タスク向けの数MBの差分パラメータ)を持つ。
ChromeでWeb要約・返信生成・画像説明を別モデルで持てば数GBのメモリが要る。LiteRT-LMでは基盤モデル1つをEngineが抱え、機能ごとに小さなLoRA adapterだけをSessionに付け替える。Sessionはクローンで複製でき、KVキャッシュは書き込み時だけコピー(Copy-on-Write)で共有。クローンは10ミリ秒未満で済むとGoogleは公開している。
メッセージ1往復の最小例は公式NPUガイドのPythonサンプル通り、驚くほど短い。
import litert_lm
with litert_lm.Engine("path/to/model.litertlm",
backend=litert_lm.Backend.NPU()) as engine:
with engine.create_conversation() as conversation:
reply = conversation.send_message(
"What is the capital of France?"
)
print(reply)
バックエンドをBackend.GPU()またはBackend.CPU()に変えるだけで、CPU・GPU・NPUのいずれでも同じコードが動く。LoRA付け替えとSessionクローンも数行で表せる(以下は概念コード、動作する正確なAPI名はGitHub google-ai-edge/LiteRT-LM の公式examplesを参照)。
with litert_lm.Engine("gemma-4n.litertlm",
backend=litert_lm.Backend.NPU()) as engine:
base = engine.create_conversation()
summary = base.clone() # KV-cacheはCopy-on-Write
summary.attach_adapter("summarizer.lora") # 要約用の差分パラメータ
reply = base.clone()
reply.attach_adapter("reply.lora") # 返信用の別差分パラメータ
基盤モデルは1つ、adapterは数MBずつ、新しいSessionは10ms未満で増えていく。
NPUで100倍速くなる、その裏で起きていること
先にNPU(Neural Processing Unit)を一行で押さえる。行列計算に特化した専用回路で、最近のスマホSoCにCPU・GPUと並んで載るようになった部品だ。AI推論専用に削ぎ落とした分だけ電力効率と速度が伸びる。
Google公式は「NPUはCPU比で最大100倍、GPU比で10倍高速」と公表している。MediaTek共同記事のDimensity 9500搭載Vivo X300 Pro上Gemma 3n E2Bでは「prefill(プロンプト読み込み)1,600 tokens/s、4K context decode(返答生成)28 tokens/s」のベンチも公開されている。
ただし片側の数字だけ見ると判断を誤る。Meta AI ResearchのVikas Chandra氏は、NPUで動くLLMの真の制約はメモリの読み出し帯域だと指摘する。モバイル端末は50〜90 GB/s、データセンタGPUは2〜3 TB/sで、30〜50倍のギャップがデコード速度を支配する。演算力を上げても、毎トークンの重み読み出しが追いつかなければ意味がない──業界横断のEdge AI and Vision Alliance(中立的な業界団体)も2026年のレビューで同趣旨の結論を出している。
LiteRT-LMはここにMulti-Token Prediction(MTP) で答えた。本体の隣に小さな「下書き役」モデルを並走させ、先回りで複数トークンを予測させて当たればまとめて採用する。サーバ側で投機的デコードと呼ばれた手法のモバイル特化版で、Samsung S26 Ultra上のGemma 4でdecode 2.2倍速を達成したとGoogleは公表している。
Googleの外で動いている事例──Argmax × Heidi Healthを中心に
最も濃い実例が、米国スタートアップArgmax Incと、これを採用したオーストラリアの医療AIスクライブHeidi Healthの組み合わせだ。
Argmaxは、LiteRTのAOT(Ahead-Of-Time、実行前に機械語へ変換する方式)コンパイルを活かした「Argmax Pro SDK for Android」を提供する。先端の音声認識モデルを端末で動かし、GPUからNPUへ切り替えると2倍超の速度が出ると同社は公表する。
これを採用したHeidi Healthは、医師の診察を録音して自動でカルテに要約するアプリで「週200万件の診察・年800万時間を医師に返している」(Argmax公式)。端末がロック中の長時間録音でも、遅延はp95で1秒未満を保つ。
ここで一番大きいのは技術指標ではなく、ビジネスモデルが変わったことだ。クラウドAPI型STTの従量制から定額のSDKライセンスへ切り替えたことで、無制限の無料ティアを維持できる構造を手に入れた、とArgmaxは説明する。
医療1社だけでは「業界特殊」に映りかねない。Epic GamesはLiteRT基盤でMetaHumanの顔アニメを端末側30 FPSに乗せ、Google MeetはNPU加速経由でUltra-HDセグメンテーションを「従来比25倍大きい」モデルに拡張しながら推論速度を保つ。共通項は「クラウドへ送らず本番で動かす」を成立させた点だ。
ExecuTorchとの違い──縦に深くか、横にハードウェアを束ねるか
端末側LLMランタイムにはMeta主導のExecuTorchという競合がいる。両者は「同じゴール、違う出自」と捉えると分かりやすい。
ExecuTorchはPyTorchネイティブで、Instagram・WhatsApp・Messenger・Facebook・Meta Ray-Ban Displayといった自社プロダクト群に深く埋め込まれている。2025年10月にv1.0 GA、基本ランタイムが50KBとコンパクトなことでも知られる。
対するLiteRT-LMはLiteRTの上に乗り、PyTorch・TensorFlow・JAXのどれでも変換取り込みできるマルチフレームワーク型。NPUパートナーにGoogle Tensor・MediaTek・Qualcomm・Intelを並べる横断性で勝負する。「縦に深く統合」(Meta)対「横にハードウェアを束ねる」(Google)の対比、と読むのが収まりがいい。
──地ならしの後に残るのは選定の問題
サーバ側はNVIDIA Dynamoが推論を分業化し、エッジAI側ではLiteRT-LMが「億単位の端末で動くオンデバイスAIの基盤」を握った。クラウドAPIのコスト・通信前提・データ越境のどれかで詰まっているなら、PoCに乗せて評価する価値が出てきた段階だ。
ただし採用前に見ておく場所はまだある。.litertlm配布モデルは現状約20種類で、llama.cppやOllamaのGGUF対応モデル100超と比べると狭い。iOS実装は公式で「Early Preview」が続き、NPU acceleration前提なら最新SoCに端末が縛られる。地ならしの先にあるのは技術の輪郭ではなく、もう一段先の選定の問題だ。
参考文献
- Google AI for Developers - LiteRT-LM Overview https://ai.google.dev/edge/litert-lm
- Google AI for Developers - Run LLMs using LiteRT-LM(NPU) https://ai.google.dev/edge/litert/next/litert_lm_npu
- Google AI for Developers - LiteRT Overview https://ai.google.dev/edge/litert/overview
- Google Developers Blog - On-device GenAI in Chrome, Chromebook Plus, and Pixel Watch with LiteRT-LM https://developers.googleblog.com/en/on-device-genai-in-chrome-chromebook-plus-and-pixel-watch-with-litert-lm/
- Google Developers Blog - LiteRT: The Universal Framework for On-Device AI https://developers.googleblog.com/en/litert-the-universal-framework-for-on-device-ai/
- Google Developers Blog - Building real-world on-device AI with LiteRT and NPU https://developers.googleblog.com/en/building-real-world-on-device-ai-with-litert-and-npu/
- Google Developers Blog - Blazing fast on-device GenAI with LiteRT-LM https://developers.googleblog.com/en/blazing-fast-on-device-genai-with-litert-lm/
- Google Developers Blog - MediaTek NPU and LiteRT https://developers.googleblog.com/en/mediatek-npu-and-litert-powering-the-next-generation-of-on-device-ai/
- Google AI Edge - LiteRT-LM GitHub Repository https://github.com/google-ai-edge/LiteRT-LM
- Google AI Edge - AI Edge Gallery GitHub Repository https://github.com/google-ai-edge/gallery
- Google AI for Developers - MediaPipe LLM Inference API https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference
- Engineering at Meta - Accelerating on-device ML on Meta's family of apps with ExecuTorch https://engineering.fb.com/2025/07/28/android/executorch-on-device-ml-meta-family-of-apps/
- Vikas Chandra(Meta AI Research) - On-Device LLMs: State of the Union, 2026 https://v-chandra.github.io/on-device-llms/
- Edge AI and Vision Alliance - On-Device LLMs in 2026: What Changed, What Matters, What's Next https://www.edge-ai-vision.com/2026/01/on-device-llms-in-2026-what-changed-what-matters-whats-next/
- Argmax Blog - Heidi Health AI Scribe Built with Argmax Enterprise https://www.argmaxinc.com/blog/heidi-health-ai-scribe-built-with-argmax-enterprise
- Google Blog - Pixel Watch 4 adds one-handed gestures and enhanced Smart Replies https://blog.google/products/pixel/pixel-watch-4-gestures-smart-reply-updates/
- Grand View Research - Edge AI Market Size, Share & Trends Industry Report 2033 https://www.grandviewresearch.com/industry-analysis/edge-ai-market-report