0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Pixel WatchでLLMを動かすGoogleのLiteRT-LM──オンデバイスAIの新ランタイム

0
Posted at

3年前なら端末内で動くLLMは「おもちゃ」と呼ばれた。それがいまPixel Watch 4のSmart Repliesも、ChromeのWeb要約も、サーバを叩かずに端末内のGemmaが返している。GoogleがこのエッジAIの動きを束ねる基盤として2026年に出し揃えたのがLiteRT-LMだ。本記事はこのオンデバイスAIランタイムの設計と、Googleの外で先行する活用事例を読み解く。

用語の地図──LiteRT-LM・LiteRT・MediaPipe LLM Inference APIを最初に整理する

エッジAI界隈は紛らわしい用語が並ぶので、3つの位置関係を先に整理する。

  • LiteRT:オンデバイスML汎用ランタイム。TensorFlow Liteの正統後継で、2026年1月にproduction GA。
  • LiteRT-LM:LiteRTの上に乗るLLM特化レイヤ。Apache 2.0、Google製で、2025年9月のC++プレビュー以降に段階的に最適化が乗ってきた。
  • MediaPipe LLM Inference API:従来モバイルでLLM呼び出しに使われていた高レベルAPI。Android/iOS実装は段階的に非推奨化されており、Googleは「移行先はLiteRT-LM」と公式に明記する(移行時期は公式ガイドの最新告知を要確認)。

「汎用=LiteRT、LLM特化=LiteRT-LM、旧API=MediaPipe(廃止予告)」を押さえれば以降は迷わない。

EngineとSession──1モデルで複数機能を回す設計

LiteRT-LMの核には2つの概念がある。Engineはアプリ全体で1つだけ常駐し、基盤モデルの重みをメモリに保持する。Sessionは会話・機能ごとに作る軽量インスタンスで、会話履歴、KVキャッシュ(直前の文脈を覚えておく専用メモリ)、LoRA adapter(特定タスク向けの数MBの差分パラメータ)を持つ。

ChromeでWeb要約・返信生成・画像説明を別モデルで持てば数GBのメモリが要る。LiteRT-LMでは基盤モデル1つをEngineが抱え、機能ごとに小さなLoRA adapterだけをSessionに付け替える。Sessionはクローンで複製でき、KVキャッシュは書き込み時だけコピー(Copy-on-Write)で共有。クローンは10ミリ秒未満で済むとGoogleは公開している。

メッセージ1往復の最小例は公式NPUガイドのPythonサンプル通り、驚くほど短い。

import litert_lm

with litert_lm.Engine("path/to/model.litertlm",
                      backend=litert_lm.Backend.NPU()) as engine:
    with engine.create_conversation() as conversation:
        reply = conversation.send_message(
            "What is the capital of France?"
        )
        print(reply)

バックエンドをBackend.GPU()またはBackend.CPU()に変えるだけで、CPU・GPU・NPUのいずれでも同じコードが動く。LoRA付け替えとSessionクローンも数行で表せる(以下は概念コード、動作する正確なAPI名はGitHub google-ai-edge/LiteRT-LM の公式examplesを参照)。

with litert_lm.Engine("gemma-4n.litertlm",
                      backend=litert_lm.Backend.NPU()) as engine:
    base = engine.create_conversation()
    summary = base.clone()                     # KV-cacheはCopy-on-Write
    summary.attach_adapter("summarizer.lora")  # 要約用の差分パラメータ
    reply = base.clone()
    reply.attach_adapter("reply.lora")         # 返信用の別差分パラメータ

基盤モデルは1つ、adapterは数MBずつ、新しいSessionは10ms未満で増えていく。

NPUで100倍速くなる、その裏で起きていること

先にNPU(Neural Processing Unit)を一行で押さえる。行列計算に特化した専用回路で、最近のスマホSoCにCPU・GPUと並んで載るようになった部品だ。AI推論専用に削ぎ落とした分だけ電力効率と速度が伸びる。

Google公式は「NPUはCPU比で最大100倍、GPU比で10倍高速」と公表している。MediaTek共同記事のDimensity 9500搭載Vivo X300 Pro上Gemma 3n E2Bでは「prefill(プロンプト読み込み)1,600 tokens/s、4K context decode(返答生成)28 tokens/s」のベンチも公開されている。

ただし片側の数字だけ見ると判断を誤る。Meta AI ResearchのVikas Chandra氏は、NPUで動くLLMの真の制約はメモリの読み出し帯域だと指摘する。モバイル端末は50〜90 GB/s、データセンタGPUは2〜3 TB/sで、30〜50倍のギャップがデコード速度を支配する。演算力を上げても、毎トークンの重み読み出しが追いつかなければ意味がない──業界横断のEdge AI and Vision Alliance(中立的な業界団体)も2026年のレビューで同趣旨の結論を出している。

LiteRT-LMはここにMulti-Token Prediction(MTP) で答えた。本体の隣に小さな「下書き役」モデルを並走させ、先回りで複数トークンを予測させて当たればまとめて採用する。サーバ側で投機的デコードと呼ばれた手法のモバイル特化版で、Samsung S26 Ultra上のGemma 4でdecode 2.2倍速を達成したとGoogleは公表している。

Googleの外で動いている事例──Argmax × Heidi Healthを中心に

最も濃い実例が、米国スタートアップArgmax Incと、これを採用したオーストラリアの医療AIスクライブHeidi Healthの組み合わせだ。

Argmaxは、LiteRTのAOT(Ahead-Of-Time、実行前に機械語へ変換する方式)コンパイルを活かした「Argmax Pro SDK for Android」を提供する。先端の音声認識モデルを端末で動かし、GPUからNPUへ切り替えると2倍超の速度が出ると同社は公表する。

これを採用したHeidi Healthは、医師の診察を録音して自動でカルテに要約するアプリで「週200万件の診察・年800万時間を医師に返している」(Argmax公式)。端末がロック中の長時間録音でも、遅延はp95で1秒未満を保つ。

ここで一番大きいのは技術指標ではなく、ビジネスモデルが変わったことだ。クラウドAPI型STTの従量制から定額のSDKライセンスへ切り替えたことで、無制限の無料ティアを維持できる構造を手に入れた、とArgmaxは説明する。

医療1社だけでは「業界特殊」に映りかねない。Epic GamesはLiteRT基盤でMetaHumanの顔アニメを端末側30 FPSに乗せ、Google MeetはNPU加速経由でUltra-HDセグメンテーションを「従来比25倍大きい」モデルに拡張しながら推論速度を保つ。共通項は「クラウドへ送らず本番で動かす」を成立させた点だ。

ExecuTorchとの違い──縦に深くか、横にハードウェアを束ねるか

端末側LLMランタイムにはMeta主導のExecuTorchという競合がいる。両者は「同じゴール、違う出自」と捉えると分かりやすい。

ExecuTorchはPyTorchネイティブで、Instagram・WhatsApp・Messenger・Facebook・Meta Ray-Ban Displayといった自社プロダクト群に深く埋め込まれている。2025年10月にv1.0 GA、基本ランタイムが50KBとコンパクトなことでも知られる。

対するLiteRT-LMはLiteRTの上に乗り、PyTorch・TensorFlow・JAXのどれでも変換取り込みできるマルチフレームワーク型。NPUパートナーにGoogle Tensor・MediaTek・Qualcomm・Intelを並べる横断性で勝負する。「縦に深く統合」(Meta)対「横にハードウェアを束ねる」(Google)の対比、と読むのが収まりがいい。

──地ならしの後に残るのは選定の問題

サーバ側はNVIDIA Dynamoが推論を分業化し、エッジAI側ではLiteRT-LMが「億単位の端末で動くオンデバイスAIの基盤」を握った。クラウドAPIのコスト・通信前提・データ越境のどれかで詰まっているなら、PoCに乗せて評価する価値が出てきた段階だ。

ただし採用前に見ておく場所はまだある。.litertlm配布モデルは現状約20種類で、llama.cppやOllamaのGGUF対応モデル100超と比べると狭い。iOS実装は公式で「Early Preview」が続き、NPU acceleration前提なら最新SoCに端末が縛られる。地ならしの先にあるのは技術の輪郭ではなく、もう一段先の選定の問題だ。

参考文献

  1. Google AI for Developers - LiteRT-LM Overview https://ai.google.dev/edge/litert-lm
  2. Google AI for Developers - Run LLMs using LiteRT-LM(NPU) https://ai.google.dev/edge/litert/next/litert_lm_npu
  3. Google AI for Developers - LiteRT Overview https://ai.google.dev/edge/litert/overview
  4. Google Developers Blog - On-device GenAI in Chrome, Chromebook Plus, and Pixel Watch with LiteRT-LM https://developers.googleblog.com/en/on-device-genai-in-chrome-chromebook-plus-and-pixel-watch-with-litert-lm/
  5. Google Developers Blog - LiteRT: The Universal Framework for On-Device AI https://developers.googleblog.com/en/litert-the-universal-framework-for-on-device-ai/
  6. Google Developers Blog - Building real-world on-device AI with LiteRT and NPU https://developers.googleblog.com/en/building-real-world-on-device-ai-with-litert-and-npu/
  7. Google Developers Blog - Blazing fast on-device GenAI with LiteRT-LM https://developers.googleblog.com/en/blazing-fast-on-device-genai-with-litert-lm/
  8. Google Developers Blog - MediaTek NPU and LiteRT https://developers.googleblog.com/en/mediatek-npu-and-litert-powering-the-next-generation-of-on-device-ai/
  9. Google AI Edge - LiteRT-LM GitHub Repository https://github.com/google-ai-edge/LiteRT-LM
  10. Google AI Edge - AI Edge Gallery GitHub Repository https://github.com/google-ai-edge/gallery
  11. Google AI for Developers - MediaPipe LLM Inference API https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference
  12. Engineering at Meta - Accelerating on-device ML on Meta's family of apps with ExecuTorch https://engineering.fb.com/2025/07/28/android/executorch-on-device-ml-meta-family-of-apps/
  13. Vikas Chandra(Meta AI Research) - On-Device LLMs: State of the Union, 2026 https://v-chandra.github.io/on-device-llms/
  14. Edge AI and Vision Alliance - On-Device LLMs in 2026: What Changed, What Matters, What's Next https://www.edge-ai-vision.com/2026/01/on-device-llms-in-2026-what-changed-what-matters-whats-next/
  15. Argmax Blog - Heidi Health AI Scribe Built with Argmax Enterprise https://www.argmaxinc.com/blog/heidi-health-ai-scribe-built-with-argmax-enterprise
  16. Google Blog - Pixel Watch 4 adds one-handed gestures and enhanced Smart Replies https://blog.google/products/pixel/pixel-watch-4-gestures-smart-reply-updates/
  17. Grand View Research - Edge AI Market Size, Share & Trends Industry Report 2033 https://www.grandviewresearch.com/industry-analysis/edge-ai-market-report
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?