オンデバイスVLM（画像入力LLM）のレシピ

Last updated at 2026-06-05Posted at 2026-06-05

画像を見せて「これ何?」と聞けるAIがあります。
「木製のダイニングテーブルですね。マグカップが2つあって、片方は紅茶のようです」と説明してくれる。Vision Language Model（VLM)と呼ばれています。

画像と言葉をあつかえるVLMは iPhone上で 動かせます。
以下のようにiOSの機能と組み合わせることで、強力な機能を実現できます。

レシピ１：人の説明

レシピ２：AR上での配置

レシピ３：連絡先に登録

こういうAIは、ふつうクラウドのサーバーで動いています。どこかのデータセンターに画像が送られて、処理されて、答えが返ってくる。
でも全部iPhone上だけで実行することもできます。

VLMは万能じゃない

「画像を見せれば、何でも答えてくれそう」ですが、実は意外と苦手なことが多いです。

数えるのが下手。3個くらいまでは合っているけれど、20個並んでいると、正確な数を出すのが苦手。
正確な位置が答えられない。画像のどこにものがあるのか、正確に出すのも苦手。

一方で、iPhone には Apple がずっと前から作ってきた画像処理の機能 が入っています。

Vision — 人の顔を見つける、文字を読む、物体を検出する機能。何年も鍛えられてきた老舗の機能。
ARKit — スマホをかざすと、空間をリアルタイムで認識する仕組み。
LiDAR — iPhone Pro に付いているレーザーセンサー。距離を正確に測れる。
CoreML — 自前のAIモデルを iPhone 上で動かす仕組み。
これらはVLMが苦手な「数える」「位置を返す」「距離を測る」のが得意です。
つまり、VLM と Apple の機能を 組み合わせる と、どちらか単体ではできなかったことが、できるようになる。

VLMKit

開発者向けに、「レシピ」という形でよくある使い方をパッケージしてあります。
コードはほんの数行で済みます。上記のデモの他にも以下のような機能があります。

書類を撮って、自由に質問する

機械の銘板、領収書、契約書、薬の説明書、業務マニュアル。
ページの中の「ラベル: 値」を全部拾い上げます。「型番: XJ-100A」「製造日: 2026-06-01」。
そのあとに、自由文で質問できる。

質問:「保証期間は何年?」

答え:「5年」
根拠:「本製品の保証期間は5年とします」

AIにはしれっと間違うことがあります(「ハルシネーション」と呼ばれます)。VLMKit では、これを避けるために、答えの根拠になった一文を、書類の中から逐語的に引いてくる ことを必須にしてあります。

写真にキャプションをつけて、出てきた物体を指し示す

「木の机にコーヒーとケーキが載っていて、フローラルランプが暖かい光を照らしている部屋の片隅」]

このように説明される画像で、「木の机」「コーヒー」「ケーキ」「ランプ」が、それぞれ 写真のどこにあるか を、ハイライトできます。

レシートを撮ったら、家計簿のデータになる

そのまま CSV にして、Excel や Numbers にそのまま貼れる形で返ってきます。

開発者向けの使い方

Swift Package Manager に、これを足すだけです。

.package(url: "https://github.com/john-rocky/VLMKit", from: "0.1.0")

モデルは初回起動時に Hugging Face からダウンロードされます。

選べるモデル	サイズ	向いている用途
Qwen3-VL-4B (デフォルト)	約 3 GB	精度とサイズのバランス。これで始めるのが無難
Qwen3-VL-8B	約 6 GB	より高精度。16 GB の iPad / M シリーズ Mac
SmolVLM2-500M	約 1 GB	軽量。8 GB の iPhone でも動く

Mac の CLI でも、実機を組まずに試せます。

swift run vlmkit-cli docqa plate.jpg --ask "型番は?"

なぜ「スマホの中で」やる必要があるのか

VLM をクラウド API で使うと、便利だし、速いし、賢い。
ただ、扱えるデータが、限られる。
お客さんの契約書を OpenAI に送る、とは言えない。
患者さんの薬の写真を Google に送る、ともいかない。
経費精算のレシートを、社外サーバーに上げるのも難しい。
「便利な AI を使いたい」「でも、データは外に出せない」。
この板挟みが、これまで業務アプリで AI が広がらなかった、大きな理由のひとつでした。
オンデバイス VLM が解決できるのは、ここです。
データはスマホの中。AIもスマホの中。すべて完結する。

オープンソースで、MIT ライセンス。
github.com/john-rocky/VLMKit
iPhone を持っていて、VLMを試してみたい方はぜひ。

🐣

フリーランスエンジニアです。
VLMを使ったシステムを開発したい方はぜひご連絡ください。

rockyshikoku@gmail.com
X
Medium
GitHub

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

オンデバイスVLM（画像入力LLM） のレシピ