画像を見せて「これ何?」と聞けるAIがあります。
「木製のダイニングテーブルですね。マグカップが2つあって、片方は紅茶のようです」と説明してくれる。Vision Language Model(VLM)と呼ばれています。
画像と言葉をあつかえるVLMは iPhone上で 動かせます。
以下のようにiOSの機能と組み合わせることで、強力な機能を実現できます。
レシピ1:人の説明
レシピ2:AR上での配置
レシピ3:連絡先に登録
こういうAIは、ふつうクラウドのサーバーで動いています。どこかのデータセンターに画像が送られて、処理されて、答えが返ってくる。
でも全部iPhone上だけで実行することもできます。
VLMは万能じゃない
「画像を見せれば、何でも答えてくれそう」ですが、実は意外と苦手なことが多いです。
- 数えるのが下手。3個くらいまでは合っているけれど、20個並んでいると、正確な数を出すのが苦手。
- 正確な位置が答えられない。画像のどこにものがあるのか、正確に出すのも苦手。
一方で、iPhone には Apple がずっと前から作ってきた画像処理の機能 が入っています。
- Vision — 人の顔を見つける、文字を読む、物体を検出する機能。何年も鍛えられてきた老舗の機能。
- ARKit — スマホをかざすと、空間をリアルタイムで認識する仕組み。
- LiDAR — iPhone Pro に付いているレーザーセンサー。距離を正確に測れる。
-
CoreML — 自前のAIモデルを iPhone 上で動かす仕組み。
これらはVLMが苦手な「数える」「位置を返す」「距離を測る」のが得意です。
つまり、VLM と Apple の機能を 組み合わせる と、どちらか単体ではできなかったことが、できるようになる。
VLMKit
開発者向けに、「レシピ」という形でよくある使い方をパッケージしてあります。
コードはほんの数行で済みます。上記のデモの他にも以下のような機能があります。
書類を撮って、自由に質問する
機械の銘板、領収書、契約書、薬の説明書、業務マニュアル。
ページの中の「ラベル: 値」を全部拾い上げます。「型番: XJ-100A」「製造日: 2026-06-01」。
そのあとに、自由文で質問できる。
質問:「保証期間は何年?」
答え:「5年」
根拠:「本製品の保証期間は5年とします」
AIにはしれっと間違うことがあります(「ハルシネーション」と呼ばれます)。VLMKit では、これを避けるために、答えの根拠になった一文を、書類の中から逐語的に引いてくる ことを必須にしてあります。
写真にキャプションをつけて、出てきた物体を指し示す
「木の机にコーヒーとケーキが載っていて、フローラルランプが暖かい光を照らしている部屋の片隅」]
このように説明される画像で、「木の机」「コーヒー」「ケーキ」「ランプ」が、それぞれ 写真のどこにあるか を、ハイライトできます。
レシートを撮ったら、家計簿のデータになる
そのまま CSV にして、Excel や Numbers にそのまま貼れる形で返ってきます。

開発者向けの使い方
Swift Package Manager に、これを足すだけです。
.package(url: "https://github.com/john-rocky/VLMKit", from: "0.1.0")
モデルは初回起動時に Hugging Face からダウンロードされます。
| 選べるモデル | サイズ | 向いている用途 |
|---|---|---|
| Qwen3-VL-4B (デフォルト) | 約 3 GB | 精度とサイズのバランス。これで始めるのが無難 |
| Qwen3-VL-8B | 約 6 GB | より高精度。16 GB の iPad / M シリーズ Mac |
| SmolVLM2-500M | 約 1 GB | 軽量。8 GB の iPhone でも動く |
Mac の CLI でも、実機を組まずに試せます。
swift run vlmkit-cli docqa plate.jpg --ask "型番は?"
なぜ「スマホの中で」やる必要があるのか
VLM をクラウド API で使うと、便利だし、速いし、賢い。
ただ、扱えるデータが、限られる。
お客さんの契約書を OpenAI に送る、とは言えない。
患者さんの薬の写真を Google に送る、ともいかない。
経費精算のレシートを、社外サーバーに上げるのも難しい。
「便利な AI を使いたい」「でも、データは外に出せない」。
この板挟みが、これまで業務アプリで AI が広がらなかった、大きな理由のひとつでした。
オンデバイス VLM が解決できるのは、ここです。
データはスマホの中。AIもスマホの中。すべて完結する。
オープンソースで、MIT ライセンス。
github.com/john-rocky/VLMKit
iPhone を持っていて、VLMを試してみたい方はぜひ。
🐣
フリーランスエンジニアです。
VLMを使ったシステムを開発したい方はぜひご連絡ください。