0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

オンデバイスVLM(画像入力LLM) のレシピ

0
Last updated at Posted at 2026-06-05

画像を見せて「これ何?」と聞けるAIがあります。
「木製のダイニングテーブルですね。マグカップが2つあって、片方は紅茶のようです」と説明してくれる。Vision Language Model(VLM)と呼ばれています。

画像と言葉をあつかえるVLMiPhone上で 動かせます。
以下のようにiOSの機能と組み合わせることで、強力な機能を実現できます。

レシピ1:人の説明

レシピ2:AR上での配置

レシピ3:連絡先に登録

こういうAIは、ふつうクラウドのサーバーで動いています。どこかのデータセンターに画像が送られて、処理されて、答えが返ってくる。
でも全部iPhone上だけで実行することもできます。


VLMは万能じゃない

「画像を見せれば、何でも答えてくれそう」ですが、実は意外と苦手なことが多いです。

  • 数えるのが下手。3個くらいまでは合っているけれど、20個並んでいると、正確な数を出すのが苦手。
  • 正確な位置が答えられない。画像のどこにものがあるのか、正確に出すのも苦手。

一方で、iPhone には Apple がずっと前から作ってきた画像処理の機能 が入っています。

  • Vision — 人の顔を見つける、文字を読む、物体を検出する機能。何年も鍛えられてきた老舗の機能。
  • ARKit — スマホをかざすと、空間をリアルタイムで認識する仕組み。
  • LiDAR — iPhone Pro に付いているレーザーセンサー。距離を正確に測れる。
  • CoreML — 自前のAIモデルを iPhone 上で動かす仕組み。
    これらはVLMが苦手な「数える」「位置を返す」「距離を測る」のが得意です。
    つまり、VLM と Apple の機能を 組み合わせる と、どちらか単体ではできなかったことが、できるようになる。

VLMKit

開発者向けに、「レシピ」という形でよくある使い方をパッケージしてあります。
コードはほんの数行で済みます。上記のデモの他にも以下のような機能があります。

書類を撮って、自由に質問する

機械の銘板、領収書、契約書、薬の説明書、業務マニュアル。
ページの中の「ラベル: 値」を全部拾い上げます。「型番: XJ-100A」「製造日: 2026-06-01」。
そのあとに、自由文で質問できる。

質問:「保証期間は何年?」

答え:「5年」
根拠:「本製品の保証期間は5年とします」

AIにはしれっと間違うことがあります(「ハルシネーション」と呼ばれます)。VLMKit では、これを避けるために、答えの根拠になった一文を、書類の中から逐語的に引いてくる ことを必須にしてあります。

写真にキャプションをつけて、出てきた物体を指し示す

「木の机にコーヒーとケーキが載っていて、フローラルランプが暖かい光を照らしている部屋の片隅」]

このように説明される画像で、「木の机」「コーヒー」「ケーキ」「ランプ」が、それぞれ 写真のどこにあるか を、ハイライトできます。

レシートを撮ったら、家計簿のデータになる

そのまま CSV にして、Excel や Numbers にそのまま貼れる形で返ってきます。


開発者向けの使い方

Swift Package Manager に、これを足すだけです。

.package(url: "https://github.com/john-rocky/VLMKit", from: "0.1.0")

モデルは初回起動時に Hugging Face からダウンロードされます。

選べるモデル サイズ 向いている用途
Qwen3-VL-4B (デフォルト) 約 3 GB 精度とサイズのバランス。これで始めるのが無難
Qwen3-VL-8B 約 6 GB より高精度。16 GB の iPad / M シリーズ Mac
SmolVLM2-500M 約 1 GB 軽量。8 GB の iPhone でも動く

Mac の CLI でも、実機を組まずに試せます。

swift run vlmkit-cli docqa plate.jpg --ask "型番は?"

なぜ「スマホの中で」やる必要があるのか

VLM をクラウド API で使うと、便利だし、速いし、賢い。
ただ、扱えるデータが、限られる。
お客さんの契約書を OpenAI に送る、とは言えない。
患者さんの薬の写真を Google に送る、ともいかない。
経費精算のレシートを、社外サーバーに上げるのも難しい。
「便利な AI を使いたい」「でも、データは外に出せない」。
この板挟みが、これまで業務アプリで AI が広がらなかった、大きな理由のひとつでした。
オンデバイス VLM が解決できるのは、ここです。
データはスマホの中。AIもスマホの中。すべて完結する。


オープンソースで、MIT ライセンス。
github.com/john-rocky/VLMKit
iPhone を持っていて、VLMを試してみたい方はぜひ。

🐣

フリーランスエンジニアです。
VLMを使ったシステムを開発したい方はぜひご連絡ください。

rockyshikoku@gmail.com
X
Medium
GitHub

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?