オープンソースでものすごい大規模言語モデルキターーと噂のGoogle謹製 Gemma3を試してみました。
参考:https://huggingface.co/blog/gemma3
まずはLLM実行ツール:Ollamaインストール
ローカル環境で大規模言語モデル(LLM)を実行するためのツールだと以下が有名です
- Ollama
- LM Studio
- Llama.cpp
どれを使っても良いですが、セットアップが簡単で、軽量、CUIに抵抗がないので今回はOllamaを使います。
GUIで使いたい場合はLM Studioがいいと思います。M2 MacBook Airでも動きます。
Ollamaの公式サイトからダウンロードして、インストールしてください。ダウンロードしたファイルをクリックするだけで簡単にインストールできるはずです。
インストールの画面を進めていくと、なぜかDeep Sheekを入れるようにお薦めしてくれますが今回は遠慮してそっと閉じます。
インストールができたら、ラマの可愛いアプリアイコンをクリックして起動しておいてください。
Gemma3をダウンロード
早速、Gemma3をダウンロードします。
OllamaのGemma3のページに、ダウンロードのコマンドが載っています。
コピペしてターミナルに貼り付けてダウンロードしましょう。
私は一番軽量なモデルで試したかったので1bを選びました。
ollama pull gemma3:1b
Gemma3は、1B、4B、12B、27Bの4つのモデルサイズがあります。
1Bモデルはテキストのみの処理に対応していますが、4B、12B、27Bはテキストと画像の両方を扱う機能を備えています。
他の方が4bを入れて画像の認識MacBook Airで使って画像認識を試されているので、4bでも良かったかも。
参考:
https://qiita.com/7shi/items/c0255409aa28c1b2e1a0
https://qiita.com/momoooo/items/2a324983dae83bf68bcb
Gemma3を起動
ollama run gemma3:1b
起動したら入力プロンプトが起動するのでいつも通りChatGPTにプロンプトを打ち込むようにしてお使いください。
パーソナル設定もできるみたいですごいですね。1bなのに回答速度も早かったです。
補足:LM Studioで4bを入れてみた。
LM Studioも使ってみようと思い、インストールしてみました。
https://lmstudio.ai/
インストールの手順はOllamaと変わらないです。
なぜかLM StudioもDeep Sheekを最初のモデルとしてお勧めされます。閉じても開き直すと復活するのですが右上にわかりにくい感じでSkipがあったのでそれで華麗にスルーしました。
4bを入れようと思ったのですが、真面目に色々よくみると4bにも色々なモデルがあり、Instruction-Tuned(命令チューニング済み)で、少しで絵も軽量な量子化しているものが良かったのでunsloth/gemma-3-4b-it-GGUFを選択しました。
- LM StudioやOllamaは、llama.cppベースのツールなので、GGUF形式のモデルをそのままロード&実行できるので-GGUFがついているモデル
- Instruction-Tunedの印である-itがついているモデル
モデルの切り替えがしやすいし、モデルの検索や、管理もしやすくてLM Studioも最高ですね。特に動作が不安定になるということもありませんでした。
まだそこまで使っていないので断定はできませんが、1bとの違いはよくわからないです。4bだと画像の判定ができるというところが違うだけでしょうか。
HuggingfaceのサイトでGemma3にレシートを読み込ませていたので、やってみました。
画像の認識で、これぐらい鮮明だと文字の読み取りはパーフェクトでした。すごい。
この後、ナイキのスニーカーの画像を読み取らせていた人がいたので、オニツカタイガーの画像を読み込ませてみましたがアシックスと回答していました。アシックス知ってるんだ。すごい。
回答生成まで5秒程度で、MacBook Airが暑くなる等の問題もなく、Chromeと20個ぐらいタブを開いていても、VS Codeを開いていても挙動に問題はなかったです。
ただ画像の読み取りは鮮明ではない書類だと20秒ぐらいかかるのに間違っていました。
Ollamaは画像の指定をパスで行うのですが、LM Studioだと、画像の指定もぽちぽちするだけなので、楽ですね。