かつては大規模言語モデルは,メモリを大量に消費し,大量のGPUが必要なため個人レベルで動かすものではありませんでした.しかし,2024年にLlama3 7BやMixtral 8x7b, Phi-3 smallなどChatGPT-3.5レベルの能力を持ち軽量で無料の大規模言語モデルが登場してきました.それだけではなく,これらの大規模言語モデルをコマンド一つでインストールするが出来るようにもなりました.2024年から,大規模言語モデル(対話型人工知能)を自宅で気軽に動かせる時代になったと言えます.
この記事に対話型人工知能をパソコンにインストールする方法とその結果を書きます.
環境
前提としている環境
私は人工知能の研究をしているため,すでにLinux(Debian 12)上でPython3とCUDAが動く環境を整えています.以下の記事はLinuxの使用を前提にしています.
パソコンのスペック
- CPU: Ryzen 5900X
- RAM: 64GB
- GPU: GTX1080Ti x 2枚
Llama3 7BとPhi-3 Miniを動かすのであればGPU1枚で十分です(CPUだけでも動くかも知れません).Llama3 70BとCommand R+は,メモリが64GBより多ければ動くと思われます(確証はありません).
動かすモデル
Llama3とMixtral,Command R+,CodeGemma,Phi-3を動かします.
大規模言語モデルのインストール
Ollamaというツールを使って大規模言語モデルをインストールします.
sudo apt install curl
curl -fsSL https://ollama.com/install.sh | sh
このコマンドでOllamaがインストールされます.
Llama3 7Bを使う場合は,次のコマンドを打ちます.
ollama run llama3
初回は,モデルをダウンロードするので時間がかかります.実効に成功すると,次のような表示となります.
ollama run llama3
>>> Send a message (/? for help)
この表示になれば,ChatGPTと同じように質問を打ち込んでEnterボタンを押すとLlama3 8Bから回答が得られます.このように,極めて簡単に大規模言語モデルをインストールし,使うことができます.
代表的なモデルの実行コマンドをまとめておきます.コマンドは変更の可能性があるので,公式ページも確認してください.実行コマンドのモデル名の後にオプションが無いものやビット数が書かれていないものは基本的に4ビット量子化されたモデルです.
モデル | 実行コマンド |
---|---|
Llama 8B | ollama run llama3 |
Llama 8B (fp16) | ollama run llama3:8b-instruct-fp16 |
Llama 70B | ollama run llama3:70b |
Mixtral 8x7b | ollama run mixtral |
Mixtral 8x7b (q5) | mixtral:8x7b-instruct-v0.1-q5_K_M |
Mixtral 8x22b | ollama run mixtral:8x22b |
Command R+ | ollama run command-r-plus |
CodeGemma | ollama run codegemma |
Phi-3 Mini | ollama run phi3 |
Phi-3 Mini (fp16) | ollama run phi3:3.8b-mini-instruct-4k-fp16 |
また,モデルがアップデートされることがあります.先日もLlama 70Bに不具合がありアップデートされました.そのような場合は,次のコマンドでモデルをアップデートしましょう
ollama pull llama3:70b
実行速度
それぞれのモデルに"Can you tell me about neural networks?"と質問したときの回答速度をまとめておきます.1回の試行しかしていないので,正確ではないかも知れませんが目安にはなるでしょう.
表はeval rateです.実行速度を見ると,Llama3 8BとPhi-3 miniが圧倒的に早いことが分かります.Mixtral 8x7bは,これらに比べ遅いですが十分実用的な速度だと言えます.また,Llama3 8BとPhi-3 mini量子化されていないfp16バージョンも十分早く,ゲーミングPCなどでこれらを動かす場合は量子化バージョンを使う必要はないでしょう. Mixtral 8x7bは5ビット量子化版は速いですが,6ビット量子化版はllama3 70Bの4ビット量子化版と同程度のスピードです.
Llama3 70Bは遅いですが,使えなくは無いでしょう.Lamma3 70Bは性能がClaude3 Sonnetと同レベルと言われていますので,それを考えれば,この遅さも我慢できるのではないでしょうか.
Code生成に特化したCodeGemmaも高速に動作します.これもfp16版でも高速に動作しますので,より高速化したいという要望が無い限り量子化版を使う必要な無いでしょう.
model | eval rate (tokens/s) |
---|---|
Llama3 8B | 51.71 |
Llama3 8B (fp16) | 20.96 |
Llama3 70B | 1.85 |
Mixtral 8x7b | 14.29 |
Mixtral 8x7b (q5) | 9.15 |
Mixtral 8x7b (q6) | 1.71 |
Mixtral 8x22b | - |
Command R+ | 0.92 |
Phi-3 Mini | 79.75 |
Phi-3 Mini (fp16) | 37.55 |
deepseek-coder:6.7b (fp16) | 23.94 |
CodeGemma | 48.64 |
CodeGemma (fp16) | 18.45 |
モデルのサイズ,実行時のメモリー使用率,CPU使用率
モデルのサイズ,実行時のメモリー使用率,CPU使用率の一覧です.メモリ使用率とCPU使用率は,先と同様に"Can you tell me about neural networks?"と質問したとき,モデルが回答を生成しているときのものです.この結果と先の生成速度を見ると,GPUのメモリが足りずメインメモリ(RAM)を使うモデルは,劇的に低速になることが分かります.これは効率的にGPUで計算できていないためではないでしょうか(正確なところはollamaの仕組みを理解しないと分かりませんが).**この結果から,モデルがGPUのメモリに乗りさえすれば古いGPUでも十分高速に動作することが分かります。**そして,GPUのメモリを増やすことが重要である事も分かります.より多くのメモリを搭載したGPUを使えば,Llama3 70BとMixtral 8x7bは今回測定された速度より遥かに高速に動作するかも知れません.また,Mixtral 8x22bでは少量のスワップが発生してしまい実用的でない速度になることが予想されるため計測しませんでした.
モデル | サイズ | GPU1 RAM | GPU2 RAM | RAM | GPU1 | GPU2 | CPU |
---|---|---|---|---|---|---|---|
Llama3 8B | 4.7GB | 22.9% | 25.2% | 1.8% | 40%台 | 40%台 | 100% |
Llama3 70B | 40GB | 99.5% | 88.8% | 61.1% | たまに20%台 | たまに20%台 | 1085% |
Mixtral 8x7b | 26GB | 93.8% | 88.1% | 11.3% | 10%台 | 10%台 | 835% |
Mixtral 8x22b | 80GB | - | - | スワップが発生 | - | - | - |
Command R+ | 59GB | 96.7% | 74.3% | 89.9% | たまに10%台 | たまに10%台 | 1124% |
CodeGemma | 5GB | 27.6% | 33.4% | 2.2% | 40%台 | 40%台 | 100% |
Phi-3 Mini | 2.3GB | 17.3% | 16.5% | 1.2% | 40%台 | 40%台 | 100% |
感想
ChatGPT3.5と同等(ベンチマークでは),それ以上の大規模言語モデルが自宅のパソコンで動く時代となりました.特に,Llama3 8BとPhi-3は軽量で高速な動作です.これら比較的小さなモデルならGPUが1枚あれば自宅でも高速に動作すると思われます.RTX3060の12GB版を1枚買えば安価にローカルLLMを楽しめることでしょう.
オープンなモデルの日本語の能力は未知数ですが,ベンチマークを見る限り英語での使用に関してはかなり有用ではないかと思われます.英語だけでの使用かつ用途が限られているのならば,ChatGPTやClaude3などのサブスクリプションを契約する必要は無い時代が来たかも知れません.
高速で高性能なモデルが無料で手に入る時代になると,いかにそれを活かすかが我々に問われることになります.
また,OpenAIなどは無料のモデルに対し,どのような優位性を提示できるか興味深いです.オープンなモデルの性能が向上すると,高性能なモデルを提供するビジネスモデルはなくなり,計算資源を提供するビジネスモデルが生き残るかもしれません(すでに2024年4月の段階でそうなっていると言えるかも知れません.巨大なモデルは自宅では動かないので,ChatGPTなどを使うということは巨大なモデルが動くコンピュータを借りていると言えます.).