ローカルでLLMを構築したい
2024年6月にAIエキスポに行ってきました。
チャットGPUブームが起きてからずいぶん経つのでローカルでLLMを構築してくれるサービスはないものかと思いながら見て回りましたが、クラウドでの構築というのがほとんどで、ローカルでLLMを構築してくれる業者は見つかりませんでした。
同僚にそんなことを話していたら、すでに簡単に構築する方法があることを教えてもらいました。すでにたくさんの記事が出ていますが自分のためにメモとして記録します。
インストール
- OllamaのページのトップページにあるダウンロードからDownload for Windows (Preview)を選んでダウンロードします。
- OllamaSetup.exe を実行して適当に進んでいくとインストールが完了します。
2.1 proxy環境の人はインストール前にWindowsの環境変数にproxy情報を設定しておく必要があります。環境変数変更後は再起動が必要かもしれません。
2.2 「環境変数」を呼び出して「新規」で変数名「http_proxy」、変数値「192.168.x.x:8080(など、実行環境に合わせて変更)」と設定します。同様に「https_proxy」も設定します。 - コマンドラインで ollama run llama3 などと入力するとllama3が動き出します。
使えるモデルはOllamaのページのModelsのリンクさきに掲載されています。
GPUを使えるようにする
意外と詰まったのでメモしておきます。
上記のインストールだけだとOllamaはGPUを使ってくれないかもしれません。
私の環境ではNVIDIA GeForce GTX1650が刺さっていたのですがドライバなど何もインストールしていなかったので(汗)GPUが全く使われていませんでした。1からインストールしていきます。
-
NVIDIA 公式ドライバのダウンロードのページから自分の環境にあったドライバをダウンロードしてインストールします。
私の環境ではNVIDIA GeForce GTX1650なので「GeForce」→「GeForce GTX16 Series (Notebookx)」(PCはデスクトップだったのですがnotebooksという選択肢しかなかったのであえてこれを選択)→「GeForce GTX 1650」→「Windows 11」→ 「Jpanese」→探す、で「NVIDIA Studio ドライバー」をダウンロードしてみました。 - 次にはかな鳥さんの記事を参考にして「Build Tools for Visual Studio」のインストール、「CUDA Toolkit」のインストールを行い再起動しました。
GPUの使われ方
ここまでのインストールでGPUが使えるようになりました。
試しに「こんばんは、暑いですね」と打ち込んでみたところGPU使用率は20%程度どまりで、CPUが100%近く動いています。なんで?と思って次に以前書いた私のQiitaの記事を読ませたところ、今度はGPUがしばらくの間100%に張り付いてくれました。
どうやら、入力を理解しようとするときにGPUが使われ、文書を生成するときにはCPUが使われているみたいです。
とりあえず今晩はここまで
同僚はOllamaのライブラリにないLLMモデルを使えるようにしたり、LLMのチューニングをしたりしていますが、私が今理解しているのはここまでです。
機会があればこの記事を更新してゆきます。
おやすみなさい。