5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Windows/Radeon での Ollama のサポート状況

Last updated at Posted at 2024-11-12

Ollama は Windows での Radeon GPU をサポートしていますが、ドライバのリビジョンによっては不具合があります。日本語情報が見当たらないため、メモを残しておきます。

概要

Ollama はローカルで LLM を動かすためのマルチプラットフォーム対応アプリケーションです。

Windows 用に配布されているバイナリでは、NVIDIA だけでなく AMD の GPU もサポートされています。

AMD 公式で提供されている HIP SDK でサポートされている GPU で動きます。

未対応の GPU は動作保証がないだけでなく、そもそも認識しません。

APU 内蔵 GPU (iGPU) は対象外です。

ただし、iGPU の Radeon 780M には非公式パッチが存在します。(無保証)

本記事の最後に動作速度の比較を掲載しています。

ドライバ

一部のリビジョンのドライバには不具合があります。Adrenalin 24.12.1 以降の最新ドライバをご利用ください。

Adrenalin 24.9.1 と 24.10.1 には既知の不具合があります。

具体的には、hipMalloc() で 4GB 以上のメモリを確保しようとすると共有 GPU メモリに割り当てられてしまい、動作速度が 1/10 以下になります。

ドライバのインストール後、HIP SDK 6.1.2 をインストールしてください。

インストールされていれば、特に設定しなくても Ollama は自動的に認識します。

動作速度

参考までに、以下の環境での CPU と GPU での動作速度を比較します。

  • OS: Windows 11 [10.0.22631]
  • RAM: 32GB
  • CPU: AMD Ryzen 5 5600X 6-Core Processor
  • GPU: AMD Radeon RX 7600 XT (VRAM 16GB)

ベンチマーク上、Radeon RX 7600 XT は GeForce RTX 3060 とほぼ同性能のようです。

  • LLM: gemma2:27b-instruct-*
  • Prompt: AIの未来を予測してください。
  • 計測対象: eval rate (tps)
量子化 CPU GPU
Q4_K_S 2.40 7.94
Q4_K_M 2.27 6.87
IQ3_S 1.41 10.97

表中の数字は tps(tokens per second: 1 秒間のトークン生成数)で、数字が大きいほど高速です。Ollama で /set verbose とすれば取得できます。

速度だけに注目すれば、CPU では Q4_K_S、GPU では IQ3_S が良さそうです。

IQ3_S は計算量が多いため CPU では遅くなりますが、GPU では VRAM 使用量が約 14.5GB で 16GB 以内に収まるため高速に動きます。Q4_K_S/M は VRAM 16GB に収まらないため遅くなります。

Q4_K_S/M は Ollama 公式で提供されています。

ollama run gemma2:27b-instruct-q4_K_S
ollama run gemma2:27b-instruct-q4_K_M

IQ3_S は以下で公開されている GGUF を使用しました。

ollama run hf.co/grapevine-AI/gemma-2-27b-it-gguf:IQ3_S

量子化の種別については以下の記事を参照してください。横軸がサイズ、縦軸がエラー率です。Q4_K_M のバランスが良いため標準的に使われていますが、メモリに収まらないときは iMatrix 系列 (IQ*) でギリギリの線を狙うことになります。

S/M/L というのは服やドリンクのサイズと同じ意味です。XL はありませんが、XS や XXS があります。

生成例 > AIの未来を予測してください。

AIの未来は、非常にエキサイティングで、同時に複雑なものになると私は考えています。

ポジティブな側面:

  • 様々な分野でのイノベーション加速: AIは、医療、教育、科学技術など、あらゆる分野で画期的な進歩をもたらす可能性があります。病気の診断や治療、個別最適化された学習、新たな材料の発見など、人間の能力を拡張し、社会全体の課題解決に貢献するでしょう。
  • 生産性向上と効率化: 自動化技術の進化により、単純作業から複雑なデータ分析まで、多くのタスクがAIによって効率的に処理されるようになります。これにより、人々はより創造的な仕事や人間関係に時間を使うことができ、生活の質が向上すると期待されます。
  • パーソナライズされたサービス: AIは個々のニーズに合わせてカスタマイズされた製品やサービスを提供できるようになり、人々の生活をより便利で快適にするでしょう。

懸念される側面:

  • 雇用への影響: 自動化によって、多くの仕事がAIに置き換えられる可能性があります。新たな雇用の創出も期待されますが、社会全体の雇用構造の変化は、経済や社会不安をもたらす可能性もあります。
  • 倫理的な問題: AIの意思決定の透明性や公平性、プライバシー保護など、倫理的な課題も浮上しています。AIの開発と利用において、人間の価値観を尊重し、責任ある開発が不可欠です。
  • 悪用リスク: AI技術は、兵器開発や監視社会の実現など、悪用に利用される可能性もあります。国際的な協力体制を構築し、AIの倫理的な使用に関するルール作りが必要です。

結論:

AIは大きな可能性を秘めていますが、同時に多くの課題も抱えています。AIの未来をより良いものにするためには、技術開発だけでなく、社会的な議論や制度設計も重要です。

私は、人間とAIが協力し、互いに補完することで、より明るい未来を創造できると信じています。

GeForce や iGPU との比較

@A-Uta さんのご協力でパフォーマンス調査を行いました。

環境 詳細 備考
4060 Ti NVIDIA GeForce RTX 4060 Ti VRAM 16GB
7600 XT AMD Radeon RX 7600 XT VRAM 16GB
780M AMD Radeon 780M iGPU, UMA LPDDR5-6400 4+14GB
7840HS AMD Ryzen 7 7840HS APU 8-Core 3.80GHz, LPDDR5-6400 32GB
5600X AMD Ryzen 5 5600X CPU 6-Core 3.70GHz, DDR4-3200 32GB
  • Prompt: AIの未来を予測してください。(100字)
  • 計測対象: eval rate (tps)
モデル 4060 Ti 7600 XT 780M 7840HS 5600X
Gemma 2 2B (Q4_K_M) 98.82 74.34 32.98 22.56 20.86
Gemma 2 9B (Q4_K_M) 37.96 29.32 9.20 7.46 6.73
Gemma 2 27B (IQ3_S) 19.77 10.59 2.85 2.53 1.78

GeForce を WSL2 からパススルーで使用すると、2B の速度がダウンするようです。

モデル コマンド
Gemma 2 2B (Q4_K_M) ollama run gemma2:2b-instruct-q4_K_M
Gemma 2 9B (Q4_K_M) ollama run gemma2:9b-instruct-q4_K_M
Gemma 2 27B (IQ3_S) ollama run hf.co/grapevine-AI/gemma-2-27b-it-gguf:IQ3_S

関連記事

Intel Arc A770 との比較があります。

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?