はじめに
2026年2月、中国のAI企業Z.ai(旧称: Zhipu AI / 智谱AI)がオープンソースLLM「GLM-5」をリリースしました。744Bパラメータ(MoE構成、40Bアクティブ)という大規模モデルでありながら、MITライセンスで公開されており、LMArenaやArtificial Analysisのオープンモデルランキングで1位を獲得しています。
この記事では、GLM-5のアーキテクチャ、ベンチマーク性能、API利用方法、セルフホスティング手順をまとめます。
この記事で学べること
- GLM-5のモデルアーキテクチャと技術的特徴
- 主要ベンチマークでの性能と既存モデルとの比較
- Z.ai APIおよびOpenRouterを使ったGLM-5の利用方法
- セルフホスティング(vLLM / SGLang)の構成例
対象読者
- LLMの最新動向を把握したいエンジニア
- オープンソースLLMの導入を検討している方
- APIコスト最適化に関心がある方
TL;DR
- GLM-5は744B MoE / 40Bアクティブパラメータのオープンソースモデル(MITライセンス)
- SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル1位
- Huawei Ascend 910B×100,000台で訓練(NVIDIAチップ不使用)
- API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト競争力が高い
GLM-5のアーキテクチャ
Mixture of Experts(MoE)構成
GLM-5は、前世代のGLM-4.xシリーズ(355B総パラメータ / 32Bアクティブ)からスケールアップしたMoEモデルです。
| 項目 | GLM-4.xシリーズ | GLM-5 |
|---|---|---|
| 総パラメータ | 355B | 744B |
| アクティブパラメータ | 32B | 40B |
| 事前学習データ | 23Tトークン | 28.5Tトークン |
| コンテキストウィンドウ | 128K | 200K |
| 最大出力トークン | 64K | 128K |
| ライセンス | MIT | MIT |
MoE(Mixture of Experts)とは、入力に応じて一部のパラメータ(エキスパート)のみを活性化する手法です。744Bの総パラメータのうち、推論時には約40Bのみが使われるため、計算コストを抑えながら大規模モデルの表現力を維持できます。
DeepSeek Sparse Attention(DSA)
GLM-5はDeepSeek Sparse Attention(DSA)を統合しています。DSAは、長いコンテキストを処理する際のメモリ使用量と計算量を削減するアテンション機構です。200Kトークンのコンテキストウィンドウを、フルアテンションと比較して大幅に少ないコストで処理できます。
コンテキストウィンドウは段階的に拡張されており、事前学習中に32K(1Tトークン)→ 128K(500Bトークン)→ 200K(50Bトークン)の3段階で延伸されています。
Slime:非同期強化学習基盤
GLM-5のポストトレーニングでは、「Slime」と呼ばれる非同期RL(強化学習)基盤が採用されています。Slimeは訓練のスループットと効率を向上させ、より細粒度のポストトレーニングイテレーションを可能にします。公式の報告によると、この手法によりハルシネーション率が大幅に低減されています。
Huawei Ascend 910Bによる訓練
GLM-5の訓練は、Huawei Ascend 910Bプロセッサ100,000台のクラスタで実施されました。NVIDIAのGPUは一切使用されていません。
- チップ: Huawei Ascend 910B(HiSilicon設計、SMIC製造、7nmプロセス)
- フレームワーク: MindSpore(Huaweiのオープンソース深層学習フレームワーク)
- 最適化: 動的グラフ多段パイプラインデプロイメント、Ascendアーキテクチャ専用の高性能フュージョンオペレータ
100,000台のAscendチップを協調させて28.5Tトークンの訓練を完遂するため、Z.aiはカスタム最適化技術を開発しています。
ベンチマーク性能
GLM-5は複数の主要ベンチマークでオープンモデル1位を記録しています。以下は公式発表に基づく数値です。
コーディング
| ベンチマーク | GLM-5 | 備考 |
|---|---|---|
| SWE-bench Verified | 77.8% | オープンモデル最高スコア。OpenHands + 専用プロンプトで実行 |
| Terminal-Bench 2.0 | 56.2 | オープンモデル最高スコア |
SWE-bench Verifiedは、GitHubの実際のIssue解決能力を測定するベンチマークです。合成的なコーディング問題ではなく、現実のソフトウェアエンジニアリングタスクを評価する指標として注目されています。
推論・数学
| ベンチマーク | GLM-5 | 備考 |
|---|---|---|
| AIME 2026 | 92.7% | 高校数学競技の最難関ベンチマーク |
| GPQA-Diamond | 86.0% | 大学院レベルの科学的推論 |
総合ランキング
| ランキング | 順位 |
|---|---|
| LMArena Text Arena(オープンモデル) | 1位(レーティング1451) |
| Artificial Analysis(オープンモデル) | 1位 |
公式の報告では、GLM-5はClaude Opus 4.5とソフトウェアエンジニアリングタスクにおいて同等の性能を達成したとされています。
API利用方法
GLM-5はZ.ai公式API、OpenRouter、Together AIなど複数のプロバイダから利用できます。
価格比較
| プロバイダ | 入力(/1Mトークン) | 出力(/1Mトークン) | キャッシュ入力 |
|---|---|---|---|
| Z.ai API | $1.00 | $3.20 | $0.20 |
| OpenRouter | $0.80〜$1.00 | $2.56〜$3.20 | - |
Z.ai APIを使った基本的な利用例
Z.ai APIはOpenAI互換のエンドポイントを提供しており、openai Pythonパッケージで利用可能です。
from openai import OpenAI
client = OpenAI(
api_key="YOUR_ZAI_API_KEY",
base_url="https://api.z.ai/api/paas/v4"
)
response = client.chat.completions.create(
model="glm-5",
messages=[
{"role": "system", "content": "あなたは優秀なソフトウェアエンジニアです。"},
{"role": "user", "content": "Pythonでフィボナッチ数列のメモ化実装を書いてください。"}
],
max_tokens=4096,
temperature=0.7
)
print(response.choices[0].message.content)
思考モード(Thinking)の有効化
GLM-5は思考モードをサポートしています。推論タスクでは有効化することで精度が向上します。
response = client.chat.completions.create(
model="glm-5",
messages=[
{"role": "user", "content": "123456789の素因数分解を求めてください。"}
],
extra_body={
"thinking": {"type": "enabled"}
},
max_tokens=8192
)
OpenRouterを経由した利用
OpenRouterを使えば、APIキーの統一管理が可能です。
from openai import OpenAI
client = OpenAI(
api_key="YOUR_OPENROUTER_KEY",
base_url="https://openrouter.ai/api/v1"
)
response = client.chat.completions.create(
model="z-ai/glm-5",
messages=[
{"role": "user", "content": "Rustで安全なHTTPクライアントを実装する方法を解説してください。"}
]
)
セルフホスティング
GLM-5はMITライセンスのため、商用利用を含むセルフホスティングが可能です。量子化版のGLM-5-FP8を使うことで、必要なGPUメモリを削減できます。
推奨ハードウェア
| 構成 | モデル | GPU要件 |
|---|---|---|
| FP8量子化 | GLM-5-FP8 | NVIDIA H100 / H200 × 8(テンソル並列) |
| BF16フル精度 | GLM-5 | NVIDIA H100 × 16以上 |
vLLMによるデプロイ
pip install vllm
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85
起動後、OpenAI互換のAPIエンドポイント(http://localhost:8000/v1)が利用可能になります。
SGLangによるデプロイ
pip install sglang
python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--mem-fraction-static 0.85
SGLangは投機的デコーディング(Speculative Decoding)をサポートしており、推論速度の高速化が期待できます。
Ascend NPU対応
Huawei Ascend NPUを持つ環境では、KTransformersまたはxLLMフレームワークによるデプロイも可能です。
Ollamaによるローカル実行
OllamaではGLM-5のクラウド推論版(glm-5:cloud)が提供されています。
ollama run glm-5
744Bパラメータモデルの完全なローカル実行には数百GBのメモリが必要なため、ローカルで本格的に利用する場合はvLLMまたはSGLangでのFP8デプロイが推奨されます。
主要モデルとの比較
GLM-5をフロンティアモデルおよび主要なオープンモデルと比較します。
| 項目 | GLM-5 | Llama 4 Scout | Claude Opus 4.6 |
|---|---|---|---|
| パラメータ | 744B MoE / 40B Active | 109B MoE | 非公開 |
| コンテキスト | 200K | 10M | 200K |
| SWE-bench | 77.8% | 非公開 | 非公開 |
| AIME 2026 | 92.7% | 非公開 | 非公開 |
| ライセンス | MIT | Llama License | プロプライエタリ |
| API入力価格 | $1.00/1M | $0.11/1M(Groq) | $5.00/1M |
| 特記事項 | Huawei Ascend訓練 | 超高速推論 | 最高品質 |
GLM-5はオープンモデルとしてはSWE-benchで突出した性能を示していますが、プロプライエタリモデル(GPT-5.4、Claude Opus 4.6)との直接比較では、タスクの種類によって結果が異なります。公式はClaude Opus 4.5とソフトウェアエンジニアリングタスクで同等の性能と報告していますが、各ユースケースでの検証が推奨されます。
地政学的インパクト
GLM-5が注目される理由の一つは、NVIDIAチップへの依存なしで訓練されたフロンティアモデルである点です。
米国の対中国半導体輸出規制(2022年〜)により、中国企業はNVIDIA A100 / H100などの高性能GPUの入手が制限されています。GLM-5はHuawei Ascend 910B(7nmプロセス、SMIC製造)のみを使用し、MindSporeフレームワーク上でカスタム最適化を施すことで、この制約を克服しています。
この実績は、「NVIDIAなしでフロンティアAIモデルの訓練は可能か?」という問いに対する一つの回答といえます。
まとめ
- GLM-5は744B MoE / 40Bアクティブの大規模オープンソースLLM(MITライセンス)
- SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル最高性能
- Huawei Ascend 910B×100,000台のみで訓練され、NVIDIAチップ不使用
- Z.ai API、OpenRouter、セルフホスティング(vLLM / SGLang)で利用可能
- API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト効率が高い
GLM-5はオープンソースLLMの性能限界を更新するモデルです。コーディング・推論タスクを中心に、商用利用可能なMITライセンスという点でも注目に値します。



