GLM-5入門 — Huaweiチップで訓練された最強オープンソースLLMの全貌

Last updated at 2026-03-08Posted at 2026-03-08

はじめに

2026年2月、中国のAI企業Z.ai（旧称: Zhipu AI / 智谱AI）がオープンソースLLM「GLM-5」をリリースしました。744Bパラメータ（MoE構成、40Bアクティブ）という大規模モデルでありながら、MITライセンスで公開されており、LMArenaやArtificial Analysisのオープンモデルランキングで1位を獲得しています。

この記事では、GLM-5のアーキテクチャ、ベンチマーク性能、API利用方法、セルフホスティング手順をまとめます。

この記事で学べること

GLM-5のモデルアーキテクチャと技術的特徴
主要ベンチマークでの性能と既存モデルとの比較
Z.ai APIおよびOpenRouterを使ったGLM-5の利用方法
セルフホスティング（vLLM / SGLang）の構成例

対象読者

LLMの最新動向を把握したいエンジニア
オープンソースLLMの導入を検討している方
APIコスト最適化に関心がある方

TL;DR

GLM-5は744B MoE / 40Bアクティブパラメータのオープンソースモデル（MITライセンス）
SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル1位
Huawei Ascend 910B×100,000台で訓練（NVIDIAチップ不使用）
API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト競争力が高い

GLM-5のアーキテクチャ

Mixture of Experts（MoE）構成

GLM-5は、前世代のGLM-4.xシリーズ（355B総パラメータ / 32Bアクティブ）からスケールアップしたMoEモデルです。

項目	GLM-4.xシリーズ	GLM-5
総パラメータ	355B	744B
アクティブパラメータ	32B	40B
事前学習データ	23Tトークン	28.5Tトークン
コンテキストウィンドウ	128K	200K
最大出力トークン	64K	128K
ライセンス	MIT	MIT

MoE（Mixture of Experts）とは、入力に応じて一部のパラメータ（エキスパート）のみを活性化する手法です。744Bの総パラメータのうち、推論時には約40Bのみが使われるため、計算コストを抑えながら大規模モデルの表現力を維持できます。

DeepSeek Sparse Attention（DSA）

GLM-5はDeepSeek Sparse Attention（DSA）を統合しています。DSAは、長いコンテキストを処理する際のメモリ使用量と計算量を削減するアテンション機構です。200Kトークンのコンテキストウィンドウを、フルアテンションと比較して大幅に少ないコストで処理できます。

コンテキストウィンドウは段階的に拡張されており、事前学習中に32K（1Tトークン）→ 128K（500Bトークン）→ 200K（50Bトークン）の3段階で延伸されています。

Slime：非同期強化学習基盤

GLM-5のポストトレーニングでは、「Slime」と呼ばれる非同期RL（強化学習）基盤が採用されています。Slimeは訓練のスループットと効率を向上させ、より細粒度のポストトレーニングイテレーションを可能にします。公式の報告によると、この手法によりハルシネーション率が大幅に低減されています。

Huawei Ascend 910Bによる訓練

GLM-5の訓練は、Huawei Ascend 910Bプロセッサ100,000台のクラスタで実施されました。NVIDIAのGPUは一切使用されていません。

チップ: Huawei Ascend 910B（HiSilicon設計、SMIC製造、7nmプロセス）
フレームワーク: MindSpore（Huaweiのオープンソース深層学習フレームワーク）
最適化: 動的グラフ多段パイプラインデプロイメント、Ascendアーキテクチャ専用の高性能フュージョンオペレータ

100,000台のAscendチップを協調させて28.5Tトークンの訓練を完遂するため、Z.aiはカスタム最適化技術を開発しています。

ベンチマーク性能

GLM-5は複数の主要ベンチマークでオープンモデル1位を記録しています。以下は公式発表に基づく数値です。

コーディング

ベンチマーク	GLM-5	備考
SWE-bench Verified	77.8%	オープンモデル最高スコア。OpenHands + 専用プロンプトで実行
Terminal-Bench 2.0	56.2	オープンモデル最高スコア

SWE-bench Verifiedは、GitHubの実際のIssue解決能力を測定するベンチマークです。合成的なコーディング問題ではなく、現実のソフトウェアエンジニアリングタスクを評価する指標として注目されています。

推論・数学

ベンチマーク	GLM-5	備考
AIME 2026	92.7%	高校数学競技の最難関ベンチマーク
GPQA-Diamond	86.0%	大学院レベルの科学的推論

総合ランキング

ランキング	順位
LMArena Text Arena（オープンモデル）	1位（レーティング1451）
Artificial Analysis（オープンモデル）	1位

公式の報告では、GLM-5はClaude Opus 4.5とソフトウェアエンジニアリングタスクにおいて同等の性能を達成したとされています。

API利用方法

GLM-5はZ.ai公式API、OpenRouter、Together AIなど複数のプロバイダから利用できます。

価格比較

プロバイダ	入力（/1Mトークン）	出力（/1Mトークン）	キャッシュ入力
Z.ai API	$1.00	$3.20	$0.20
OpenRouter	$0.80〜$1.00	$2.56〜$3.20	-

Z.ai APIを使った基本的な利用例

Z.ai APIはOpenAI互換のエンドポイントを提供しており、openai Pythonパッケージで利用可能です。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_ZAI_API_KEY",
    base_url="https://api.z.ai/api/paas/v4"
)

response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "system", "content": "あなたは優秀なソフトウェアエンジニアです。"},
        {"role": "user", "content": "Pythonでフィボナッチ数列のメモ化実装を書いてください。"}
    ],
    max_tokens=4096,
    temperature=0.7
)

print(response.choices[0].message.content)

思考モード（Thinking）の有効化

GLM-5は思考モードをサポートしています。推論タスクでは有効化することで精度が向上します。

response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "user", "content": "123456789の素因数分解を求めてください。"}
    ],
    extra_body={
        "thinking": {"type": "enabled"}
    },
    max_tokens=8192
)

OpenRouterを経由した利用

OpenRouterを使えば、APIキーの統一管理が可能です。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_OPENROUTER_KEY",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="z-ai/glm-5",
    messages=[
        {"role": "user", "content": "Rustで安全なHTTPクライアントを実装する方法を解説してください。"}
    ]
)

セルフホスティング

GLM-5はMITライセンスのため、商用利用を含むセルフホスティングが可能です。量子化版のGLM-5-FP8を使うことで、必要なGPUメモリを削減できます。

推奨ハードウェア

構成	モデル	GPU要件
FP8量子化	GLM-5-FP8	NVIDIA H100 / H200 × 8（テンソル並列）
BF16フル精度	GLM-5	NVIDIA H100 × 16以上

vLLMによるデプロイ

pip install vllm

vllm serve zai-org/GLM-5-FP8 \
    --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

起動後、OpenAI互換のAPIエンドポイント（http://localhost:8000/v1）が利用可能になります。

SGLangによるデプロイ

pip install sglang

python3 -m sglang.launch_server \
    --model-path zai-org/GLM-5-FP8 \
    --tp-size 8 \
    --mem-fraction-static 0.85

SGLangは投機的デコーディング（Speculative Decoding）をサポートしており、推論速度の高速化が期待できます。

Ascend NPU対応

Huawei Ascend NPUを持つ環境では、KTransformersまたはxLLMフレームワークによるデプロイも可能です。

Ollamaによるローカル実行

OllamaではGLM-5のクラウド推論版（glm-5:cloud）が提供されています。

ollama run glm-5

744Bパラメータモデルの完全なローカル実行には数百GBのメモリが必要なため、ローカルで本格的に利用する場合はvLLMまたはSGLangでのFP8デプロイが推奨されます。

主要モデルとの比較

GLM-5をフロンティアモデルおよび主要なオープンモデルと比較します。

項目	GLM-5	Llama 4 Scout	Claude Opus 4.6
パラメータ	744B MoE / 40B Active	109B MoE	非公開
コンテキスト	200K	10M	200K
SWE-bench	77.8%	非公開	非公開
AIME 2026	92.7%	非公開	非公開
ライセンス	MIT	Llama License	プロプライエタリ
API入力価格	$1.00/1M	$0.11/1M（Groq）	$5.00/1M
特記事項	Huawei Ascend訓練	超高速推論	最高品質

GLM-5はオープンモデルとしてはSWE-benchで突出した性能を示していますが、プロプライエタリモデル（GPT-5.4、Claude Opus 4.6）との直接比較では、タスクの種類によって結果が異なります。公式はClaude Opus 4.5とソフトウェアエンジニアリングタスクで同等の性能と報告していますが、各ユースケースでの検証が推奨されます。

地政学的インパクト

GLM-5が注目される理由の一つは、NVIDIAチップへの依存なしで訓練されたフロンティアモデルである点です。

米国の対中国半導体輸出規制（2022年〜）により、中国企業はNVIDIA A100 / H100などの高性能GPUの入手が制限されています。GLM-5はHuawei Ascend 910B（7nmプロセス、SMIC製造）のみを使用し、MindSporeフレームワーク上でカスタム最適化を施すことで、この制約を克服しています。

この実績は、「NVIDIAなしでフロンティアAIモデルの訓練は可能か？」という問いに対する一つの回答といえます。

まとめ

GLM-5は744B MoE / 40Bアクティブの大規模オープンソースLLM（MITライセンス）
SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル最高性能
Huawei Ascend 910B×100,000台のみで訓練され、NVIDIAチップ不使用
Z.ai API、OpenRouter、セルフホスティング（vLLM / SGLang）で利用可能
API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト効率が高い

GLM-5はオープンソースLLMの性能限界を更新するモデルです。コーディング・推論タスクを中心に、商用利用可能なMITライセンスという点でも注目に値します。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up