1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GLM-5入門 — Huaweiチップで訓練された最強オープンソースLLMの全貌

1
Last updated at Posted at 2026-03-08

GLM-5 概要 — 744B MoEオープンソースLLM

はじめに

2026年2月、中国のAI企業Z.ai(旧称: Zhipu AI / 智谱AI)がオープンソースLLM「GLM-5」をリリースしました。744Bパラメータ(MoE構成、40Bアクティブ)という大規模モデルでありながら、MITライセンスで公開されており、LMArenaやArtificial Analysisのオープンモデルランキングで1位を獲得しています。

この記事では、GLM-5のアーキテクチャ、ベンチマーク性能、API利用方法、セルフホスティング手順をまとめます。

この記事で学べること

  • GLM-5のモデルアーキテクチャと技術的特徴
  • 主要ベンチマークでの性能と既存モデルとの比較
  • Z.ai APIおよびOpenRouterを使ったGLM-5の利用方法
  • セルフホスティング(vLLM / SGLang)の構成例

対象読者

  • LLMの最新動向を把握したいエンジニア
  • オープンソースLLMの導入を検討している方
  • APIコスト最適化に関心がある方

TL;DR

  • GLM-5は744B MoE / 40Bアクティブパラメータのオープンソースモデル(MITライセンス)
  • SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル1位
  • Huawei Ascend 910B×100,000台で訓練(NVIDIAチップ不使用)
  • API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト競争力が高い

GLM-5 MoEアーキテクチャ

GLM-5のアーキテクチャ

Mixture of Experts(MoE)構成

GLM-5は、前世代のGLM-4.xシリーズ(355B総パラメータ / 32Bアクティブ)からスケールアップしたMoEモデルです。

項目 GLM-4.xシリーズ GLM-5
総パラメータ 355B 744B
アクティブパラメータ 32B 40B
事前学習データ 23Tトークン 28.5Tトークン
コンテキストウィンドウ 128K 200K
最大出力トークン 64K 128K
ライセンス MIT MIT

MoE(Mixture of Experts)とは、入力に応じて一部のパラメータ(エキスパート)のみを活性化する手法です。744Bの総パラメータのうち、推論時には約40Bのみが使われるため、計算コストを抑えながら大規模モデルの表現力を維持できます。

DeepSeek Sparse Attention(DSA)

GLM-5はDeepSeek Sparse Attention(DSA)を統合しています。DSAは、長いコンテキストを処理する際のメモリ使用量と計算量を削減するアテンション機構です。200Kトークンのコンテキストウィンドウを、フルアテンションと比較して大幅に少ないコストで処理できます。

コンテキストウィンドウは段階的に拡張されており、事前学習中に32K(1Tトークン)→ 128K(500Bトークン)→ 200K(50Bトークン)の3段階で延伸されています。

Slime:非同期強化学習基盤

GLM-5のポストトレーニングでは、「Slime」と呼ばれる非同期RL(強化学習)基盤が採用されています。Slimeは訓練のスループットと効率を向上させ、より細粒度のポストトレーニングイテレーションを可能にします。公式の報告によると、この手法によりハルシネーション率が大幅に低減されています。

Huawei Ascend 910Bによる訓練

GLM-5の訓練は、Huawei Ascend 910Bプロセッサ100,000台のクラスタで実施されました。NVIDIAのGPUは一切使用されていません。

  • チップ: Huawei Ascend 910B(HiSilicon設計、SMIC製造、7nmプロセス)
  • フレームワーク: MindSpore(Huaweiのオープンソース深層学習フレームワーク)
  • 最適化: 動的グラフ多段パイプラインデプロイメント、Ascendアーキテクチャ専用の高性能フュージョンオペレータ

100,000台のAscendチップを協調させて28.5Tトークンの訓練を完遂するため、Z.aiはカスタム最適化技術を開発しています。

GLM-5 ベンチマーク比較

ベンチマーク性能

GLM-5は複数の主要ベンチマークでオープンモデル1位を記録しています。以下は公式発表に基づく数値です。

コーディング

ベンチマーク GLM-5 備考
SWE-bench Verified 77.8% オープンモデル最高スコア。OpenHands + 専用プロンプトで実行
Terminal-Bench 2.0 56.2 オープンモデル最高スコア

SWE-bench Verifiedは、GitHubの実際のIssue解決能力を測定するベンチマークです。合成的なコーディング問題ではなく、現実のソフトウェアエンジニアリングタスクを評価する指標として注目されています。

推論・数学

ベンチマーク GLM-5 備考
AIME 2026 92.7% 高校数学競技の最難関ベンチマーク
GPQA-Diamond 86.0% 大学院レベルの科学的推論

総合ランキング

ランキング 順位
LMArena Text Arena(オープンモデル) 1位(レーティング1451)
Artificial Analysis(オープンモデル) 1位

公式の報告では、GLM-5はClaude Opus 4.5とソフトウェアエンジニアリングタスクにおいて同等の性能を達成したとされています。

API利用方法

GLM-5はZ.ai公式API、OpenRouter、Together AIなど複数のプロバイダから利用できます。

価格比較

プロバイダ 入力(/1Mトークン) 出力(/1Mトークン) キャッシュ入力
Z.ai API $1.00 $3.20 $0.20
OpenRouter $0.80〜$1.00 $2.56〜$3.20 -

Z.ai APIを使った基本的な利用例

Z.ai APIはOpenAI互換のエンドポイントを提供しており、openai Pythonパッケージで利用可能です。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_ZAI_API_KEY",
    base_url="https://api.z.ai/api/paas/v4"
)

response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "system", "content": "あなたは優秀なソフトウェアエンジニアです。"},
        {"role": "user", "content": "Pythonでフィボナッチ数列のメモ化実装を書いてください。"}
    ],
    max_tokens=4096,
    temperature=0.7
)

print(response.choices[0].message.content)

思考モード(Thinking)の有効化

GLM-5は思考モードをサポートしています。推論タスクでは有効化することで精度が向上します。

response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "user", "content": "123456789の素因数分解を求めてください。"}
    ],
    extra_body={
        "thinking": {"type": "enabled"}
    },
    max_tokens=8192
)

OpenRouterを経由した利用

OpenRouterを使えば、APIキーの統一管理が可能です。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_OPENROUTER_KEY",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="z-ai/glm-5",
    messages=[
        {"role": "user", "content": "Rustで安全なHTTPクライアントを実装する方法を解説してください。"}
    ]
)

GLM-5 セルフホスティングフロー

セルフホスティング

GLM-5はMITライセンスのため、商用利用を含むセルフホスティングが可能です。量子化版のGLM-5-FP8を使うことで、必要なGPUメモリを削減できます。

推奨ハードウェア

構成 モデル GPU要件
FP8量子化 GLM-5-FP8 NVIDIA H100 / H200 × 8(テンソル並列)
BF16フル精度 GLM-5 NVIDIA H100 × 16以上

vLLMによるデプロイ

pip install vllm

vllm serve zai-org/GLM-5-FP8 \
    --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

起動後、OpenAI互換のAPIエンドポイント(http://localhost:8000/v1)が利用可能になります。

SGLangによるデプロイ

pip install sglang

python3 -m sglang.launch_server \
    --model-path zai-org/GLM-5-FP8 \
    --tp-size 8 \
    --mem-fraction-static 0.85

SGLangは投機的デコーディング(Speculative Decoding)をサポートしており、推論速度の高速化が期待できます。

Ascend NPU対応

Huawei Ascend NPUを持つ環境では、KTransformersまたはxLLMフレームワークによるデプロイも可能です。

Ollamaによるローカル実行

OllamaではGLM-5のクラウド推論版(glm-5:cloud)が提供されています。

ollama run glm-5

744Bパラメータモデルの完全なローカル実行には数百GBのメモリが必要なため、ローカルで本格的に利用する場合はvLLMまたはSGLangでのFP8デプロイが推奨されます。

主要モデルとの比較

GLM-5をフロンティアモデルおよび主要なオープンモデルと比較します。

項目 GLM-5 Llama 4 Scout Claude Opus 4.6
パラメータ 744B MoE / 40B Active 109B MoE 非公開
コンテキスト 200K 10M 200K
SWE-bench 77.8% 非公開 非公開
AIME 2026 92.7% 非公開 非公開
ライセンス MIT Llama License プロプライエタリ
API入力価格 $1.00/1M $0.11/1M(Groq) $5.00/1M
特記事項 Huawei Ascend訓練 超高速推論 最高品質

GLM-5はオープンモデルとしてはSWE-benchで突出した性能を示していますが、プロプライエタリモデル(GPT-5.4、Claude Opus 4.6)との直接比較では、タスクの種類によって結果が異なります。公式はClaude Opus 4.5とソフトウェアエンジニアリングタスクで同等の性能と報告していますが、各ユースケースでの検証が推奨されます。

地政学的インパクト

GLM-5が注目される理由の一つは、NVIDIAチップへの依存なしで訓練されたフロンティアモデルである点です。

米国の対中国半導体輸出規制(2022年〜)により、中国企業はNVIDIA A100 / H100などの高性能GPUの入手が制限されています。GLM-5はHuawei Ascend 910B(7nmプロセス、SMIC製造)のみを使用し、MindSporeフレームワーク上でカスタム最適化を施すことで、この制約を克服しています。

この実績は、「NVIDIAなしでフロンティアAIモデルの訓練は可能か?」という問いに対する一つの回答といえます。

まとめ

  • GLM-5は744B MoE / 40Bアクティブの大規模オープンソースLLM(MITライセンス)
  • SWE-bench Verified 77.8%、AIME 2026 92.7%でオープンモデル最高性能
  • Huawei Ascend 910B×100,000台のみで訓練され、NVIDIAチップ不使用
  • Z.ai API、OpenRouter、セルフホスティング(vLLM / SGLang)で利用可能
  • API価格は$1.00/1M入力・$3.20/1M出力で、フロンティアモデルとしてはコスト効率が高い

GLM-5はオープンソースLLMの性能限界を更新するモデルです。コーディング・推論タスクを中心に、商用利用可能なMITライセンスという点でも注目に値します。

参考リンク

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?