はじめに
「最新のAIを、残高を気にせず使い倒したい——」
そんな願いを叶えるサービスが登場しました。アリババクラウドの「Bailian Coding Plan」は、月額定額でQwen、GLM、Kimi、MiniMaxといった中国発の有力LLMが8種類も定額で利用できるプランです。
気になる料金は以下の通りです。なお、中国国内版とグローバル版(国際版)で価格が異なります。私は日本に住んでいるのでグローバルプランしか契約できないですね。(中国国内だと大分安いですね。。)
| プラン | 中国国内版 | グローバル版 | 月間リクエスト数 |
|---|---|---|---|
| Lite | 40元/月(初月7.9元) | $10/月 | 18,000回 |
| Pro | 200元/月(初月39.9元) | $50/月 | 90,000回 |
中国国内版は初月キャンペーンで破格の価格ですが、グローバル版は定価のみ。それでもClaude Pro($20/月)やChatGPT Plus($20/月)が1モデルしか使えないのに対し、Proプランなら$50/月で8モデルを定額利用可能。1モデルあたり$6.25と考えれば十分コスパは良いです。Liteプランの$10/月なら気軽に試せる価格帯です。
注意:「使い放題」ではありません
Coding Planにはリクエスト数の上限に加えて、5時間あたりの制限・週次制限・月間制限の3段階のレートリミットがあります。短時間に集中して大量のリクエストを投げると制限に引っかかる場合があるので、ペース配分を意識して使うのがコツです。
正直なところ、「中国製モデルってどうなの?」「Claude OpusやSonnetには勝てないでしょ?」と思っていました。全体的な性能は一段落ちるだろうと予想していましたが、それぞれの長所を活かせばClaude Opusに匹敵する使い方ができるのではないか——そんな期待もあり、全8モデルのベンチマークテストを実施してみました。
結論から言うと、特定の用途では驚くべきポテンシャルを秘めていることが分かりました。
もしもAlibaba コーディングプランを契約したいけど、いまいち何のモデルがどんなことをできるのかが分からない、という悩みを持つ方がいればぜひ参考にしてみてください。
テスト環境と対象モデル
環境
- ツール: Opencode CLI(ターミナルベースのAIコーディングツール)
- OS: Windows 11
- 計測方法: 各テストの応答時間をミリ秒単位で記録
対象モデル(8種)
| ブランド | モデル | パラメータ | 主な機能 |
|---|---|---|---|
| Qwen | qwen3.5-plus | 非公開(MoE) | テキスト生成, Deep Thinking, Visual Understanding |
| Qwen | qwen3-max | 非公開 | テキスト生成, Deep Thinking |
| Qwen | qwen3-coder-next | 80B/3B active | テキスト生成(コーディング特化) |
| Qwen | qwen3-coder-plus | 非公開 | テキスト生成(コーディング向け) |
| Zhipu | GLM-5 | 744B/40B active | テキスト生成, Deep Thinking |
| Zhipu | GLM-4.7 | 355B/32B active | テキスト生成, Deep Thinking |
| Kimi | kimi-k2.5 | ~1T/32B active | テキスト生成, Deep Thinking, Visual Understanding |
| MiniMax | MiniMax-M2.5 | 非公開 | テキスト生成, Deep Thinking |
MoE(Mixture of Experts)とActive パラメータとは?
パラメータ数が「744B/40B active」のように表記されているモデルは、MoE(混合専門家モデル)というアーキテクチャを採用しています。総パラメータは744Bですが、推論時に実際に使うのは40Bだけ。つまり見た目以上に軽量・高速に動きます。
注目すべきは、これらのモデルはすべてOSS(オープンソース)として公開されていることです。つまり、その気になればOllamaなどを使ってローカルで動かすことも可能です。
テスト項目(7種のタスク)
モデルの実力を多角的に測るため、以下の7種類のタスクを設計しました。
| # | テスト | 内容 | 測定ポイント |
|---|---|---|---|
| 1 | コーディング(基礎) | Pythonでリストの重複除去関数を実装。元の順序を保持したまま返すunique_ordered(lst)を書かせる |
基本的なコード生成力 |
| 2 | コーディング(中級) | Pythonで二分探索木(BST)クラスを実装。insert / search / delete / inorder_traversalの4メソッドを含める | データ構造・設計力 |
| 3 | デバッグ | 3つのバグ(整数除算ミス・append→extend・KeyError未処理)を仕込んだPythonコードを提示し、バグの特定と修正コードの出力を依頼 | バグ発見・修正能力 |
| 4 | 論理推論 | 「正直者・嘘つき・ランダム」の3人がそれぞれ発言する古典的な論理パズルを出題し、全員の正体を推論過程つきで回答させる | 論理的思考力 |
| 5 | 数学 | 3次関数 f(x) = x³ - 6x² + 11x - 6 の全実数根を因数分解で求め、さらに区間[0,4]の定積分を途中計算つきで算出させる | 数学的推論力 |
| 6 | 日本語 | LLMに関する英文(約60語)を自然な日本語に翻訳し、さらに100文字以内で要約させる。翻訳の正確さと要約の簡潔さを評価 | 日本語の自然さ |
| 7 | 計画立案 | 小規模ECサイト(商品数約1000・月間PV約10万)をゼロから構築する技術選定と開発計画を、フロントエンド・バックエンド・インフラの3観点で提案させる | 総合的な企画力 |
結果:応答速度ランキング
まずは応答速度から。全7テストの平均応答時間をランキングにしました。
| 順位 | モデル | 平均応答時間 |
|---|---|---|
| 1 | qwen3.5-plus | 12.9秒 |
| 2 | qwen3-coder-plus | 13.0秒 |
| 3 | qwen3-coder-next | 15.2秒 |
| 4 | glm-4.7 | 16.7秒 |
| 5 | kimi-k2.5 | 20.6秒 |
| 6 | qwen3-max | 24.6秒 |
| 7 | MiniMax-M2.5 | 26.4秒 |
| 8 | glm-5 | 32.2秒 |
qwen3.5-plusが最速で平均12.9秒。一方、glm-5は平均32.2秒と最も遅い結果になりました。ただし速ければ良いというわけではなく、品質との兼ね合いが重要です。
結果:正確性で差がついたテスト
コーディング基礎・中級テストは全モデル正解で差がつかなかったため、差がついた3つのテストに注目します。
デバッグテスト — 「コードを直接修正してくれる」衝撃のエージェント動作
3つのバグ(整数除算ミス、append→extend、KeyError未処理)を仕込んだPythonコードを提示して修正を依頼しました。
| モデル | バグ検出 | 時間 | 特記事項 |
|---|---|---|---|
| qwen3.5-plus | 3/3 | 12.7s | 説明付きで修正 |
| qwen3-max | 3/3 | 17.4s | コードのみ出力 |
| qwen3-coder-next | 3/3 | 54.2s | ファイルを直接Editで修正(エージェント動作) |
| qwen3-coder-plus | 0/3 | 4.8s | ファイル確認のみで終了 |
| glm-5 | 4/3 | 35.7s | 追加の改善点も指摘 |
| glm-4.7 | 3/3 | 30.6s | 構造化された説明 |
| kimi-k2.5 | 3/3 | 20.9s | コメント付きで修正 |
| MiniMax-M2.5 | 3/3 | 24.2s | 一部中国語混入あり |
qwen3-coder-nextがファイルを直接編集するという独自のエージェント動作を見せました。時間はかかりますが、Claude Codeのようにファイルを自律的に修正してくれるのは、コーディングツールとしてまさに理想的な振る舞いです。アクティブパラメータわずか3Bでこの動作ができるのは正直驚きました。一方、qwen3-coder-plusは4.8秒で返答したものの、修正せずに終了という残念な結果に。
論理推論テスト — 唯一の不正解が出たテスト
「正直者・嘘つき・ランダムの3人の正体を推理する」という古典的な論理パズルを出題しました。
正解: A=嘘つき, B=正直者, C=ランダム
| モデル | 初回 | 再テスト | 推論品質 |
|---|---|---|---|
| qwen3.5-plus | ✅ | — | 3仮説を網羅的に検証。最も体系的 |
| qwen3-max | ❌ | ✅ | 初回は矛盾を見逃して誤答。再テストでは正解だが推論過程にミスあり |
| qwen3-coder-next | ✅ | — | 全6パターン総当たり。明快 |
| qwen3-coder-plus | ✅ | — | 自己修正しつつ正解に到達。ただし英語で回答 |
| glm-5 | ✅ | — | 全6パターンを表形式で提示。最も見やすい |
| glm-4.7 | ✅ | — | 最終正解だが途中の推論にミスあり |
| kimi-k2.5 | ✅ | — | 3ステップで丁寧に推論 |
| MiniMax-M2.5 | ✅ | — | 簡潔だが一部中国語が混入 |
qwen3-maxのみ初回不正解。再テストでは正解しましたが、推論の安定性に不安が残ります。一方、glm-5は全6パターンを表形式で提示し、最も読みやすい回答でした。
数学テスト — 驚愕の計算ミスと謎の空レスポンス
3次関数 f(x) = x³ - 6x² + 11x - 6 の因数分解と定積分を求める問題です。
正解: 根=1,2,3 / 定積分=0
| モデル | 初回 | 再テスト | 詳細 |
|---|---|---|---|
| qwen3.5-plus | ✅ | — | LaTeX記法で丁寧 |
| qwen3-max | ✅ | — | 簡潔 |
| qwen3-coder-next | ✅ | — | 筆算過程を記載 |
| qwen3-coder-plus | ❌ | — | 2×64=96、6×4=64と誤計算。答えが-8に |
| glm-5 | ✅ | — | 3根を直接検証する効率的な解法 |
| glm-4.7 | ✅ | — | 合成除法を使用。最も教科書的 |
| kimi-k2.5 | ❌ | ✅ | 初回は空レスポンス。再テストで正解 |
| MiniMax-M2.5 | ✅ | — | LaTeX記法で整形 |
qwen3-coder-plusが基本的な四則演算を間違えるという衝撃的な結果に。2×64=96って...小学生でも分かるレベルの計算ミスです。コーディング特化モデルなのに数学は苦手、というのは面白い特性ですね。kimi-k2.5は初回で空レスポンスを返しましたが、再テストでは正解しました(一時的なAPI問題の可能性)。
日本語品質と「まさかのフランス語回答」問題
中国語系モデルならではの課題として、日本語で回答すべき箇所に他言語が混入するケースが見られました。数学の回答にフランス語が混ざるqwen3-coder-next、論理パズルを全編英語で答えるqwen3-coder-plus...個性的すぎます。
| モデル | 日本語品質 | 混入例 |
|---|---|---|
| qwen3.5-plus | ◎ | なし |
| qwen3-max | ◎ | なし |
| qwen3-coder-next | ○ | フランス語混入(「gratuits function」) |
| qwen3-coder-plus | ○ | 論理テストを全て英語で回答 |
| glm-5 | ◎ | なし |
| glm-4.7 | ◎ | 軽微な誤字(「嘙」) |
| kimi-k2.5 | ◎ | なし |
| MiniMax-M2.5 | △ | 中国語混入(「真也行 列」「时会出错」) |
日本語タスクの品質が高かったのはqwen3.5-plus、glm-5、kimi-k2.5の3モデル。MiniMax-M2.5は中国語の混入が目立ち、日本語環境での利用にはやや注意が必要です。
総合評価:Tier別ランキング

(生成AIに画像作らせたら4位以下がAlibaba コーディングプランに存在しない適当なモデル名になっていますね。。めんどくさいので作り直しませんが)
全テスト結果を総合し、3段階のTierに分類しました。
Tier 1(最推奨)
| 順位 | モデル | 平均速度 | 強み |
|---|---|---|---|
| 1 | qwen3.5-plus | 12.9s | 全テスト高水準。速度・品質・日本語すべてトップクラス |
| 2 | qwen3-coder-next | 15.2s | コーディング最強。唯一のエージェント動作。3B activeでコスパ最高 |
| 3 | glm-4.7 | 16.7s | 全テスト正解。品質と速度のバランスが最良 |
Tier 2(良好)
| 順位 | モデル | 平均速度 | 評価 |
|---|---|---|---|
| 4 | kimi-k2.5 | 20.6s | 全テスト正解(再テスト後)。日本語◎。初回の不安定さが気になる |
| 5 | glm-5 | 32.2s | 全テスト正解。推論の見やすさが秀逸。ただし最も遅い |
| 6 | MiniMax-M2.5 | 26.4s | 全テスト正解。中国語混入と日本語品質に課題 |
Tier 3(課題あり)
| 順位 | モデル | 平均速度 | 問題点 |
|---|---|---|---|
| 7 | qwen3-max | 24.6s | 論理推論が不安定。計画テスト93秒と突発的に遅くなる |
| 8 | qwen3-coder-plus | 13.0s | 速いが品質不安定。デバッグ未実施・数学で計算ミス |
用途別おすすめモデル
迷ったときはこの表を参考にしてください。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 万能・迷ったらこれ | qwen3.5-plus | 速度・品質・日本語すべて高水準 |
| コーディング | qwen3-coder-next | エージェント動作で自律的にコード修正。370言語対応 |
| 論理・推論 | qwen3.5-plus / glm-5 | 体系的な推論、高い正確性 |
| 日本語タスク | qwen3.5-plus / kimi-k2.5 | 自然な日本語表現 |
| 数学 | glm-4.7 | 教科書的で正確、速度も良好 |
| バランス重視 | glm-4.7 | 全テスト正解 + 速度16.7秒 |
まとめ
今回の検証で分かったのは、8モデルそれぞれに明確な個性があるということです。
- qwen3.5-plusは「万能エース」。迷ったらまずこれを使えば間違いない
- qwen3-coder-nextはコーディング特化で唯一のエージェント動作。アクティブパラメータ3Bという軽量さも魅力
- glm-4.7は全テスト正解で品質と速度のバランスが最良。堅実な選択肢
Claude OpusやSonnetと比べると全体的な性能は一段落ちるかもしれませんが、用途に応じてモデルを使い分ければ十分実用的です。特にqwen3-coder-nextのエージェント動作はClaude Codeに通じるものがあり、デバッグの自律性という点では非常に面白い存在でした。また、qwen3.5-plusの日本語品質と応答速度の両立はClaude Sonnetに肉薄する場面もあったと感じています。
むしろ定額制という点を活かして、従量課金を気にせず気軽にリトライできるのは大きなメリットです。
まずはこの3モデルから試してみよう
契約してみたものの、どこから触ればいいか迷っている方は、以下の使い分けから始めてみてください。
- 日常のチャットは qwen3.5-plus でサクサク — 速度・品質・日本語すべてトップクラス
- 重いデバッグは qwen3-coder-next に丸投げ — ファイルを直接修正してくれるエージェント動作が強力
- 正確なロジックが必要なときは glm-4.7 でダブルチェック — 全テスト正解の安定感
これだけで、開発効率は確実に変わるはずです。
ちなみにglm-4.7は公式のz.aiの定額コーディングプランでも使用できます。1-2か月前にアホみたいに値上げしましたが、それでもLiteプランは月10ドルと安いです。こちらも気になる方がいれば契約してみてもいいかも。(以前まで月3ドルで使えていたのがおかしいだけ。。?)
OSSモデルとしてのロマン
なお、これらのモデルはすべてOSSとして公開されています。個人的にはこのコーディングプランでしばらく使い倒した後に、高スぺPCとGPUを買ってローカルで実用可能にしようかなと思っています(お金貯めないといけないですが...)。
OSSで公開されているということは、いつかクラウドサービスが終了しても手元で動かせるということ。その安心感もこのプランの隠れた魅力かもしれません。
定額プランの契約を検討している方の参考になれば幸いです。

