はじめに
新年早々、Alibaba から衝撃のニュースが届きました。最新の Qwen3.5-397B-A17B がオープンソースとして公開されました。単なるパラメータの更新に留まらず、**「原生マルチモーダル」と「MoE(Mixture-of-Experts)の極限効率」**を両立させた、2026年を象徴するモデルとなっています。
🔑 モデルのスペック
| 項目 | 詳細 |
|---|---|
| 総パラメータ数 | 397B(3970億) |
| 推論時活性化パラメータ | 17B(170億)※MoEの利点 |
| アーキテクチャ | Gated DeltaNet + Sparse MoE(512エキスパート中11個を活性化) |
| コンテキスト長 | 262,144トークン(ネイティブ)、最大1,010,000トークンまで拡張可能 |
| 対応言語 | 201言語・方言(日本語含む)※Qwen3の119言語から大幅拡充 |
| 多言語性 | テキスト+画像+動画の統合処理(Vision Encoder内蔵) |
| 特徴的機能 | デフォルトで「思考モード(Thinking Mode)」を有効化 |
| ライセンス | オープンソース(商用利用可能) |
| モデルサイズ | 約403B(BF16/F32対応) |
💡 Qwen3.5-Plusとの違い
Qwen3.5-397B-A17Bは完全オープンソースでHugging Faceから自由にダウンロード可能。
Qwen3.5-PlusはAlibaba CloudのModel Studioで提供されるホスト型サービス(100万トークンコンテキスト、公式ツール連携など)。
🌏 なぜ日本語開発者にとって注目すべきか?
1. 高精度な日本語サポート
- 201言語対応に含まれる日本語は、文化・地域的ニュアンスを考慮した自然な生成が可能
- ベンチマーク
MMLU-ProX(29言語平均)で 84.7 を達成し、多言語性能でトップクラス -
BrowseComp-zh(中国語検索)で70.3、MAXIFE(多言語評価)で88.2を記録し、アジア言語に強い
2. 超高効率のMoE設計
- 397Bパラメータながら推論時は17Bのみ活性化 → コストとレイテンシを大幅削減
-
Qwen3-235B-A22Bと比較して、32K/256Kコンテキストでのデコードスループットが 3.5倍/7.2倍 向上 -
Qwen3-Maxと比較して、256Kコンテキストで 19.0倍 の高速推論を実現
3. 超長文コンテキスト処理
- ネイティブで262Kトークンをサポート → 複数のコードファイルや技術文書を一括処理可能
- YaRNスケーリングにより101万トークンまで拡張可能(2時間分の動画処理も可能)
4. 原生多モーダル対応
- 画像認識:
MMBenchEN-DEV-v1.1で 93.7、MMStarで 83.8 - 動画理解:
VideoMMEで 87.5(字幕あり)、MLVUで 86.7 - OCR処理:
OmniDocBench1.5で 90.8、OCRBenchで 93.1 と文書処理に優れる
推奨デプロイ
vllm
uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
pip install -U openai
# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"
テキストのみ
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
# モデルとトークナイザのロード(初回は数分かかります)
model_id = "Qwen/Qwen3.5-397B-A17B"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)
# 日本語プロンプトで推論
messages = [
{"role": "user", "content": "日本の四季について、それぞれの特徴を簡潔に説明してください。"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
# 推論(思考モードがデフォルトで有効)
outputs = model.generate(
**inputs,
max_new_tokens=1024,
temperature=0.6,
top_p=0.95,
do_sample=True
)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print(response)
⚠️注意点とベストプラクティス
- GPUメモリ要件
- 8×A100 80GB または 8×H100 80GB が推奨
- 量子化(AWQ/GPTQ)で40%メモリ削減可能(Hugging FaceのQuantized版を確認)
- 思考モードの扱い
- デフォルトで有効 → 応答が長くなる場合あり
- 短い応答が必要な場合は enable_thinking=False を指定
- 日本語トークン効率
- 語彙数25万(Qwen3の15万から増加)→ 日本語のエンコード効率が10〜60%向上
- 長文日本語処理で特に恩恵あり
まとめ
Qwen3.5-397B-A17Bは、3970億パラメータながら170億パラメータ相当の推論コストで高精度な多言語・多モーダル処理を実現する画期的なMoEモデルです。特に日本語を含む201言語サポートと262Kトークンの長文処理能力は、技術文書処理やカスタマーサポート自動化など日本市場での応用可能性が非常に高いと言えます。
オープンソースとして提供されている点も大きな魅力で、自社インフラでのカスタマイズや微調整が可能です。GPUリソースがあれば、ぜひ自社のAIパイプラインに組み込んでみてください。
✨ 著者コメント:日本語のベンチマーク結果は公開されていませんが、多言語評価での高スコアとC-Eval(中国語)での93.0という成績から、日本語でも十分な実用レベルの性能が期待できます。実際に試してフィードバックいただけると嬉しいです!