Qwen3.5 オープンソース公開！Alibaba 最新 LLM モデル解説

Posted at 2026-02-16

はじめに

新年早々、Alibaba から衝撃のニュースが届きました。最新の Qwen3.5-397B-A17B がオープンソースとして公開されました。単なるパラメータの更新に留まらず、**「原生マルチモーダル」と「MoE（Mixture-of-Experts）の極限効率」**を両立させた、2026年を象徴するモデルとなっています。

🔑 モデルのスペック

項目	詳細
総パラメータ数	397B（3970億）
推論時活性化パラメータ	17B（170億）※MoEの利点
アーキテクチャ	Gated DeltaNet + Sparse MoE（512エキスパート中11個を活性化）
コンテキスト長	262,144トークン（ネイティブ）、最大1,010,000トークンまで拡張可能
対応言語	201言語・方言（日本語含む）※Qwen3の119言語から大幅拡充
多言語性	テキスト＋画像＋動画の統合処理（Vision Encoder内蔵）
特徴的機能	デフォルトで「思考モード（Thinking Mode）」を有効化
ライセンス	オープンソース（商用利用可能）
モデルサイズ	約403B（BF16/F32対応）

💡 Qwen3.5-Plusとの違い
Qwen3.5-397B-A17B は完全オープンソースでHugging Faceから自由にダウンロード可能。
Qwen3.5-Plus はAlibaba CloudのModel Studioで提供されるホスト型サービス（100万トークンコンテキスト、公式ツール連携など）。

🌏 なぜ日本語開発者にとって注目すべきか？

1. 高精度な日本語サポート

201言語対応に含まれる日本語は、文化・地域的ニュアンスを考慮した自然な生成が可能
ベンチマーク MMLU-ProX（29言語平均）で 84.7 を達成し、多言語性能でトップクラス
BrowseComp-zh（中国語検索）で70.3、MAXIFE（多言語評価）で88.2を記録し、アジア言語に強い

2. 超高効率のMoE設計

397Bパラメータながら推論時は17Bのみ活性化 → コストとレイテンシを大幅削減
Qwen3-235B-A22B と比較して、32K/256Kコンテキストでのデコードスループットが 3.5倍/7.2倍 向上
Qwen3-Max と比較して、256Kコンテキストで 19.0倍 の高速推論を実現

3. 超長文コンテキスト処理

ネイティブで262Kトークンをサポート → 複数のコードファイルや技術文書を一括処理可能
YaRNスケーリングにより101万トークンまで拡張可能（2時間分の動画処理も可能）

4. 原生多モーダル対応

画像認識：MMBenchEN-DEV-v1.1 で 93.7、MMStar で 83.8
動画理解：VideoMME で 87.5（字幕あり）、MLVU で 86.7
OCR処理：OmniDocBench1.5 で 90.8、OCRBench で 93.1 と文書処理に優れる

推奨デプロイ

vllm

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

テキストのみ

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# モデルとトークナイザのロード（初回は数分かかります）
model_id = "Qwen/Qwen3.5-397B-A17B"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# 日本語プロンプトで推論
messages = [
    {"role": "user", "content": "日本の四季について、それぞれの特徴を簡潔に説明してください。"}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
inputs = tokenizer(text, return_tensors="pt").to(model.device)

# 推論（思考モードがデフォルトで有効）
outputs = model.generate(
    **inputs,
    max_new_tokens=1024,
    temperature=0.6,
    top_p=0.95,
    do_sample=True
)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

print(response)

⚠️注意点とベストプラクティス

GPUメモリ要件
- 8×A100 80GB または 8×H100 80GB が推奨
- 量子化（AWQ/GPTQ）で40%メモリ削減可能（Hugging FaceのQuantized版を確認）
思考モードの扱い
- デフォルトで有効 → 応答が長くなる場合あり
- 短い応答が必要な場合は enable_thinking=False を指定
日本語トークン効率
- 語彙数25万（Qwen3の15万から増加）→ 日本語のエンコード効率が10〜60%向上
- 長文日本語処理で特に恩恵あり

まとめ

Qwen3.5-397B-A17Bは、3970億パラメータながら170億パラメータ相当の推論コストで高精度な多言語・多モーダル処理を実現する画期的なMoEモデルです。特に日本語を含む201言語サポートと262Kトークンの長文処理能力は、技術文書処理やカスタマーサポート自動化など日本市場での応用可能性が非常に高いと言えます。

オープンソースとして提供されている点も大きな魅力で、自社インフラでのカスタマイズや微調整が可能です。GPUリソースがあれば、ぜひ自社のAIパイプラインに組み込んでみてください。

✨ 著者コメント：日本語のベンチマーク結果は公開されていませんが、多言語評価での高スコアとC-Eval（中国語）での93.0という成績から、日本語でも十分な実用レベルの性能が期待できます。実際に試してフィードバックいただけると嬉しいです！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up