0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Qwen3.5 オープンソース公開!Alibaba 最新 LLM モデル解説

0
Posted at

はじめに

新年早々、Alibaba から衝撃のニュースが届きました。最新の Qwen3.5-397B-A17B がオープンソースとして公開されました。単なるパラメータの更新に留まらず、**「原生マルチモーダル」と「MoE(Mixture-of-Experts)の極限効率」**を両立させた、2026年を象徴するモデルとなっています。

🔑 モデルのスペック

項目 詳細
総パラメータ数 397B(3970億)
推論時活性化パラメータ 17B(170億)※MoEの利点
アーキテクチャ Gated DeltaNet + Sparse MoE(512エキスパート中11個を活性化)
コンテキスト長 262,144トークン(ネイティブ)、最大1,010,000トークンまで拡張可能
対応言語 201言語・方言(日本語含む)※Qwen3の119言語から大幅拡充
多言語性 テキスト+画像+動画の統合処理(Vision Encoder内蔵)
特徴的機能 デフォルトで「思考モード(Thinking Mode)」を有効化
ライセンス オープンソース(商用利用可能)
モデルサイズ 約403B(BF16/F32対応)

💡 Qwen3.5-Plusとの違い
Qwen3.5-397B-A17B完全オープンソースでHugging Faceから自由にダウンロード可能。
Qwen3.5-Plus はAlibaba CloudのModel Studioで提供されるホスト型サービス(100万トークンコンテキスト、公式ツール連携など)。


🌏 なぜ日本語開発者にとって注目すべきか?

1. 高精度な日本語サポート

  • 201言語対応に含まれる日本語は、文化・地域的ニュアンスを考慮した自然な生成が可能
  • ベンチマーク MMLU-ProX(29言語平均)で 84.7 を達成し、多言語性能でトップクラス
  • BrowseComp-zh(中国語検索)で70.3、MAXIFE(多言語評価)で88.2を記録し、アジア言語に強い

2. 超高効率のMoE設計

  • 397Bパラメータながら推論時は17Bのみ活性化 → コストとレイテンシを大幅削減
  • Qwen3-235B-A22B と比較して、32K/256Kコンテキストでのデコードスループットが 3.5倍/7.2倍 向上
  • Qwen3-Max と比較して、256Kコンテキストで 19.0倍 の高速推論を実現

3. 超長文コンテキスト処理

  • ネイティブで262Kトークンをサポート → 複数のコードファイルや技術文書を一括処理可能
  • YaRNスケーリングにより101万トークンまで拡張可能(2時間分の動画処理も可能)

4. 原生多モーダル対応

  • 画像認識:MMBenchEN-DEV-v1.193.7MMStar83.8
  • 動画理解:VideoMME87.5(字幕あり)、MLVU86.7
  • OCR処理:OmniDocBench1.590.8OCRBench93.1 と文書処理に優れる

推奨デプロイ

vllm

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

テキストのみ

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# モデルとトークナイザのロード(初回は数分かかります)
model_id = "Qwen/Qwen3.5-397B-A17B"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# 日本語プロンプトで推論
messages = [
    {"role": "user", "content": "日本の四季について、それぞれの特徴を簡潔に説明してください。"}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
inputs = tokenizer(text, return_tensors="pt").to(model.device)

# 推論(思考モードがデフォルトで有効)
outputs = model.generate(
    **inputs,
    max_new_tokens=1024,
    temperature=0.6,
    top_p=0.95,
    do_sample=True
)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

print(response)

⚠️注意点とベストプラクティス

  • GPUメモリ要件
    • 8×A100 80GB または 8×H100 80GB が推奨
    • 量子化(AWQ/GPTQ)で40%メモリ削減可能(Hugging FaceのQuantized版を確認)
  • 思考モードの扱い
    • デフォルトで有効 → 応答が長くなる場合あり
    • 短い応答が必要な場合は enable_thinking=False を指定
  • 日本語トークン効率
    • 語彙数25万(Qwen3の15万から増加)→ 日本語のエンコード効率が10〜60%向上
    • 長文日本語処理で特に恩恵あり

まとめ

Qwen3.5-397B-A17Bは、3970億パラメータながら170億パラメータ相当の推論コストで高精度な多言語・多モーダル処理を実現する画期的なMoEモデルです。特に日本語を含む201言語サポートと262Kトークンの長文処理能力は、技術文書処理やカスタマーサポート自動化など日本市場での応用可能性が非常に高いと言えます。

オープンソースとして提供されている点も大きな魅力で、自社インフラでのカスタマイズや微調整が可能です。GPUリソースがあれば、ぜひ自社のAIパイプラインに組み込んでみてください。

✨ 著者コメント:日本語のベンチマーク結果は公開されていませんが、多言語評価での高スコアとC-Eval(中国語)での93.0という成績から、日本語でも十分な実用レベルの性能が期待できます。実際に試してフィードバックいただけると嬉しいです!

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?