この記事の対象読者
- RTX 50シリーズ(5090 / 5080 / 5070)を購入した、または購入を検討している方
- ComfyUIでAI画像・動画生成をやりたいWindows環境の方
- 「
sm_120 is not compatible」「xformersが入らない」で絶望した経験のある方
この記事で得られること
- なぜBlackwell世代のGPUでComfyUIが「普通には」動かないのかの根本原因の理解
- WSL2もDockerも不要。Windowsネイティブでワンクリックセットアップする方法
- 28個のカスタムノード + 5つのImage-to-Videoパイプラインを1つずつ検証した結果
この記事で扱わないこと
- Linux/WSL2環境でのセットアップ(公式スレッドで十分にカバーされている)
- RTX 40シリーズ以前のGPUへの対応(そもそもcu128のstable PyTorchで動く)
1. 「全部入り」のGPUを買ったら、何も動かなかった
RTX5090を手に入れたとき、正直なところ「最強のGPUなんだから、セットアップなんて余裕だろう」と思っていた。OMG!!舐めちゃいけいないぜベイビー
32GB VRAM。Blackwellアーキテクチャ。CUDA 13.0対応。スペックシートは完璧だった。
しかし、ComfyUIをインストールして run.bat を叩いた瞬間に表示されたのは、こんなエラーだった。
RuntimeError: sm_120 is not compatible
sm_120。Blackwellアーキテクチャの計算能力を示すこのコード、PyTorchのstableリリースはこれを知らない。
ここから3日間の地獄が始まった。そして3日後、自分で解決策を全部パッケージングして公開リポジトリにした。それが ComfyUI-Win-Blackwell だ。
ここまでで「あ、RTX 50シリーズ特有の問題なんだ」と感じた方、正解です。次は、なぜこんなことが起きるのかを整理しましょう。最新のGPUだから世界がついてきてないんだぜ!?まあもう発売1年経ってますけどね、、、。
2. 前提知識の確認
本題に入る前に、この記事で登場する用語を確認します。
2.1 sm_120(Compute Capability)とは
NVIDIAの各GPUアーキテクチャには「計算能力」を示すコード番号がある。料理で言えば「ガスコンロの型番」みたいなもので、ソフトウェア側がこの型番を知らないと火が点かない。
| アーキテクチャ | Compute Capability | 代表GPU |
|---|---|---|
| Ampere | sm_86 | RTX 3090 |
| Ada Lovelace | sm_89 | RTX 4090 |
| Blackwell | sm_120 | RTX 5090 / 5080 / 5070 |
2.2 CUDA Gapとは
最新GPUのCompute Capabilityに対して、PyTorchなどのフレームワークが追いつかない期間のこと。新しいGPUが発売されてから数ヶ月間、stableリリースでは動かないという「暗黒期」が発生する。
2.3 xformersとは
Meta(旧Facebook)が開発したAttention計算の高速化ライブラリ。ComfyUIのパフォーマンスを大幅に向上させる定番ツール――だったのだが、今回の主役は「xformersを使わない」という話だ。
これらの用語が押さえられたら、Blackwell世代が抱える構造的問題を見ていきましょう。
3. Blackwell世代のComfyUI環境が「壊れている」理由
3.1 構造的な問題の全体像
2026年初頭時点で、RTX 50シリーズでComfyUIを動かすには以下の問題が同時に発生する。なんでだよ...
Blackwell環境の構造的問題
- PyTorch stableがsm_120カーネルを含んでいない → nightlyビルド必須(まだかよ)
- xformersがBlackwell nightlyと非互換 → インストールするとPyTorchがstableにダウングレードされる
- Triton公式がLinuxのみ → Windows用の代替フォークが必要
- カスタムノードが依存関係でstable PyTorchを引き込む → サイレントに環境が壊れる
3.2 既存ガイドの限界 — だから自分で作った
ComfyUI公式のBlackwellサポートスレッド(Discussion #6643)は1000コメントを超えている。しかし「WindowsネイティブでBlackwellを完全に動かす方法」は、そのどこにもまとまっていなかった。(かいといたぜ!)
| 既存アプローチ | 問題点 |
|---|---|
| WSL2経由 | safetensorsのNTFS→Linux変換でモデル読込が遅い |
| Docker経由 | 同上 + セットアップが複雑 |
| cu128ベース | CUDA 12.8ではNVFP4最適化が効かない |
| 断片的なコマンド集 | 再現性がなく、環境ごとにハマりポイントが違う |
「Windowsネイティブ + CUDA 13.0 + 再現可能なワンクリックセットアップ」 — これを全部まとめたパッケージが世の中に存在しなかった。だから自分で作った。
それが ComfyUI-Win-Blackwell だ。
背景がわかったところで、どうやって解決したかを見ていきましょう。
4. 私が設計した「Blackwell on Windowsの5大原則」
4.1 5つの鉄則
3日間の試行錯誤の末に到達した、環境を壊さないための5つのルール。このルールのどれか1つでも破ると、環境が壊れる。 このルールセットの確立自体が、今回の仕事の核心だ。
| # | ルール | 理由 | 破った場合 |
|---|---|---|---|
| 1 | PyTorch nightly cu130を使う | stableにはsm_120カーネルがない | RuntimeError: sm_120 is not compatible |
| 2 | xformersを絶対にインストールしない | PyTorchをstableに強制ダウングレードする | 全てが動かなくなる |
| 3 | requirements.txtからtorchを除外する | pipがnightlyをstableで上書きする | サイレントなバージョンダウングレード |
| 4 | カスタムノード追加後は必ず検証する | ノードの依存関係がstable torchを引き込む | 動いていた環境が突然壊れる |
| 5 | プロキシ環境変数をクリアする | システムプロキシがpip/git接続をブロック | インストール失敗 |
4.2 xformersに代わるアーキテクチャ
xformersが使えないなら、何でAttentionを高速化するのか? 私が採用したのは triton-windows + torch.compile の組み合わせだ。
従来のComfyUI: xformers (Metaの高速Attentionライブラリ)
ComfyUI-Win-Blackwell: triton-windows + torch.compile + SDPA (PyTorch native)
なぜこれが動くのか?
TritonはOpenAIが開発したGPUカーネルコンパイラで、本来Linux専用。しかし woct0rdho 氏による triton-windows フォークがWindowsでの動作を可能にした。これとPyTorchネイティブの torch.compile を組み合わせることで、xformersなしでも実用的な推論速度が得られる。この組み合わせを「ComfyUIのBlackwell標準構成」としてパッケージ化したのが本リポジトリの設計上のポイントだ。
基本概念が理解できたところで、実際にセットアップしてみましょう。
5. 実践:ワンクリックでBlackwell対応ComfyUIを構築する
5.1 前提条件
| 項目 | 要件 |
|---|---|
| OS | Windows 10/11(64bit) |
| GPU | NVIDIA GeForce RTX 5090 / 5080 / 5070(Blackwellアーキテクチャ) |
| NVIDIAドライバ | 580以上 |
| Git | インストール済み |
| 7-Zip | インストール済み |
5.2 ワンクリックセットアップ
# リポジトリをクローン
git clone https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell.git
cd ComfyUI-Win-Blackwell
# setup.batをダブルクリック(約20分で完了)
# または手動実行:
powershell -ExecutionPolicy Bypass -File setup.ps1
# ComfyUIを起動
.\run.bat
# ブラウザで http://localhost:8188 を開く
setup.batの中でやっていること
- Python 3.13環境のセットアップ
- PyTorch nightly cu130のインストール(stableではなくnightly)
- triton-windowsのインストール(xformersの代わり)
- ComfyUI本体のクローンと依存関係インストール(torchを除外した独自requirements)
- 28個の検証済みカスタムノードの一括インストール
- インストール後のPyTorchバージョン検証(cu130が維持されているか確認)
5.3 環境別の設定ファイル
開発環境用(デフォルト)
# configs/extra_model_paths.yaml - 開発環境
# モデルを別ディレクトリで管理する場合に使用
comfyui:
base_path: D:/AI/models/
checkpoints: checkpoints/
loras: loras/
vae: vae/
clip: clip/
共有モデル環境用(複数ComfyUIインスタンスで共有)
# configs/extra_model_paths.shared.yaml - 共有環境
# 複数のComfyUIインスタンスでモデルを共有する場合
comfyui:
base_path: \\NAS\ai-models\
checkpoints: checkpoints/
loras: loras/
vae: vae/
CI/テスト環境用(最小構成)
# configs/extra_model_paths.test.yaml - テスト環境
# 動作確認用の最小構成
comfyui:
base_path: ./test_models/
checkpoints: checkpoints/
5.4 環境検証スクリプト
セットアップ完了後、以下のコマンドで環境を検証する。このスクリプトも自作した。Blackwell固有のチェック項目(sm_120対応、cu130バージョン確認、Triton動作確認、torch.compileテスト)を一括で検証できる。
python verify_env.py
正常時の出力:
============================================================
Blackwell (sm_120) Environment Verification
============================================================
[OK] Python
[OK] NVIDIA Driver
[OK] PyTorch
[OK] Triton
[OK] Core Packages
[OK] torch.compile
Environment is ready for Blackwell GPU!
5.5 よくあるエラーと対処法
| エラー | 原因 | 対処法 |
|---|---|---|
RuntimeError: sm_120 is not compatible |
PyTorchがstable版 | pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130 |
Value not in list(モデルパス) |
Linuxワークフローのパス区切り文字 |
python scripts/fix_windows_compat.py your_workflow.json(リポジトリ同梱) |
SageAttention not available |
SageAttentionのビルド困難 | ワークフローで attention_mode を sdpa に変更 |
| PyTorchバージョンが勝手に変わった | カスタムノードの依存関係 |
python -c "import torch; print(torch.__version__)" で確認、cu130でなければ再インストール |
| Tritonコンパイルエラー | triton-windowsの互換性問題 | ワークフローから compile_args を切断。RTX 5090はtorch.compileなしでも十分高速 |
5.6 Windows互換性自動修正ツール(自作)
Linuxで作成されたワークフローをWindowsで使うと、パス区切り文字やSageAttention指定が原因でエラーになる。これも自動修正スクリプトを同梱した。
# ワークフローのWindows互換性を自動修正
python scripts/fix_windows_compat.py your_workflow.json
このスクリプトは以下を自動処理する:
- モデルパスの
/→\変換 -
sageattn→sdpaへの置換 - その他のWindows固有の非互換設定の検出と修正
実装方法がわかったので、次は検証済みのカスタムノードとパイプラインを見ていきます。
6. ユースケース別ガイド:1つずつ検証した28ノード+5つのI2Vパイプライン
以下の検証結果は全て、RTX 5090(32GB VRAM)+ Windows 11 + CUDA 13.0 + PyTorch nightly cu130の環境で、1ノードずつインストール→動作確認→PyTorchバージョン検証を行った結果だ。
6.1 ユースケース1:AI動画生成(Wan 2.1 / LTX-Video / HunyuanVideo)
想定読者: テキストまたは画像からAI動画を生成したい方
検証済みImage-to-Videoモデルとパフォーマンス:
| モデル | パラメータ数 | FP8サイズ | 32GB VRAMでの動作 |
|---|---|---|---|
| HunyuanVideo 1.5 I2V | 8.3B | ~16GB | スムーズ(推奨) |
| Kandinsky 5.0 Lite I2V | 2B | ~4GB | 非常にスムーズ |
| LTX-2 I2V | 19B | ~25GB | FP8で動作 |
| LongCat-Video TI2V | 13.6B | ~14.5GB | 調整ありで動作 |
| Kandinsky 5.0 Pro I2V | 19B | ~40GB | CPUオフロード必要、低速 |
サンプルワークフロー構成:
# HunyuanVideo 1.5 I2V の最小構成例
# ComfyUI上で以下のノードを接続:
# 1. Load Diffusion Model → HunyuanVideo 1.5 (FP8)
# 2. Load CLIP → umt5-xxl
# 3. CLIP Text Encode → プロンプト入力
# 4. Load Image → 入力画像
# 5. KSampler → attention_mode: sdpa (SageAttentionではなく)
# 6. Video Combine → 出力
# 重要: attention_modeは必ず "sdpa" を指定
# ComfyUI-Win-Blackwellではxformers/SageAttentionを使わない設計
6.2 ユースケース2:AI音楽生成(ACE-Step / HeartMuLa)
想定読者: AI画像/動画にBGMを付けたい方
検証済みノード:
- ComfyUI-AceMusic(ACE-Step音楽生成)
- ComfyUI-HeartMuLa(HeartMuLa音楽生成)
- ComfyUI-MelBandRoFormer(音源分離)
# ACE-Step音楽生成の基本フロー
# 1. テキストプロンプトで楽曲の雰囲気を指定
# 2. ACE-Stepモデルが楽曲を生成
# 3. MelBandRoFormerで必要に応じて音源分離
# 4. Video CombineノードでAI動画と合成
# この構成でBlackwell + cu130での動作を確認済み
6.3 ユースケース3:画像編集・加工パイプライン
想定読者: ControlNetやDepth推定を使った高度な画像編集をしたい方
検証済みノード(抜粋):
- comfyui-impact-pack(検出&インペインティング)
- comfyui_controlnet_aux(ControlNetプリプロセッサ)
- comfyui-depthanythingv2(深度推定)
- ComfyUI-Step1X-Edit(Step1X画像編集)
# ControlNet + Depth推定パイプラインの基本構成
# 1. 入力画像をDepthAnythingV2で深度マップに変換
# 2. ControlNet Auxでポーズ/エッジ検出
# 3. Impact Packで特定領域のインペインティング
# 4. LayerStyleで合成・レイヤー処理
# 28ノード全てのリストはリポジトリのREADMEを参照:
# https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell
ユースケースを把握できたところで、この先の学習パスを確認しましょう。
7. 学習ロードマップ
この記事を読んだ後、次のステップとして以下をおすすめします。
初級者向け(まずはここから)
-
ComfyUI-Win-Blackwell をクローンして
setup.batを実行 — 約20分で環境構築が完了する - ComfyUI公式ドキュメントでワークフローの基本を学ぶ
- HunyuanVideo 1.5 I2Vでテキストから動画生成を試す(VRAM消費が32GBに収まる推奨モデル)
中級者向け(実践に進む)
- 複数のI2Vモデルを切り替えて画質・速度を比較する
- ACE-StepやHeartMuLaで音楽生成を組み合わせ、動画+BGMのパイプラインを構築
-
update.batで環境を最新に保ちつつ、Blackwell互換性を維持する
上級者向け(さらに深く)
- NVFP4量子化を活用して推論速度を2倍にする(cu130 + Blackwell専用の最適化)
-
torch.compileのオプションを調整してモデル別にパフォーマンスチューニング - 新しいカスタムノードをBlackwell環境で検証し、リポジトリにPRを送る — 一緒にBlackwell対応を広げていきましょう
8. まとめ
この記事では、RTX 50シリーズ(Blackwell)でComfyUIを動かすために必要な以下を解説しました。
- Blackwell世代が直面するCUDA Gap問題の構造 — sm_120未対応のstable PyTorch、xformers非互換、Tritonの Linux限定という三重苦
- xformersを捨てる設計判断 — triton-windows + torch.compile + SDPAで代替するアーキテクチャ
- ワンクリックで再現可能なセットアップ — 28カスタムノード + 5つのI2Vパイプライン検証済みのリポジトリ
私の所感
今回のリポジトリ ComfyUI-Win-Blackwell を作って公開した最大の理由は、「1000コメント超のサポートスレッドから正解を掘り出す苦行」を、自分以降の人に味わわせたくなかったからだ。
調べた限り、以下の組み合わせを再現可能なパッケージとして公開したのは、このリポジトリが世界初だ。
- Windowsネイティブ(WSL2/Docker不要)
- CUDA 13.0(cu130) 対応(既存ガイドの大半はcu128)
- xformersを意図的に排除し、triton-windows + torch.compileで代替する設計
- 28カスタムノードの個別検証 + 5つのI2Vパイプラインの動作確認
- ワンクリックセットアップ(setup.bat)+ 環境検証スクリプト(verify_env.py)+ Windows互換性自動修正(fix_windows_compat.py)
「最新GPUを買ったのに動かない」という体験は、AI画像生成の世界への入り口で人を追い返してしまう。それが解消できるなら、3日間で得た知見をパッケージにする価値は十分にある。
MITライセンスで公開しているので、使ってみてほしい。そしてもし新しいカスタムノードやワークフローを検証したら、ぜひPRを送ってください。
参考文献
- ComfyUI-Win-Blackwell リポジトリ ← 本記事の成果物
- ComfyUI公式 Blackwellサポートスレッド (Discussion #6643)
- ComfyUI公式 システム要件
- triton-windows
- ComfyUI NVFP4最適化ブログ
X: @geneLab_999