RTX 5090でComfyUIを動かそうとしたら「全ての常識」が通用しなかった — Windowsネイティブ完全対応キットを自作して公開した

Last updated at 2026-03-02Posted at 2026-03-02

この記事の対象読者

RTX 50シリーズ（5090 / 5080 / 5070）を購入した、または購入を検討している方
ComfyUIでAI画像・動画生成をやりたいWindows環境の方
「sm_120 is not compatible」「xformersが入らない」で絶望した経験のある方

この記事で得られること

なぜBlackwell世代のGPUでComfyUIが「普通には」動かないのかの根本原因の理解
WSL2もDockerも不要。Windowsネイティブでワンクリックセットアップする方法
28個のカスタムノード + 5つのImage-to-Videoパイプラインを1つずつ検証した結果

この記事で扱わないこと

Linux/WSL2環境でのセットアップ（公式スレッドで十分にカバーされている）
RTX 40シリーズ以前のGPUへの対応（そもそもcu128のstable PyTorchで動く）

1. 「全部入り」のGPUを買ったら、何も動かなかった

RTX5090を手に入れたとき、正直なところ「最強のGPUなんだから、セットアップなんて余裕だろう」と思っていた。OMG！！舐めちゃいけいないぜベイビー

32GB VRAM。Blackwellアーキテクチャ。CUDA 13.0対応。スペックシートは完璧だった。

しかし、ComfyUIをインストールして run.bat を叩いた瞬間に表示されたのは、こんなエラーだった。

RuntimeError: sm_120 is not compatible

sm_120。Blackwellアーキテクチャの計算能力を示すこのコード、PyTorchのstableリリースはこれを知らない。

ここから3日間の地獄が始まった。そして3日後、自分で解決策を全部パッケージングして公開リポジトリにした。それが ComfyUI-Win-Blackwell だ。

ここまでで「あ、RTX 50シリーズ特有の問題なんだ」と感じた方、正解です。次は、なぜこんなことが起きるのかを整理しましょう。最新のGPUだから世界がついてきてないんだぜ！？まあもう発売1年経ってますけどね、、、。

2. 前提知識の確認

本題に入る前に、この記事で登場する用語を確認します。

2.1 sm_120（Compute Capability）とは

NVIDIAの各GPUアーキテクチャには「計算能力」を示すコード番号がある。料理で言えば「ガスコンロの型番」みたいなもので、ソフトウェア側がこの型番を知らないと火が点かない。

アーキテクチャ	Compute Capability	代表GPU
Ampere	sm_86	RTX 3090
Ada Lovelace	sm_89	RTX 4090
Blackwell	sm_120	RTX 5090 / 5080 / 5070

2.2 CUDA Gapとは

最新GPUのCompute Capabilityに対して、PyTorchなどのフレームワークが追いつかない期間のこと。新しいGPUが発売されてから数ヶ月間、stableリリースでは動かないという「暗黒期」が発生する。

2.3 xformersとは

Meta（旧Facebook）が開発したAttention計算の高速化ライブラリ。ComfyUIのパフォーマンスを大幅に向上させる定番ツール――だったのだが、今回の主役は「xformersを使わない」という話だ。

これらの用語が押さえられたら、Blackwell世代が抱える構造的問題を見ていきましょう。

3. Blackwell世代のComfyUI環境が「壊れている」理由

3.1 構造的な問題の全体像

2026年初頭時点で、RTX 50シリーズでComfyUIを動かすには以下の問題が同時に発生する。なんでだよ...

Blackwell環境の構造的問題

PyTorch stableがsm_120カーネルを含んでいない → nightlyビルド必須(まだかよ)
xformersがBlackwell nightlyと非互換 → インストールするとPyTorchがstableにダウングレードされる
Triton公式がLinuxのみ → Windows用の代替フォークが必要
カスタムノードが依存関係でstable PyTorchを引き込む → サイレントに環境が壊れる

3.2 既存ガイドの限界 — だから自分で作った

ComfyUI公式のBlackwellサポートスレッド（Discussion #6643）は1000コメントを超えている。しかし「WindowsネイティブでBlackwellを完全に動かす方法」は、そのどこにもまとまっていなかった。(かいといたぜ！)

既存アプローチ	問題点
WSL2経由	safetensorsのNTFS→Linux変換でモデル読込が遅い
Docker経由	同上 + セットアップが複雑
cu128ベース	CUDA 12.8ではNVFP4最適化が効かない
断片的なコマンド集	再現性がなく、環境ごとにハマりポイントが違う

「Windowsネイティブ + CUDA 13.0 + 再現可能なワンクリックセットアップ」 — これを全部まとめたパッケージが世の中に存在しなかった。だから自分で作った。

それが ComfyUI-Win-Blackwell だ。

背景がわかったところで、どうやって解決したかを見ていきましょう。

4. 私が設計した「Blackwell on Windowsの5大原則」

4.1 5つの鉄則

3日間の試行錯誤の末に到達した、環境を壊さないための5つのルール。このルールのどれか1つでも破ると、環境が壊れる。 このルールセットの確立自体が、今回の仕事の核心だ。

#	ルール	理由	破った場合
1	PyTorch nightly cu130を使う	stableにはsm_120カーネルがない	`RuntimeError: sm_120 is not compatible`
2	xformersを絶対にインストールしない	PyTorchをstableに強制ダウングレードする	全てが動かなくなる
3	requirements.txtからtorchを除外する	pipがnightlyをstableで上書きする	サイレントなバージョンダウングレード
4	カスタムノード追加後は必ず検証する	ノードの依存関係がstable torchを引き込む	動いていた環境が突然壊れる
5	プロキシ環境変数をクリアする	システムプロキシがpip/git接続をブロック	インストール失敗

4.2 xformersに代わるアーキテクチャ

xformersが使えないなら、何でAttentionを高速化するのか？私が採用したのは triton-windows + torch.compile の組み合わせだ。

従来のComfyUI:          xformers (Metaの高速Attentionライブラリ)
ComfyUI-Win-Blackwell:  triton-windows + torch.compile + SDPA (PyTorch native)

なぜこれが動くのか？

TritonはOpenAIが開発したGPUカーネルコンパイラで、本来Linux専用。しかし woct0rdho 氏による triton-windows フォークがWindowsでの動作を可能にした。これとPyTorchネイティブの torch.compile を組み合わせることで、xformersなしでも実用的な推論速度が得られる。この組み合わせを「ComfyUIのBlackwell標準構成」としてパッケージ化したのが本リポジトリの設計上のポイントだ。

基本概念が理解できたところで、実際にセットアップしてみましょう。

5. 実践：ワンクリックでBlackwell対応ComfyUIを構築する

5.1 前提条件

項目	要件
OS	Windows 10/11（64bit）
GPU	NVIDIA GeForce RTX 5090 / 5080 / 5070（Blackwellアーキテクチャ）
NVIDIAドライバ	580以上
Git	インストール済み
7-Zip	インストール済み

5.2 ワンクリックセットアップ

# リポジトリをクローン
git clone https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell.git
cd ComfyUI-Win-Blackwell

# setup.batをダブルクリック（約20分で完了）
# または手動実行:
powershell -ExecutionPolicy Bypass -File setup.ps1

# ComfyUIを起動
.\run.bat

# ブラウザで http://localhost:8188 を開く

setup.batの中でやっていること

Python 3.13環境のセットアップ
PyTorch nightly cu130のインストール（stableではなくnightly）
triton-windowsのインストール（xformersの代わり）
ComfyUI本体のクローンと依存関係インストール（torchを除外した独自requirements）
28個の検証済みカスタムノードの一括インストール
インストール後のPyTorchバージョン検証（cu130が維持されているか確認）

5.3 環境別の設定ファイル

開発環境用（デフォルト）

# configs/extra_model_paths.yaml - 開発環境
# モデルを別ディレクトリで管理する場合に使用
comfyui:
  base_path: D:/AI/models/
  checkpoints: checkpoints/
  loras: loras/
  vae: vae/
  clip: clip/

共有モデル環境用（複数ComfyUIインスタンスで共有）

# configs/extra_model_paths.shared.yaml - 共有環境
# 複数のComfyUIインスタンスでモデルを共有する場合
comfyui:
  base_path: \\NAS\ai-models\
  checkpoints: checkpoints/
  loras: loras/
  vae: vae/

CI/テスト環境用（最小構成）

# configs/extra_model_paths.test.yaml - テスト環境
# 動作確認用の最小構成
comfyui:
  base_path: ./test_models/
  checkpoints: checkpoints/

5.4 環境検証スクリプト

セットアップ完了後、以下のコマンドで環境を検証する。このスクリプトも自作した。Blackwell固有のチェック項目（sm_120対応、cu130バージョン確認、Triton動作確認、torch.compileテスト）を一括で検証できる。

python verify_env.py

正常時の出力:

============================================================
  Blackwell (sm_120) Environment Verification
============================================================

  [OK]   Python
  [OK]   NVIDIA Driver
  [OK]   PyTorch
  [OK]   Triton
  [OK]   Core Packages
  [OK]   torch.compile

  Environment is ready for Blackwell GPU!

5.5 よくあるエラーと対処法

エラー	原因	対処法
`RuntimeError: sm_120 is not compatible`	PyTorchがstable版	`pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130`
`Value not in list`（モデルパス）	Linuxワークフローのパス区切り文字	`python scripts/fix_windows_compat.py your_workflow.json`（リポジトリ同梱）
`SageAttention not available`	SageAttentionのビルド困難	ワークフローで `attention_mode` を `sdpa` に変更
PyTorchバージョンが勝手に変わった	カスタムノードの依存関係	`python -c "import torch; print(torch.__version__)"` で確認、cu130でなければ再インストール
Tritonコンパイルエラー	triton-windowsの互換性問題	ワークフローから `compile_args` を切断。RTX 5090はtorch.compileなしでも十分高速

5.6 Windows互換性自動修正ツール（自作）

Linuxで作成されたワークフローをWindowsで使うと、パス区切り文字やSageAttention指定が原因でエラーになる。これも自動修正スクリプトを同梱した。

# ワークフローのWindows互換性を自動修正
python scripts/fix_windows_compat.py your_workflow.json

このスクリプトは以下を自動処理する:

モデルパスの / → \ 変換
sageattn → sdpa への置換
その他のWindows固有の非互換設定の検出と修正

実装方法がわかったので、次は検証済みのカスタムノードとパイプラインを見ていきます。

6. ユースケース別ガイド：1つずつ検証した28ノード＋5つのI2Vパイプライン

以下の検証結果は全て、RTX 5090（32GB VRAM）+ Windows 11 + CUDA 13.0 + PyTorch nightly cu130の環境で、1ノードずつインストール→動作確認→PyTorchバージョン検証を行った結果だ。

6.1 ユースケース1：AI動画生成（Wan 2.1 / LTX-Video / HunyuanVideo）

想定読者: テキストまたは画像からAI動画を生成したい方

検証済みImage-to-Videoモデルとパフォーマンス:

モデル	パラメータ数	FP8サイズ	32GB VRAMでの動作
HunyuanVideo 1.5 I2V	8.3B	~16GB	スムーズ（推奨）
Kandinsky 5.0 Lite I2V	2B	~4GB	非常にスムーズ
LTX-2 I2V	19B	~25GB	FP8で動作
LongCat-Video TI2V	13.6B	~14.5GB	調整ありで動作
Kandinsky 5.0 Pro I2V	19B	~40GB	CPUオフロード必要、低速

サンプルワークフロー構成:

# HunyuanVideo 1.5 I2V の最小構成例
# ComfyUI上で以下のノードを接続:
# 1. Load Diffusion Model → HunyuanVideo 1.5 (FP8)
# 2. Load CLIP → umt5-xxl
# 3. CLIP Text Encode → プロンプト入力
# 4. Load Image → 入力画像
# 5. KSampler → attention_mode: sdpa (SageAttentionではなく)
# 6. Video Combine → 出力

# 重要: attention_modeは必ず "sdpa" を指定
# ComfyUI-Win-Blackwellではxformers/SageAttentionを使わない設計

6.2 ユースケース2：AI音楽生成（ACE-Step / HeartMuLa）

想定読者: AI画像/動画にBGMを付けたい方

検証済みノード:

ComfyUI-AceMusic（ACE-Step音楽生成）
ComfyUI-HeartMuLa（HeartMuLa音楽生成）
ComfyUI-MelBandRoFormer（音源分離）

# ACE-Step音楽生成の基本フロー
# 1. テキストプロンプトで楽曲の雰囲気を指定
# 2. ACE-Stepモデルが楽曲を生成
# 3. MelBandRoFormerで必要に応じて音源分離
# 4. Video CombineノードでAI動画と合成

# この構成でBlackwell + cu130での動作を確認済み

6.3 ユースケース3：画像編集・加工パイプライン

想定読者: ControlNetやDepth推定を使った高度な画像編集をしたい方

検証済みノード（抜粋）:

comfyui-impact-pack（検出＆インペインティング）
comfyui_controlnet_aux（ControlNetプリプロセッサ）
comfyui-depthanythingv2（深度推定）
ComfyUI-Step1X-Edit（Step1X画像編集）

# ControlNet + Depth推定パイプラインの基本構成
# 1. 入力画像をDepthAnythingV2で深度マップに変換
# 2. ControlNet Auxでポーズ/エッジ検出
# 3. Impact Packで特定領域のインペインティング
# 4. LayerStyleで合成・レイヤー処理

# 28ノード全てのリストはリポジトリのREADMEを参照:
# https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell

ユースケースを把握できたところで、この先の学習パスを確認しましょう。

7. 学習ロードマップ

この記事を読んだ後、次のステップとして以下をおすすめします。

初級者向け（まずはここから）

ComfyUI-Win-Blackwell をクローンして setup.bat を実行 — 約20分で環境構築が完了する
ComfyUI公式ドキュメントでワークフローの基本を学ぶ
HunyuanVideo 1.5 I2Vでテキストから動画生成を試す（VRAM消費が32GBに収まる推奨モデル）

中級者向け（実践に進む）

複数のI2Vモデルを切り替えて画質・速度を比較する
ACE-StepやHeartMuLaで音楽生成を組み合わせ、動画+BGMのパイプラインを構築
update.bat で環境を最新に保ちつつ、Blackwell互換性を維持する

上級者向け（さらに深く）

NVFP4量子化を活用して推論速度を2倍にする（cu130 + Blackwell専用の最適化）
torch.compile のオプションを調整してモデル別にパフォーマンスチューニング
新しいカスタムノードをBlackwell環境で検証し、リポジトリにPRを送る — 一緒にBlackwell対応を広げていきましょう

8. まとめ

この記事では、RTX 50シリーズ（Blackwell）でComfyUIを動かすために必要な以下を解説しました。

Blackwell世代が直面するCUDA Gap問題の構造 — sm_120未対応のstable PyTorch、xformers非互換、Tritonの Linux限定という三重苦
xformersを捨てる設計判断 — triton-windows + torch.compile + SDPAで代替するアーキテクチャ
ワンクリックで再現可能なセットアップ — 28カスタムノード + 5つのI2Vパイプライン検証済みのリポジトリ

私の所感

今回のリポジトリ ComfyUI-Win-Blackwell を作って公開した最大の理由は、「1000コメント超のサポートスレッドから正解を掘り出す苦行」を、自分以降の人に味わわせたくなかったからだ。

調べた限り、以下の組み合わせを再現可能なパッケージとして公開したのは、このリポジトリが世界初だ。

Windowsネイティブ（WSL2/Docker不要）
CUDA 13.0（cu130） 対応（既存ガイドの大半はcu128）
xformersを意図的に排除し、triton-windows + torch.compileで代替する設計
28カスタムノードの個別検証 + 5つのI2Vパイプラインの動作確認
ワンクリックセットアップ（setup.bat）+ 環境検証スクリプト（verify_env.py）+ Windows互換性自動修正（fix_windows_compat.py）

「最新GPUを買ったのに動かない」という体験は、AI画像生成の世界への入り口で人を追い返してしまう。それが解消できるなら、3日間で得た知見をパッケージにする価値は十分にある。

MITライセンスで公開しているので、使ってみてほしい。そしてもし新しいカスタムノードやワークフローを検証したら、ぜひPRを送ってください。

参考文献

ComfyUI-Win-Blackwell リポジトリ ← 本記事の成果物
ComfyUI公式 Blackwellサポートスレッド (Discussion #6643)
ComfyUI公式システム要件
triton-windows
ComfyUI NVFP4最適化ブログ

X: @geneLab_999

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up