1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RTX 5090でComfyUIを動かそうとしたら「全ての常識」が通用しなかった — Windowsネイティブ完全対応キットを自作して公開した

1
Last updated at Posted at 2026-03-02

この記事の対象読者

  • RTX 50シリーズ(5090 / 5080 / 5070)を購入した、または購入を検討している方
  • ComfyUIでAI画像・動画生成をやりたいWindows環境の方
  • sm_120 is not compatible」「xformersが入らない」で絶望した経験のある方

この記事で得られること

  • なぜBlackwell世代のGPUでComfyUIが「普通には」動かないのかの根本原因の理解
  • WSL2もDockerも不要。Windowsネイティブでワンクリックセットアップする方法
  • 28個のカスタムノード + 5つのImage-to-Videoパイプラインを1つずつ検証した結果

この記事で扱わないこと

  • Linux/WSL2環境でのセットアップ(公式スレッドで十分にカバーされている)
  • RTX 40シリーズ以前のGPUへの対応(そもそもcu128のstable PyTorchで動く)

1. 「全部入り」のGPUを買ったら、何も動かなかった

RTX5090を手に入れたとき、正直なところ「最強のGPUなんだから、セットアップなんて余裕だろう」と思っていた。OMG!!舐めちゃいけいないぜベイビー

32GB VRAM。Blackwellアーキテクチャ。CUDA 13.0対応。スペックシートは完璧だった。

しかし、ComfyUIをインストールして run.bat を叩いた瞬間に表示されたのは、こんなエラーだった。

RuntimeError: sm_120 is not compatible

sm_120。Blackwellアーキテクチャの計算能力を示すこのコード、PyTorchのstableリリースはこれを知らない。

ここから3日間の地獄が始まった。そして3日後、自分で解決策を全部パッケージングして公開リポジトリにした。それが ComfyUI-Win-Blackwell だ。

ここまでで「あ、RTX 50シリーズ特有の問題なんだ」と感じた方、正解です。次は、なぜこんなことが起きるのかを整理しましょう。最新のGPUだから世界がついてきてないんだぜ!?まあもう発売1年経ってますけどね、、、。


2. 前提知識の確認

本題に入る前に、この記事で登場する用語を確認します。

2.1 sm_120(Compute Capability)とは

NVIDIAの各GPUアーキテクチャには「計算能力」を示すコード番号がある。料理で言えば「ガスコンロの型番」みたいなもので、ソフトウェア側がこの型番を知らないと火が点かない。

アーキテクチャ Compute Capability 代表GPU
Ampere sm_86 RTX 3090
Ada Lovelace sm_89 RTX 4090
Blackwell sm_120 RTX 5090 / 5080 / 5070

2.2 CUDA Gapとは

最新GPUのCompute Capabilityに対して、PyTorchなどのフレームワークが追いつかない期間のこと。新しいGPUが発売されてから数ヶ月間、stableリリースでは動かないという「暗黒期」が発生する。

2.3 xformersとは

Meta(旧Facebook)が開発したAttention計算の高速化ライブラリ。ComfyUIのパフォーマンスを大幅に向上させる定番ツール――だったのだが、今回の主役は「xformersを使わない」という話だ。

これらの用語が押さえられたら、Blackwell世代が抱える構造的問題を見ていきましょう。


3. Blackwell世代のComfyUI環境が「壊れている」理由

3.1 構造的な問題の全体像

2026年初頭時点で、RTX 50シリーズでComfyUIを動かすには以下の問題が同時に発生する。なんでだよ...

Blackwell環境の構造的問題

  1. PyTorch stableがsm_120カーネルを含んでいない → nightlyビルド必須(まだかよ)
  2. xformersがBlackwell nightlyと非互換 → インストールするとPyTorchがstableにダウングレードされる
  3. Triton公式がLinuxのみ → Windows用の代替フォークが必要
  4. カスタムノードが依存関係でstable PyTorchを引き込む → サイレントに環境が壊れる

3.2 既存ガイドの限界 — だから自分で作った

ComfyUI公式のBlackwellサポートスレッド(Discussion #6643)は1000コメントを超えている。しかし「WindowsネイティブでBlackwellを完全に動かす方法」は、そのどこにもまとまっていなかった。(かいといたぜ!)

既存アプローチ 問題点
WSL2経由 safetensorsのNTFS→Linux変換でモデル読込が遅い
Docker経由 同上 + セットアップが複雑
cu128ベース CUDA 12.8ではNVFP4最適化が効かない
断片的なコマンド集 再現性がなく、環境ごとにハマりポイントが違う

「Windowsネイティブ + CUDA 13.0 + 再現可能なワンクリックセットアップ」 — これを全部まとめたパッケージが世の中に存在しなかった。だから自分で作った。

それが ComfyUI-Win-Blackwell だ。

背景がわかったところで、どうやって解決したかを見ていきましょう。


4. 私が設計した「Blackwell on Windowsの5大原則」

4.1 5つの鉄則

3日間の試行錯誤の末に到達した、環境を壊さないための5つのルール。このルールのどれか1つでも破ると、環境が壊れる。 このルールセットの確立自体が、今回の仕事の核心だ。

# ルール 理由 破った場合
1 PyTorch nightly cu130を使う stableにはsm_120カーネルがない RuntimeError: sm_120 is not compatible
2 xformersを絶対にインストールしない PyTorchをstableに強制ダウングレードする 全てが動かなくなる
3 requirements.txtからtorchを除外する pipがnightlyをstableで上書きする サイレントなバージョンダウングレード
4 カスタムノード追加後は必ず検証する ノードの依存関係がstable torchを引き込む 動いていた環境が突然壊れる
5 プロキシ環境変数をクリアする システムプロキシがpip/git接続をブロック インストール失敗

4.2 xformersに代わるアーキテクチャ

xformersが使えないなら、何でAttentionを高速化するのか? 私が採用したのは triton-windows + torch.compile の組み合わせだ。

従来のComfyUI:          xformers (Metaの高速Attentionライブラリ)
ComfyUI-Win-Blackwell:  triton-windows + torch.compile + SDPA (PyTorch native)

なぜこれが動くのか?

TritonはOpenAIが開発したGPUカーネルコンパイラで、本来Linux専用。しかし woct0rdho 氏による triton-windows フォークがWindowsでの動作を可能にした。これとPyTorchネイティブの torch.compile を組み合わせることで、xformersなしでも実用的な推論速度が得られる。この組み合わせを「ComfyUIのBlackwell標準構成」としてパッケージ化したのが本リポジトリの設計上のポイントだ。

基本概念が理解できたところで、実際にセットアップしてみましょう。


5. 実践:ワンクリックでBlackwell対応ComfyUIを構築する

5.1 前提条件

項目 要件
OS Windows 10/11(64bit)
GPU NVIDIA GeForce RTX 5090 / 5080 / 5070(Blackwellアーキテクチャ)
NVIDIAドライバ 580以上
Git インストール済み
7-Zip インストール済み

5.2 ワンクリックセットアップ

# リポジトリをクローン
git clone https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell.git
cd ComfyUI-Win-Blackwell

# setup.batをダブルクリック(約20分で完了)
# または手動実行:
powershell -ExecutionPolicy Bypass -File setup.ps1

# ComfyUIを起動
.\run.bat

# ブラウザで http://localhost:8188 を開く

setup.batの中でやっていること

  • Python 3.13環境のセットアップ
  • PyTorch nightly cu130のインストール(stableではなくnightly)
  • triton-windowsのインストール(xformersの代わり)
  • ComfyUI本体のクローンと依存関係インストール(torchを除外した独自requirements)
  • 28個の検証済みカスタムノードの一括インストール
  • インストール後のPyTorchバージョン検証(cu130が維持されているか確認)

5.3 環境別の設定ファイル

開発環境用(デフォルト)

# configs/extra_model_paths.yaml - 開発環境
# モデルを別ディレクトリで管理する場合に使用
comfyui:
  base_path: D:/AI/models/
  checkpoints: checkpoints/
  loras: loras/
  vae: vae/
  clip: clip/

共有モデル環境用(複数ComfyUIインスタンスで共有)

# configs/extra_model_paths.shared.yaml - 共有環境
# 複数のComfyUIインスタンスでモデルを共有する場合
comfyui:
  base_path: \\NAS\ai-models\
  checkpoints: checkpoints/
  loras: loras/
  vae: vae/

CI/テスト環境用(最小構成)

# configs/extra_model_paths.test.yaml - テスト環境
# 動作確認用の最小構成
comfyui:
  base_path: ./test_models/
  checkpoints: checkpoints/

5.4 環境検証スクリプト

セットアップ完了後、以下のコマンドで環境を検証する。このスクリプトも自作した。Blackwell固有のチェック項目(sm_120対応、cu130バージョン確認、Triton動作確認、torch.compileテスト)を一括で検証できる。

python verify_env.py

正常時の出力:

============================================================
  Blackwell (sm_120) Environment Verification
============================================================

  [OK]   Python
  [OK]   NVIDIA Driver
  [OK]   PyTorch
  [OK]   Triton
  [OK]   Core Packages
  [OK]   torch.compile

  Environment is ready for Blackwell GPU!

5.5 よくあるエラーと対処法

エラー 原因 対処法
RuntimeError: sm_120 is not compatible PyTorchがstable版 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130
Value not in list(モデルパス) Linuxワークフローのパス区切り文字 python scripts/fix_windows_compat.py your_workflow.json(リポジトリ同梱)
SageAttention not available SageAttentionのビルド困難 ワークフローで attention_modesdpa に変更
PyTorchバージョンが勝手に変わった カスタムノードの依存関係 python -c "import torch; print(torch.__version__)" で確認、cu130でなければ再インストール
Tritonコンパイルエラー triton-windowsの互換性問題 ワークフローから compile_args を切断。RTX 5090はtorch.compileなしでも十分高速

5.6 Windows互換性自動修正ツール(自作)

Linuxで作成されたワークフローをWindowsで使うと、パス区切り文字やSageAttention指定が原因でエラーになる。これも自動修正スクリプトを同梱した。

# ワークフローのWindows互換性を自動修正
python scripts/fix_windows_compat.py your_workflow.json

このスクリプトは以下を自動処理する:

  • モデルパスの /\ 変換
  • sageattnsdpa への置換
  • その他のWindows固有の非互換設定の検出と修正

実装方法がわかったので、次は検証済みのカスタムノードとパイプラインを見ていきます。


6. ユースケース別ガイド:1つずつ検証した28ノード+5つのI2Vパイプライン

以下の検証結果は全て、RTX 5090(32GB VRAM)+ Windows 11 + CUDA 13.0 + PyTorch nightly cu130の環境で、1ノードずつインストール→動作確認→PyTorchバージョン検証を行った結果だ。

6.1 ユースケース1:AI動画生成(Wan 2.1 / LTX-Video / HunyuanVideo)

想定読者: テキストまたは画像からAI動画を生成したい方

検証済みImage-to-Videoモデルとパフォーマンス:

モデル パラメータ数 FP8サイズ 32GB VRAMでの動作
HunyuanVideo 1.5 I2V 8.3B ~16GB スムーズ(推奨)
Kandinsky 5.0 Lite I2V 2B ~4GB 非常にスムーズ
LTX-2 I2V 19B ~25GB FP8で動作
LongCat-Video TI2V 13.6B ~14.5GB 調整ありで動作
Kandinsky 5.0 Pro I2V 19B ~40GB CPUオフロード必要、低速

サンプルワークフロー構成:

# HunyuanVideo 1.5 I2V の最小構成例
# ComfyUI上で以下のノードを接続:
# 1. Load Diffusion Model → HunyuanVideo 1.5 (FP8)
# 2. Load CLIP → umt5-xxl
# 3. CLIP Text Encode → プロンプト入力
# 4. Load Image → 入力画像
# 5. KSampler → attention_mode: sdpa (SageAttentionではなく)
# 6. Video Combine → 出力

# 重要: attention_modeは必ず "sdpa" を指定
# ComfyUI-Win-Blackwellではxformers/SageAttentionを使わない設計

6.2 ユースケース2:AI音楽生成(ACE-Step / HeartMuLa)

想定読者: AI画像/動画にBGMを付けたい方

検証済みノード:

  • ComfyUI-AceMusic(ACE-Step音楽生成)
  • ComfyUI-HeartMuLa(HeartMuLa音楽生成)
  • ComfyUI-MelBandRoFormer(音源分離)
# ACE-Step音楽生成の基本フロー
# 1. テキストプロンプトで楽曲の雰囲気を指定
# 2. ACE-Stepモデルが楽曲を生成
# 3. MelBandRoFormerで必要に応じて音源分離
# 4. Video CombineノードでAI動画と合成

# この構成でBlackwell + cu130での動作を確認済み

6.3 ユースケース3:画像編集・加工パイプライン

想定読者: ControlNetやDepth推定を使った高度な画像編集をしたい方

検証済みノード(抜粋):

  • comfyui-impact-pack(検出&インペインティング)
  • comfyui_controlnet_aux(ControlNetプリプロセッサ)
  • comfyui-depthanythingv2(深度推定)
  • ComfyUI-Step1X-Edit(Step1X画像編集)
# ControlNet + Depth推定パイプラインの基本構成
# 1. 入力画像をDepthAnythingV2で深度マップに変換
# 2. ControlNet Auxでポーズ/エッジ検出
# 3. Impact Packで特定領域のインペインティング
# 4. LayerStyleで合成・レイヤー処理

# 28ノード全てのリストはリポジトリのREADMEを参照:
# https://github.com/hiroki-abe-58/ComfyUI-Win-Blackwell

ユースケースを把握できたところで、この先の学習パスを確認しましょう。


7. 学習ロードマップ

この記事を読んだ後、次のステップとして以下をおすすめします。

初級者向け(まずはここから)

  1. ComfyUI-Win-Blackwell をクローンして setup.bat を実行 — 約20分で環境構築が完了する
  2. ComfyUI公式ドキュメントでワークフローの基本を学ぶ
  3. HunyuanVideo 1.5 I2Vでテキストから動画生成を試す(VRAM消費が32GBに収まる推奨モデル)

中級者向け(実践に進む)

  1. 複数のI2Vモデルを切り替えて画質・速度を比較する
  2. ACE-StepやHeartMuLaで音楽生成を組み合わせ、動画+BGMのパイプラインを構築
  3. update.bat で環境を最新に保ちつつ、Blackwell互換性を維持する

上級者向け(さらに深く)

  1. NVFP4量子化を活用して推論速度を2倍にする(cu130 + Blackwell専用の最適化)
  2. torch.compile のオプションを調整してモデル別にパフォーマンスチューニング
  3. 新しいカスタムノードをBlackwell環境で検証し、リポジトリにPRを送る — 一緒にBlackwell対応を広げていきましょう

8. まとめ

この記事では、RTX 50シリーズ(Blackwell)でComfyUIを動かすために必要な以下を解説しました。

  1. Blackwell世代が直面するCUDA Gap問題の構造 — sm_120未対応のstable PyTorch、xformers非互換、Tritonの Linux限定という三重苦
  2. xformersを捨てる設計判断 — triton-windows + torch.compile + SDPAで代替するアーキテクチャ
  3. ワンクリックで再現可能なセットアップ — 28カスタムノード + 5つのI2Vパイプライン検証済みのリポジトリ

私の所感

今回のリポジトリ ComfyUI-Win-Blackwell を作って公開した最大の理由は、「1000コメント超のサポートスレッドから正解を掘り出す苦行」を、自分以降の人に味わわせたくなかったからだ。

調べた限り、以下の組み合わせを再現可能なパッケージとして公開したのは、このリポジトリが世界初だ。

  • Windowsネイティブ(WSL2/Docker不要)
  • CUDA 13.0(cu130) 対応(既存ガイドの大半はcu128)
  • xformersを意図的に排除し、triton-windows + torch.compileで代替する設計
  • 28カスタムノードの個別検証 + 5つのI2Vパイプラインの動作確認
  • ワンクリックセットアップ(setup.bat)+ 環境検証スクリプト(verify_env.py)+ Windows互換性自動修正(fix_windows_compat.py)

「最新GPUを買ったのに動かない」という体験は、AI画像生成の世界への入り口で人を追い返してしまう。それが解消できるなら、3日間で得た知見をパッケージにする価値は十分にある。

MITライセンスで公開しているので、使ってみてほしい。そしてもし新しいカスタムノードやワークフローを検証したら、ぜひPRを送ってください。


参考文献


X: @geneLab_999

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?