Hunyuan Video
Hunyuan Videoはテンセントが開発した動画生成AIです。
Hunyuan Videoで文章から動画を生成するText to Video(T2V)について以前の記事で解説済みですが、2025/3/6に画像を元に動画生成するImage to Video(I2V)に対応したので、改めてM4 Mac miniでコマンドラインとComfyUIによるHunyuan Videoの活用の手順を一から説明していきます。
なお、この記事はM4 Mac mini向けですが、macOS固有の内容は準備の部分までなので、Windows+Geforce等ComfyUIが正常に動く環境であれば、Hunyuan Videoによる動画生成以降の動画生成のワークフロー等はそのまま活用できます(というか、最初にWindows + Geforce 3060でHunyuan Videoの動画生成手順を確認して、それをM4 Mac miniで適用できるよう修正しました)。
Windows等でのHunyuanVideoによる動画生成作業手順が必要な方はHunyuan Videoによる動画生成以降を参照してください(WindowsのばあいFinderはエクスプローラーに置き換えてください)。
更新履歴
- 2025/3/24
clipの移動先が間違っていたので修正 - 2025/3/10
Hunyun Video T2V用ワークフローを修正(FastVideo LoRAがガイダーに反映されていなかった点を修正) - 2025/3/9
公開
使用機器
M4 Mac mini(最小スペック構成)
種類 | 内容 |
---|---|
CPU | 10コア(高性能4コア+ 高効率6コア) |
GPU | 10コア |
NE | 内蔵Apple Neural Engine |
メモリ | 16GB |
OS | macOS sequoia(15.3.1) |
準備
以下の解説ではホームフォルダ以下で作業します。別なフォルダで作業する場合は適宜読み替えてください。
画面下のDockのLaunchpadのその他からターミナルを起動してください。
以下、黒で囲われている枠内の先頭が
% で始まる文字列が入力するコマンドになっています。
% `はプロンプトなので、それ以降の部分をターミナルに貼り付けてEnterキーを押して実行してください。
xcodeとbrewのインストール
xcodeとbrewをインストールしていない場合は両方インストールしてください。
xcode
% xcode-select --install
コマンドライン版xcodeをインストールしていない場合、
というダイアログが出るので、インストールを押して、契約に同意してインストールしてください。インストールには時間がかかります。
brew
% /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
==> Checking for `sudo` access (which may request your password)...
Password:
...
Press RETURN/ENTER to continue or any other key to abort:
パスワードを聞かれるので入力し、さらに続けるか聞かれるので、Enterキーを押してインストールします。
...
==> Next steps:
- Run these commands in your terminal to add Homebrew to your PATH:
echo >> /Users/asfdrwe/.zprofile
echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> /Users/asfdrwe/.zprofile
eval "$(/opt/homebrew/bin/brew shellenv)"
- Run brew help to get started
- Further documentation:
https://docs.brew.sh
最後に環境変数の設定をするように指示があるので、設定してください(HOME環境変数を利用してユーザ名に関わらず実行できるよう変更しています)。
% echo >> $HOME/.zprofile
% echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> $HOME/.zprofile
% eval "$(/opt/homebrew/bin/brew shellenv)"
brew
コマンドが正常に動作するか確認してください。
% brew
Example usage:
brew search TEXT|/REGEX/
brew info [FORMULA|CASK...]
brew install FORMULA|CASK...
...
brewで必要なツールをインストール
brew
を使い、git
やpython
、ffmpeg
をインストールしてください。2025/3/9時点でpythonは3.13.2が入りますが、ComfyUIは3.13でも正常に動くので、これを使います。
% brew install git python ffmpeg
ComfyUI
ComfyUIのインストール
git
コマンドでインストールします。
% git clone https://github.com/comfyanonymous/ComfyUI.git
ComfyUI
フォルダに移動し、
% cd ComfyUI
venv
による仮想環境を構築して有効にします(以後プロンプトに(venv)が付きます)。
% python3.13 -m venv venv
% . venv/bin/activate
pip
で必要なファイルをインストールします。
% pip install -r requirements.txt
...
[notice] A new release of pip is available: 25.0 -> 25.0.1
[notice] To update, run: pip install --upgrade pip
...
pip
のアップグレードが必要と表示されている場合はアップグレードしてもういちど実行してください。
% pip install --upgrade pip
% pip install -r requirements.txt
ComfyUI-Managerのインストール
起動の前にComfyUIの拡張機能をComfyUI上で管理できるComfyUI-Managerをインストールします。
custom_nodes
フォルダに移動し、git
でComfyUI-Managerをインストールし、元のフォルダに戻ります。
% cd custom_nodes
% git clone https://github.com/ltdrdata/ComfyUI-Manager.git
% cd ..
ComfyUIの起動
次のコマンドでComfyUIを実行します。初回起動時は若干時間がかかります。ComfyUIを終了したい場合は、ターミナルでCtrlキー+cを押してください。
% python3 main.py
...
To see the GUI go to: http://127.0.0.1:8188
[ComfyUI-Manager] default cache updated: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/alter-list.json
[ComfyUI-Manager] default cache updated: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/github-stats.json
[ComfyUI-Manager] default cache updated: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/model-list.json
[ComfyUI-Manager] default cache updated: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/custom-node-list.json
[ComfyUI-Manager] default cache updated: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/extension-node-map.json
FETCH ComfyRegistry Data: 5/57
FETCH ComfyRegistry Data: 10/57
FETCH ComfyRegistry Data: 15/57
FETCH ComfyRegistry Data: 20/57
FETCH ComfyRegistry Data: 25/57
FETCH ComfyRegistry Data: 30/57
FETCH ComfyRegistry Data: 35/57
FETCH ComfyRegistry Data: 40/57
FETCH ComfyRegistry Data: 45/57
FETCH ComfyRegistry Data: 50/57
FETCH ComfyRegistry Data: 55/57
FETCH ComfyRegistry Data [DONE]
[ComfyUI-Manager] default cache updated: https://api.comfy.org/nodes
nightly_channel:
https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/remote
FETCH DATA from: https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main/custom-node-list.json [DONE]
[ComfyUI-Manager] All startup tasks have been completed.
メッセージの表示が止まり、http://127.0.0.1:8188を開くように指示が出るので、ブラウザで開いてください。
初回は画像生成用のワークフローが自動的に開かれ、必要なモデルがないと表示されるので、動作確認用に画像生成AIモデルのv1-5-pruned-emaonly-fp16.safetensors
をダウンロードし、メッセージを閉じてください。
ダウンロードしたv1-5-pruned-emaonly-fp16.safetensors
を、ダウンロードフォルダからComfyUI
フォルダのmodels
フォルダのcheckpoints
フォルダにFinderで移動させてください。
ダウンロードフォルダとは別に、Finderのメニューのファイルから新規Finderウィンドウを選んでFinderをもう一枚開きます。ホームフォルダが選べるならそこからComfyUI
フォルダのmodels
フォルダのcheckpoints
フォルダに移動します。ホームフォルダを選べない場合、Finderのメニュー→移動→フォルダへ移動を選び、/Users/ユーザ名/ComfyUI/models/checkpoints
で移動できます。ダウンロードフォルダのファイルをドラッグアンドドロップでcheckpoints
フォルダに移動させてください。
最後にブラウザを再読み込みしてください。
動作確認(画像生成)
動作確認のためComfyUIの画面の中央下の実行を押して画像生成しましょう。
中央上のCLIPテキストエンコード(プロンプト)にある beautiful scenery nature glass bottle landscape, , purple galaxy bottle,
という英語での指示に従い、自然の風景内に紫色の銀河が写っているボトルの画像が生成されます。
ファイルはComfyUI
フォルダのoutput
フォルダに保存されます。
なお、このチュートリアルになっている画像生成用ワークフローは、メニューのワークフロー→テンプレートを参照→Basics内にある画像生成を選ぶことでも開くことができます。
あとでHunyuan VideoのI2Vで画像が必要になるので、そのための画像も生成しておきます。
なんでもいいのですが、とりあえず、cat walking in bedroom
に変更して実行を押すと、寝室で歩いている猫画像が生成されるはずです。
ComfyUIのメニューのワークフローから保存を押し、ファイル名はそのままで保存しておいてください。
Hunyuan Videoによる動画生成
モデルのダウンロード
ComfyUI公式文書を参考に、モデルサイズを小さく縮小したQ4_K_MタイプのGGUF形式のモデルが存在するものは置き換え、さらに高速生成用LoraのFastVideoを適用できるよう修正したワークフローで動画生成します。
次のモデルをすべてダウンロードしてください。クリックすればそのままダウンロードできるように直リンクしてあります。
- T2V用GGUF形式のHunyuan Videoモデル
- I2V用GGUF形式のHunyuan Videoモデル
この2つはComfyUI
フォルダのmodels
フォルダのdiffusion_models
フォルダに移動させてください。
-
clip
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/text_encoders/clip_l.safetensors?download=true
ComfyUI
フォルダのmodels
フォルダのclip
フォルダに移動させてください(2025/3/24修正)。
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/text_encoders/clip_l.safetensors?download=true
-
clip vision
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/clip_vision/llava_llama3_vision.safetensors?download=true
ComfyUI
フォルダのmodels
フォルダのclip_vision
フォルダに移動させてください。
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/clip_vision/llava_llama3_vision.safetensors?download=true
-
LoRA
-
https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hyvideo_FastVideo_LoRA-fp8.safetensors?download=true
ComfyUI
フォルダのmodels
フォルダのloras
フォルダに移動させてください。
-
https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hyvideo_FastVideo_LoRA-fp8.safetensors?download=true
-
text encoders
-
https://huggingface.co/city96/llava-llama-3-8b-v1_1-imat-gguf/resolve/main/llava-llama-3-8B-v1_1-Q4_K_M.gguf?download=true
ComfyUI
フォルダのmodels
フォルダのtext_encoders
フォルダに移動させてください。
-
https://huggingface.co/city96/llava-llama-3-8b-v1_1-imat-gguf/resolve/main/llava-llama-3-8B-v1_1-Q4_K_M.gguf?download=true
-
VAE
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/vae/hunyuan_video_vae_bf16.safetensors?download=true
ComfyUI
フォルダのmodels
フォルダのclip
フォルダに移動させてください。
-
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/resolve/main/split_files/vae/hunyuan_video_vae_bf16.safetensors?download=true
(補足: T2V用のHunyuanVideoモデルに関してはFastVideoを統合したGGUF形式のモデルもこちらにあります)
文章に基づく動画生成(T2V)
公式のワークフローを元に、GGUF形式モデルとFastVideoに対応したワークフローを作成しました。
こちらを右クリックしてリンク先のファイルを別名でダウンロードでファイル名はそのままでダウンロードフォルダにダウンロードしてください(macOSのSafariではファイル名の最後に.txtが付いてしまうのでこうしています)(2025/3/10修正)。
ワークフローファイルをFinder等のファイルマネージャでComfyUIのウィンドウにドラッグアンドドロップして開いてください。
ワークフローに必要な、GGUFを扱うノード(UnetLoaderGGUFとDualCLIPLoaderGGUF)とHunyuanVideo用追加機能付きLoRA(HunyuanVideoLoraLoader)ノードとMP4形式で動画をエンコードできる動画ノード(VHS_VideoCombine)がインストールされていないので、エラーメッセージが表示されます。
右上のManagerを押してComfyUI-Managerを起動してください。
中央上から2段目のInstall Mission Custom Nodesを押して必要な拡張をインストールします。
ComfyUI-GGUF、ComfyUI-VideoHelperSuite、ComfyUI-HunyuanVideoMultiLoraすべてインストールして、画面の指示に従いComfyUIを再起動してください。
実行ボタンを押してください。中央3段目のCLIP Text Encode (Positive Prompt)の文This is a high quality realistic movie of a cat walking in bedroom.
に従い、一つ下のEmptyHunyuanLatentVideoの幅と高さと長さ(HunyuanVideoは24fps(24フレームで1秒))に従い、480x640サイズの1秒の猫が寝室で歩いている動画が生成されます。
ファイルは画像と同様にComfyUI
フォルダのoutput
フォルダに保存されます。
このサイズだと13分程度で生成されます(動画生成自体は8分ぐらいで終わるようですが、ターミナルのメッセージによると、macOSのMetal Performance Shader(mps)ではその後の処理がGPUではなくCPUで処理されるようなので、少し遅くなります)。
CLIP Text Encode (Positive Prompt)ノードでの文章やEmptyHunyuanLatentVideoノードで設定を変えれば、さまざまな動画が作成できると思います。
生成される動画の質に関して、このワークフローでは基本ステジューラノードで指定するステップ数を6にしています。ステップ数が大きいほど生成に時間がかかり、もともとのHunyuan Videoではステップ数は20〜30程度必要です。このワークフローは生成を高速化するFastVideo LoRAを適用しているのでステップ数が6でもそれなりの動画を生成できていますが、動画の質はやや劣ります。FastVideo LoRAを適用したままでもステップ数を増やせば動画の質が向上しますが、その分生成は遅くなります。ステップ数は必要に応じて適宜調整してください。
また、Hunyuan Video用のLoRAを使用する際にはUnet Loader (GGUF)ノードとhyvideo_FastVideo_LoRA-fp8.safetensorsを指定しているHunyuan Video LoRA Loaderノードの間に、右クリックでノードを追加→ローダー→hunyuan→Hunyuan Video LoRA Loaderを押してHunyuan Video LoRA Loaderノードを追加するようにしてください。
Hunyuan Video Multi LoRAの説明によると、動作等の通常のLoRAではblocks_type
をdouble_blocks
のみにした方がぼやけたり変なゴミが載ったりしないようになるようです。
下はプロンプト文章をThis is a high quality realistic movie of a cat walking in bedroom.
に変更し、hunyuan_anime.safetensors LoRAを適用したワークフローと実際の動画例です。
Hunyuan Video用のLoRAはcivitaiなどで探してください。LoRAを自作したい場合はmusubi-tunerやdiffusion-pipeを使ってみてください。musubi-tunerでのキャラクタLoRAの作成の解説はこちら、diffusion-pipeの日本語での使い方の解説はこちらなどがあります。なお、M4 Mac miniでmusubi-tunerやdiffusion-pipeが動くかは確認していません。
画像に基づく動画生成(I2V)
T2Vと同様に公式のワークフローを元に、GGUF形式モデルとFastVideoに対応したワークフローを作成しました。
こちらを右クリックしてリンク先のファイルを別名でダウンロードでファイル名はそのままでダウンロードフォルダにダウンロードしてください。
ワークフローファイルをComfyUIのウィンドウにドラッグアンドドロップして開いてください。
左下の『画像を読み込む』ノードのアップロードするファイルを選択するを押してoutput
フォルダにある画像を選択してアップロードしてください。ComfyUI
フォルダのinput
にアップロードされます。直接input
フォルダに保存してブラウザを再読み込みしてファイルを選択してもOKです。
生成する動画への指示はT2Vと同じです。実行ボタンを押せば、指定した画像をベースにして、中央3段目のCLIP Text Encode (Positive Prompt)ノードの文章『This is a high quality realistic movie of a cat walking in bedroom.
』と一つ下のEmptyHunyuanLatentVideoノードの幅と高さと長さに基づく480x640サイズの1秒の猫が寝室で歩いている動画が生成されます。生成時間はT2Vとほぼ同じです。
元にする画像を変え、CLIP Text Encode (Positive Prompt)ノードの文章を変更し、EmptyHunyuanLatentVideoノードの設定を変えれば、さまざまな動画が作成できると思います。Loraを使用する場合はT2Vと同様にUnet LoaderノードとFastVideoを指定しているLora Loaderノードの間にいれてください。なお、I2VでもT2V用のLoRAは基本的にそのまま使えます。