はじめに
ローカル動画生成AIの革命児とも呼ばれている「FramePack」をMacbookで使用しました。
簡単にインストールできるので気になった方はぜひ参考にしてみてください。
FramePackとは
FramePackは、従来の動画生成モデルが抱えていたメモリ使用量の増加や品質劣化といった課題を解決し、一般的なノートPCでも高品質な動画生成を可能にする革新的なツールです。
特徴
次フレーム予測モデル
FramePackは、次のフレーム(またはフレームセクション)を予測するニューラルネットワーク構造を採用しており、動画を逐次的に生成します
固定長のコンテキスト圧縮
入力フレームのコンテキストを圧縮し、トランスフォーマーのコンテキスト長を一定に保つことで、動画の長さに関係なく一定の計算負荷で処理が可能
大幅なメモリ効率の向上
6GBのVRAMでも安定して動作可能(以前は少なくても12GBは必要になることが多かった)
オープンソースでの提供
FramePackはオープンソースとして提供されており、GitHubリポジトリから入手可能
環境
14-inch MacBook Pro
Chip: Apple M4 Pro
Memory: 48GB
OS: 15.1
インストール
公式のReadmeに沿って作業します
https://github.com/lllyasviel/FramePack
1, macOSに対応したリポジトリをクローン
git clone https://github.com/brandon929/FramePack.git
cd FramePack
2, Pythonの3系をbrewでインストール
brew install python@3.10
3,dependenciesのインストール
pip3.10 install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu
pip3.10 install -r requirements.txt
4, 起動(初回実行はモデルのダウンロード等行われるため少し待ちます)
python3.10 demo_gradio.py
「http://0.0.0.0:7860/」 でアクセスし、下記画面が表示されたら準備完了
使ってみる
使い方としては、画面左上のImageのビューに画像を読み込ませ、promptに文章を入力します。
今回はポテトを食べている女性の画像を使用し、プロンプトは以下を設定
A woman continuously eating French fries
まずはデフォルトの設定でテスト。
Pythonで使用しているCPU使用率は約30%、メモリは約38GBを常駐している状態
ステータスはターミナルとサイト上にプログレスバーが表示されます
途中でメモリー不足の警告がMacOS側で発生しPCが完全にフリーズしたため、必要のないアプリケーションを閉じ、再度実行
2度目の実行では20分ほどで以下動画が生成されました。
感想
-
メモリ48GBのMacBook Proでも、初回実行時にメモリ不足でフリーズするほどの高負荷がかかりました。実行前に必要のないアプリケーションは閉じたほうが良さそう
-
Mac環境でAI動画生成を手軽に試せる点は非常に魅力的。GradioベースのGUIで画像の読み込みやプロンプトの入力も直感的に行えるのも使いやすくて良い
-
AIによる動画生成はクラウドが主流ですが、今後、モデルの軽量化や最適化が進めば、より多くのユーザーが手軽に利用できるようになると思いました