初めに
こんにちは、
Akira_0809です
今回は、マイクラのプレイ画面を生成できるAIについて紹介します。
Oasisとは
Decartによって開発された生成AIです。
ユーザーの入力に応じてマイクラの画面が生成されます。
ユーザーはリアルタイムに生成される世界でブロックを破壊したり設置したりすることが出来ます。
デモ
なんとデモが公開されているのでプレイ出来ます!!!
簡単な仕組み
簡単に仕組みを説明します、
空間オートエンコーダー
画像データを効率的に処理するために、Vision Transformer (ViT)ベースのオートエンコーダーを使用しています。
エンコーダー
入力画像を特徴空間に圧縮します。これにより、高次元の画像データを低次元の表現に変換します。
デコーダー
圧縮された特徴空間から元の画像を再構築します。この再構成によって、生成されたフレームの品質が保証されます。
ViT-VAEは、通常の畳み込みニューラルネットワーク(CNN)と比べて、長距離の依存関係を効率的に学習できるため、画像の細部や広範囲の文脈情報を保つの適しています。
ラテントディフュージョンモデル
Transformerに基づく拡散モデル(DiT)が採用されています。
ディフュージョンプロセス
ノイズ付加と除去
データに徐々にノイズを加え、ランダムな状態にします。その後、学習された拡散過程を逆転して、ノイズからデータを生成します。
長時間の安定性
フレーム間の連続性を保つために「動的ノイズスケジューリング」を導入。初期のフレームではノイズを注入して小さな誤差を修正し、後半では詳細なディテールを復元します。
オートリグレッシブ生成
フレームを1つずつ順番に生成し、各フレームが前のフレームに依存します。この手法により、ユーザーの入力が生成結果に反映されます。
つまり
ユーザーの入力によって前のフレームを変化させるイメージ
今後の展望
現在は、360p解像度で約20フレーム/秒のパフォーマンスを実現しています。
今後は、Etched社のSohuチップによって4K解像度での実行が可能になる予定です。
まとめ
デモプレイしてみたけど、夢の中のマイクラみたいで面白かった!
みんなもやってみてね!