【マルチモーダルAI】「T2V」「I2V」「V2V」「TI2V」の違い

Posted at 2025-11-03

はじめに

はじめまして．大学院D3兼一般企業でフロントエンドエンジニア3年目のnac2hiと申します．
本記事がQiita初投稿になります🙌

本記事では「マルチモーダルAI」の基礎的用語「T2V」「I2V」「V2V」「TI2V」について，復習がてらシンプルにまとめてみます．

マルチモーダルAIとは、「複数種類のデータ（ex: テキスト、画像）を統合して処理するAI」です．

マルチ（複数の） + モダリティ（データの様式）-> マルチモーダル

多くの生成AIは入力情報の種類で分類できますが，昨今話題の絶えない映像生成に関するAIの場合は「入力情報の種類」「2(to)」「V（Video）」のように分類されています．

単一の情報源（文字情報）から動画を生成する

単一の情報源（画像情報）から動画を生成する

単一の情報源（動画情報）から動画を生成する

複数の異なるモダリティ（画像・文字情報）から動画を生成する

自分が作成しようとするシステムやサービスにおいて
「どの入力によって制御したいのか」「それによって何を出力として得たいのか」といった
Input，Outputを意識してみると，整理や要件定義が結構クリアになるかもしれません．

マルチモーダルAI | AI用語集 | 法人向け | ソフトバンク
R. Sun, Y. Zhang, T. Shah, J. Sun, S. Zhang, W. Li, H. Duan, B. Wei and R. Ranjan, "From Sora What We Can See: A Survey of Text-to-Video Generation," arxiv, p. arXiv:2405.10674v1, 17 5 2024.
K. Niu, W. Liu, N. Sharif and D. Zhu, "Conditional Video Generation Guided by Multimodal Inputs: A Comprehensive Survey," 31 7 2024.
F. Fan, C. Luo, W. Gao and J. Zhan, "AIGCBench: Comprehensive evaluation of image-to-video content generated by AI," BenchCouncil Transactions on Benchmarks, Standards and Evaluations, vol. 4, no. 4, p. 100152, 12 2023.
Y. Hu, C. Luo and Z. Chen, "Make It Move: Controllable Image-to-Video Generation With Text Descriptions," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 18219-18228, 2022.