はじめに
はじめまして.大学院D3兼一般企業でフロントエンドエンジニア3年目のnac2hiと申します.
本記事がQiita初投稿になります🙌
本記事では「マルチモーダルAI」の基礎的用語「T2V」「I2V」「V2V」「TI2V」について,復習がてらシンプルにまとめてみます.
what is マルチモーダルAI
マルチモーダルAIとは、「複数種類のデータ(ex: テキスト、画像)を統合して処理するAI」です.
マルチ(複数の) + モダリティ(データの様式)-> マルチモーダル
what is 「〇〇2V」
多くの生成AIは入力情報の種類で分類できますが,昨今話題の絶えない映像生成に関するAIの場合は「入力情報の種類」「2(to)」「V(Video)」のように分類されています.
T2V:Text-to-Video(テキストから動画へ)
I2V:Image-to-Video(画像から動画へ)
V2V:Video-to-Video(動画から動画へ)
TI2V:Text-guided Image-to-Video(テキストと画像から動画へ)
まとめ
自分が作成しようとするシステムやサービスにおいて
「どの入力によって制御したいのか」「それによって何を出力として得たいのか」といった
Input,Outputを意識してみると,整理や要件定義が結構クリアになるかもしれません.
参考文献
- マルチモーダルAI | AI用語集 | 法人向け | ソフトバンク
- R. Sun, Y. Zhang, T. Shah, J. Sun, S. Zhang, W. Li, H. Duan, B. Wei and R. Ranjan, "From Sora What We Can See: A Survey of Text-to-Video Generation," arxiv, p. arXiv:2405.10674v1, 17 5 2024.
- K. Niu, W. Liu, N. Sharif and D. Zhu, "Conditional Video Generation Guided by Multimodal Inputs: A Comprehensive Survey," 31 7 2024.
- F. Fan, C. Luo, W. Gao and J. Zhan, "AIGCBench: Comprehensive evaluation of image-to-video content generated by AI," BenchCouncil Transactions on Benchmarks, Standards and Evaluations, vol. 4, no. 4, p. 100152, 12 2023.
- Y. Hu, C. Luo and Z. Chen, "Make It Move: Controllable Image-to-Video Generation With Text Descriptions," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 18219-18228, 2022.



