はじめに
マルチモーダルAIが人間のように複雑な認識や理解を行うことができるものとして期待されていますが、実際にどのような活用先があるのかという視点で本記事を書いています。
マルチモーダルAIの活用例
自動車の自動運転
カメラ映像やセンサーデータを統合処理し、周囲の環境を認識することで、複雑な環境でも安全な運転を支援できるようにします。
例えば、周囲の環境認識が十分であれば、人の操作が不要な完全運転を実現することが可能になる等。
医療
カルテ情報や病気に関する画像データ等、医療ビッグデータを統合的に処理させることで、病気の診断や治療計画の支援を行うことが期待されます。
例えば、超音波画像と患者情報から疾病が判断できるモデルを作成することで、精密検査なし(患者への負担が少ない)でも疾病判断することが可能となる等。
監視
監視カメラでの情報として、画像だけではなく音声も合わせて処理することで、より詳細な状況判断が可能になることが期待されます。
例えば、人の状態と音の組み合わせで、異常な状況であるかを判断できるモデルを作成することで、異常事態を早期発見でき、事故や事件を未然に防ぐことが可能となる等。
生成AI
テキストに加えて画像や音声といった情報も合わせて処理することで、人の感覚的(視覚的・聴覚的)情報を言語化せずに生成指示へ含められることで、より感覚的に生成AIを利用できるようになることが期待されます。
例えば、作成したい画像の簡単なラフ画や、イメージに近い画像と作成指示を与えることで、イメージ通りの画像を生成することが容易になる等。
感情推定
表情と音声(声色や言葉の内容)を合わせて処理することで、より正確な感情を推定することを可能とし、コミュニケーションを支援できることが期待されます。
例えば、オンラインで営業を行った際に、お客様の状態を可視化することで、よりニーズのあった商品を提案することが可能になる等。
さいごに
実現のためには環境や精度等で課題がある場合もありますが、マルチモーダルAIを活用することで私たちの生活は多くの恩恵を得ることができます。人間のような認識や理解をAIが実現できることということは、適用できるところは無数にあり、今後も多くのところで活用されていくことが期待されます。