はじめに
本記事は、マルチモーダルAIとはどんなAIなのかをざっくりイメージするために、簡単な概要とどんな適用先があるのかを記載しました。
マルチモーダルAIとは
マルチモーダルAIとは、2つ以上の異なる種類のデータを統合して処理するAIのことであり、単一の種類のデータでは導けない情報を推定することや、より正確な推論結果を得られることが期待できます。
例えば、騒いでいる集団を観測した際に、画像だけの入力では人が集まっていることしか推測できませんが、画像に加えて音声も入力として処理できることで、「騒いでいる集団」という状態を推測することができます。
このように、データ種類の組み合わせにより、複雑な課題に対応することができるため、マルチモーダルAIは様々な分野での活用が期待されています。
シングルモーダルAIとの違い
シングルモーダルAIとは、単一の種類のデータを入力として処理するAIのことであり、画像を入力として分類結果を返す画像分類や、音声を入力として文字起こしする音声テキスト変換といった、特定のデータ種類に特化したAIです。
シングルモーダルAIとマルチモーダルAIとの違いは、入力に使用するデータ種類の数であり、マルチモーダルAIではシングルモーダルAIよりも複雑なタスクに対応が可能となり、適用範囲も広くなります。
マルチモーダルAIの種類
マルチモーダルAIは複数のデータ種類の組み合わせであるため、組み合わせパターンは無数に存在しますが、ここではマルチモーダルAIのイメージをつかむために、利用イメージが分かりやすい数種類を紹介します。
テキスト×画像
テキストと画像を入力とするマルチモーダルAIとしては、以下のような適用先があります。
画像に対する質問応答
画像に写っているものに対して質問をしたい場合、テキストしか入力を受け付けないチャットボットでは、画像の情報を人間で言語化して、質問文を作成しなくてはいけません。
マルチモーダルAIでは、入力として画像とその画像に対する質問文(テキスト)を使用することで、画像情報の言語化という手間なく、質問をすることが可能となります。
画像のような視覚的情報を質問に含めることができるため、テキスト情報のみの応答よりも、より柔軟な応答体験を得ることができます。
音声×画像
音声と画像を入力とするマルチモーダルAIとしては、以下のような適用先があります。
表情と音声から感情推定
人の感情が現れる要素として「表情」がありますが、「笑顔だけれど内心退屈している」場合や、「無表情だけれど内心楽しんでいる」といったような、表情に出さない感情というものもあります。
ここに「声」という感情が現れる別の要素も入力に含めることで、表情という画像情報だけでは読み取れるなかった感情を推定することが可能になります。
画像だけでも、音声だけでも情報が不足する感情といったものに対して、どちらの情報も活用することで、単一の情報源での推定よりも、より精度の高い推定結果を得ることができます。
その他
画像や音声といった分かりやすいデータ種類以外にも、センサーで取得した温度や湿度、赤外線情報なども入力として組み合わされて活用されています。
組み合わせの数につきましても、例のような2つに限らず、目的に合わせて複数組み合わせてマルチモーダルAIは作成されます。
さいごに
マルチモーダルAIは複数のデータ種類を組み合わせ、今までのシングルモーダルなAIよりも柔軟で幅広い対応が可能なAIです。
人間のように複雑な認識や理解を行うシステムが実現することで、様々な領域において革新的なソリューションが提供される可能性があり、日常生活やビジネスに革新をもたらすことが期待されます。