AWSの音声・テキスト系サービスの関連性を図解

Last updated at 2024-08-22Posted at 2023-03-13

AWSの音声やテキスト系のサービスについて、こんがらがってしまいそうなので図にまとめました。
tran～やら、Comprehendやら、関係性が分かりづらいなと思ってるのは私だけでしょうか。
AWS認定試験のために勉強していた中でこんがらがったというのも要因です。

生成AIの登場でそれぞれの勢力図も変わってきていますが、ざっくりしたまとめを作ってみました。

マッピング図

音声、テキスト、画像、動画のデータがある中で、各サービスがどのように使われるのかをまとめてみました。

対象としたサービスは、AWSのAI/MLサービスです。
各データの変換や分析によく使われるであろうサービスを選定しました。

「このサービスは何でないの？」ってのがあったら、追記できるか検討してみます。

図解して、改めて気づいた点をまとめておきます。

テキストから画像に変換するサービスはないですね。（2023年1月時点）
今後、Stable DiffusionとかMidjourneyみたいなのが実装される可能性もありそうです。
（2024年8月追記）
と思ってたら、Bedrockが登場して基盤モデルで近しいことができるので追記しました
ただ、Bedrock上で基盤モデルを使って、という形なので、今後新たにマネージドサービスが出る可能性もありそうですね。
画像と動画の間を結ぶサービスはないですね。
動画→画像は簡単にできるとして、画像→動画も一般的な動画編集ソフトでできるからでしょうか。
ただ、ディープフェイクのように「ある画像から、その前後を上手く補完しながら動画生成するサービス」がAWSで実装される日も来るのでしょうか。
解析サービスとしては、音声データを直接分析するサービスがありません。
発声者の感情や、声の抑揚をとらえるようなサービスが今後出てくるのでしょうか。

AWSの音声やテキスト系のサービスのマッピングを作成しました。
対象となるデータを起点に整理することで、各サービスの関係性を理解できるとともに、AWSでまだ何が実現できてないかを知ることができました。

こういうマッピングは公式ではあまり見たことがないので、関係性が分かりづらくなったり、ニーズがあれば他のサービスでもまとめていこうと思います！