AWSの音声やテキスト系のサービスについて、こんがらがってしまいそうなので図にまとめました。
tran~やら、Comprehendやら、関係性が分かりづらいなと思ってるのは私だけでしょうか。。。
マッピング図
音声、テキスト、画像、動画のデータがある中で、各サービスがどのように使われるのかをまとめたのがこちらです。
選定対象サービス
対象としたサービスは著者の独断と偏見です。
各データの変換や分析によく使われるであろうサービスを選定しました。
「このサービスは何でないの?」ってのがあったら、追記できるか検討します!
所感
図解して、改めて気づいた点をまとめておきます。
-
テキストから画像に変換するサービスはないですね。
今後、Stable DiffusionとかMidjourneyみたいなのが実装される可能性もありそうですね。 -
画像と動画の間を結ぶサービスはないですね。
動画→画像は簡単にできるとして、画像→動画も一般的な動画編集ソフトでできるからでしょうか。
ただ、ディープフェイクのように「ある画像から、その前後を上手く補完しながら動画生成するサービス」が
AWSで実装される日も来るのでしょうか。 -
解析サービスとしては、音声データを直接分析するサービスがありませんね。
発声者の感情や、声の抑揚をとらえるようなサービスが今後出てくるのでしょうか。
まとめ
AWSの音声やテキスト系のサービスのマッピングを作成しました。
対象となるデータを起点に整理することで、各サービスの関係性を理解できるとともに、
AWSでまだ何が実現できてないかを知ることができました。
こういうマッピングは公式ではあまり見たことがないので、
関係性が分かりづらくなったり、ニーズがあれば他のサービスでもまとめていこうと思います!