LoginSignup
1
1

More than 1 year has passed since last update.

AWSの音声・テキスト系サービスの関連性を初心者向けに図解

Last updated at Posted at 2023-03-13

AWSの音声やテキスト系のサービスについて、こんがらがってしまいそうなので図にまとめました。
tran~やら、Comprehendやら、関係性が分かりづらいなと思ってるのは私だけでしょうか。。。

マッピング図

音声、テキスト、画像、動画のデータがある中で、各サービスがどのように使われるのかをまとめたのがこちらです。
AIML_service_map.png

選定対象サービス

対象としたサービスは著者の独断と偏見です。
各データの変換や分析によく使われるであろうサービスを選定しました。

「このサービスは何でないの?」ってのがあったら、追記できるか検討します!

所感

図解して、改めて気づいた点をまとめておきます。

  • テキストから画像に変換するサービスはないですね。
    今後、Stable DiffusionとかMidjourneyみたいなのが実装される可能性もありそうですね。

  • 画像と動画の間を結ぶサービスはないですね。
    動画→画像は簡単にできるとして、画像→動画も一般的な動画編集ソフトでできるからでしょうか。
    ただ、ディープフェイクのように「ある画像から、その前後を上手く補完しながら動画生成するサービス」が
    AWSで実装される日も来るのでしょうか。

  • 解析サービスとしては、音声データを直接分析するサービスがありませんね。
    発声者の感情や、声の抑揚をとらえるようなサービスが今後出てくるのでしょうか。

まとめ

AWSの音声やテキスト系のサービスのマッピングを作成しました。
対象となるデータを起点に整理することで、各サービスの関係性を理解できるとともに、
AWSでまだ何が実現できてないかを知ることができました。

こういうマッピングは公式ではあまり見たことがないので、
関係性が分かりづらくなったり、ニーズがあれば他のサービスでもまとめていこうと思います!

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1