SageMaker
SageMakerのアルゴリズムで一般的にサポートされているものが下記。
https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/cdf-training.html#cdf-common-content-types
パイプモード
S3から直接データをストリーミングする。対するファイルモードはデータをインスタンスボリュームに保存するため、パイプモードの利用によりトレーニングジョブの開始時間が短縮され、スループットが向上する。
データ形式はCSVとRecordio-protobuf。パイプモードリリース直後はCSVがサポートされていなかったらしい。
https://aws.amazon.com/jp/blogs/machine-learning/now-use-pipe-mode-with-csv-datasets-for-faster-training-on-amazon-sagemaker-built-in-algorithms/
Amazon Athena
Parquet圧縮ファイルまたはORC圧縮ファイルで実行すると、実行時間とコストを削減できる。
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/performance-tuning.html#performance-tuning-file-formats
Amazon Kinesis Firehoseにおいて、インプットしたストリーミングデータをParquet形式、ORC形式に変換することが可能。
https://docs.aws.amazon.com/ja_jp/firehose/latest/dev/record-format-conversion.html
Parquet形式とは
ORC形式とは