LoginSignup
0
0

More than 1 year has passed since last update.

(備忘録)AWS MLS試験学習~データ形式

Last updated at Posted at 2023-01-09

SageMaker

SageMakerのアルゴリズムで一般的にサポートされているものが下記。
https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/cdf-training.html#cdf-common-content-types

パイプモード

S3から直接データをストリーミングする。対するファイルモードはデータをインスタンスボリュームに保存するため、パイプモードの利用によりトレーニングジョブの開始時間が短縮され、スループットが向上する。

データ形式はCSVとRecordio-protobuf。パイプモードリリース直後はCSVがサポートされていなかったらしい。
https://aws.amazon.com/jp/blogs/machine-learning/now-use-pipe-mode-with-csv-datasets-for-faster-training-on-amazon-sagemaker-built-in-algorithms/

Amazon Athena

Parquet圧縮ファイルまたはORC圧縮ファイルで実行すると、実行時間とコストを削減できる。
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/performance-tuning.html#performance-tuning-file-formats

Amazon Kinesis Firehoseにおいて、インプットしたストリーミングデータをParquet形式、ORC形式に変換することが可能。
https://docs.aws.amazon.com/ja_jp/firehose/latest/dev/record-format-conversion.html

Parquet形式とは

ORC形式とは

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0