ここからは AWS MLA に向けて勉強メモを残していきます。
https://aws.amazon.com/jp/certification/certified-machine-learning-engineer-associate/
この記事の目的
データ形式と取り込みのメカニズム、AWSのストレージサービスについて学ぶ
データ形式について
データ形式のタイプについては過去にまとめたのでよかったら下記を参照してください。
https://qiita.com/ei_540/items/94f4aacd65467b3d4d80
Apache Parquet | Apache ORC | Apache Avro | JSON | CSV | RecordIO | |
---|---|---|---|---|---|---|
データ形式のタイプ | 構造化 | 構造化 | 構造化 | 半構造化 | 半構造化 | 構造化 |
読み取り | 高 | 高 | 高 | 低 | 高 | 高 |
書き込み | 中 | 中 | 高 | 低 | 高 | 高 |
ユースケース | ビッグデータアプリケーションに適している。複雑なクエリの実行や大量データの処理する場合はこちら | ビッグデータアプリケーションに適している。複雑なデータ型の処理やHiveデータを効率的に保存する場合はこちら | データの交換とシリアル化をするためのもの。ストリーミングデータの処理やKafkaを使用する場合などに使用する | 人間が読みやすい。柔軟性があり、ラベル付けや設定ファイルの保存、小さなデータを扱うときに使う | 中規模から小規模のシンプルなデータセットに使用する | 画像を入力するのに効率的なファイル形式。SageMakerで使用される。機械学習のトレーニングセット向け |
AWSのデータソース
Amazon S3 | Amazon Elastic File System (Amazon EFS) | Amazon FSx for NetApp ONTAP | |
---|---|---|---|
概要 | 高い耐久性と無制限の容量を持つストレージサービス | EC2用のフルマネージド共有ストレージサービス | ONTAPをAWS上で完全マネージドで提供するファイルストレージサービス |
ユースケース | コスト効率が良く、大規模なデータを保存したい場合。またはレイテンシーが高くても良い場合 | 自動スケーリングでストレージの管理が不要。ビッグデータの分散処理など | 高性能で高度なデータ管理機能を必要とする場合。アプリケーション向け。 |
AWS のストリーミングデータソース
Amazon Kinesis | Apache Flink | Apache Kafka | |
---|---|---|---|
概要 | フルマネージド型のデータストリーミングサービス | 無制限の (ストリーム) データセットと制限付き (バッチ) データセットをステートフルに処理するためのオープンソースの分散エンジン | ストリーミングデータをリアルタイムで取り込んで処理するために最適化された分散データストア |
データ保持 | デフォルトで24時間、最大7日間までのデータ保持 | 変更内容を継続的に取り込んで処理、更新できる | デフォルト一週間。変更可能 |
ユースケース | とにかくリアルタイムでデータを処理したい場合 | 不正検出、異常検出、ルールベースのアラートなど | メッセージングキューを用いた、ユーザーのリアルタイム行動分析など |
参考
- 列指向ストレージ形式
- Athenaのパフォーマンスチューニングについて
- Apache Avroとは
- Avro (Java) を使用して Apache Kafka アプリケーションのスキーマを検証する
- Amazon SageMaker を使用して画像を分類する
- EFSについて
- Apache Flink とは何ですか?
- Apache Kafka とは