0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ひとりアドベントカレンダーAdvent Calendar 2024

Day 14

【ML初心者アドベントカレンダー】データの取り込みと保存について

Posted at

ここからは AWS MLA に向けて勉強メモを残していきます。
https://aws.amazon.com/jp/certification/certified-machine-learning-engineer-associate/

この記事の目的

データ形式と取り込みのメカニズム、AWSのストレージサービスについて学ぶ

データ形式について

データ形式のタイプについては過去にまとめたのでよかったら下記を参照してください。
https://qiita.com/ei_540/items/94f4aacd65467b3d4d80

Apache Parquet Apache ORC Apache Avro JSON CSV RecordIO
データ形式のタイプ 構造化 構造化 構造化 半構造化 半構造化 構造化
読み取り
書き込み
ユースケース ビッグデータアプリケーションに適している。複雑なクエリの実行や大量データの処理する場合はこちら ビッグデータアプリケーションに適している。複雑なデータ型の処理やHiveデータを効率的に保存する場合はこちら データの交換とシリアル化をするためのもの。ストリーミングデータの処理やKafkaを使用する場合などに使用する 人間が読みやすい。柔軟性があり、ラベル付けや設定ファイルの保存、小さなデータを扱うときに使う 中規模から小規模のシンプルなデータセットに使用する 画像を入力するのに効率的なファイル形式。SageMakerで使用される。機械学習のトレーニングセット向け

AWSのデータソース

Amazon S3 Amazon Elastic File System (Amazon EFS) Amazon FSx for NetApp ONTAP
概要 高い耐久性と無制限の容量を持つストレージサービス EC2用のフルマネージド共有ストレージサービス ONTAPをAWS上で完全マネージドで提供するファイルストレージサービス
ユースケース コスト効率が良く、大規模なデータを保存したい場合。またはレイテンシーが高くても良い場合 自動スケーリングでストレージの管理が不要。ビッグデータの分散処理など 高性能で高度なデータ管理機能を必要とする場合。アプリケーション向け。

AWS のストリーミングデータソース

Amazon Kinesis Apache Flink Apache Kafka
概要 フルマネージド型のデータストリーミングサービス 無制限の (ストリーム) データセットと制限付き (バッチ) データセットをステートフルに処理するためのオープンソースの分散エンジン ストリーミングデータをリアルタイムで取り込んで処理するために最適化された分散データストア
データ保持 デフォルトで24時間、最大7日間までのデータ保持 変更内容を継続的に取り込んで処理、更新できる デフォルト一週間。変更可能
ユースケース とにかくリアルタイムでデータを処理したい場合 不正検出、異常検出、ルールベースのアラートなど メッセージングキューを用いた、ユーザーのリアルタイム行動分析など

参考

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?