Go to Qiita Advent Calendar Top

0

More than 1 year has passed since last update.

ひとりアドベントカレンダー Advent Calendar 2024

【ML初心者アドベントカレンダー】データの取り込みと保存について

Posted at 2024-12-17

ここからは AWS MLA に向けて勉強メモを残していきます。
https://aws.amazon.com/jp/certification/certified-machine-learning-engineer-associate/

この記事の目的

データ形式と取り込みのメカニズム、AWSのストレージサービスについて学ぶ

データ形式について

データ形式のタイプについては過去にまとめたのでよかったら下記を参照してください。
https://qiita.com/ei_540/items/94f4aacd65467b3d4d80

	Apache Parquet	Apache ORC	Apache Avro	JSON	CSV	RecordIO
データ形式のタイプ	構造化	構造化	構造化	半構造化	半構造化	構造化
読み取り	高	高	高	低	高	高
書き込み	中	中	高	低	高	高
ユースケース	ビッグデータアプリケーションに適している。複雑なクエリの実行や大量データの処理する場合はこちら	ビッグデータアプリケーションに適している。複雑なデータ型の処理やHiveデータを効率的に保存する場合はこちら	データの交換とシリアル化をするためのもの。ストリーミングデータの処理やKafkaを使用する場合などに使用する	人間が読みやすい。柔軟性があり、ラベル付けや設定ファイルの保存、小さなデータを扱うときに使う	中規模から小規模のシンプルなデータセットに使用する	画像を入力するのに効率的なファイル形式。SageMakerで使用される。機械学習のトレーニングセット向け

AWSのデータソース

	Amazon S3	Amazon Elastic File System (Amazon EFS)	Amazon FSx for NetApp ONTAP
概要	高い耐久性と無制限の容量を持つストレージサービス	EC2用のフルマネージド共有ストレージサービス	ONTAPをAWS上で完全マネージドで提供するファイルストレージサービス
ユースケース	コスト効率が良く、大規模なデータを保存したい場合。またはレイテンシーが高くても良い場合	自動スケーリングでストレージの管理が不要。ビッグデータの分散処理など	高性能で高度なデータ管理機能を必要とする場合。アプリケーション向け。

AWS のストリーミングデータソース

	Amazon Kinesis	Apache Flink	Apache Kafka
概要	フルマネージド型のデータストリーミングサービス	無制限の (ストリーム) データセットと制限付き (バッチ) データセットをステートフルに処理するためのオープンソースの分散エンジン	ストリーミングデータをリアルタイムで取り込んで処理するために最適化された分散データストア
データ保持	デフォルトで24時間、最大7日間までのデータ保持	変更内容を継続的に取り込んで処理、更新できる	デフォルト一週間。変更可能
ユースケース	とにかくリアルタイムでデータを処理したい場合	不正検出、異常検出、ルールベースのアラートなど	メッセージングキューを用いた、ユーザーのリアルタイム行動分析など

参考

列指向ストレージ形式
- https://docs.aws.amazon.com/ja_jp/athena/latest/ug/columnar-storage.html
Athenaのパフォーマンスチューニングについて
- https://aws.amazon.com/jp/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
Apache Avroとは
- https://www.ibm.com/jp-ja/topics/avro
Avro (Java) を使用して Apache Kafka アプリケーションのスキーマを検証する
- https://learn.microsoft.com/ja-jp/azure/event-hubs/schema-registry-kafka-java-send-receive-quickstart
Amazon SageMaker を使用して画像を分類する
- https://aws.amazon.com/jp/blogs/news/classify-your-own-images-using-amazon-sagemaker/#:~:text=Amazon%20SageMaker%20%E3%81%AE%E3%83%93%E3%83%AB%E3%83%88%E3%82%A4%E3%83%B3%E3%82%A4%E3%83%A1%E3%83%BC%E3%82%B8,%E7%9A%84%E3%81%AA%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%BD%A2%E5%BC%8F%E3%81%A7%E3%81%99%E3%80%82
EFSについて
- https://aws.amazon.com/jp/efs/
Apache Flink とは何ですか?
- https://aws.amazon.com/jp/what-is/apache-flink/
Apache Kafka とは
- https://aws.amazon.com/jp/what-is/apache-kafka/

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0