LoginSignup
3
3

More than 3 years have passed since last update.

データ分析基盤におけるデータレイクでの保持ファイル形式、および、インターフェースファイルの形式について

Last updated at Posted at 2020-10-27

概要

データ分析基盤にてよく用いられるファイル形式を整理します。

データ分析基盤で用いるファイル形式と利用指針

番号 フォーマット 説明 データ分析基盤での利用推奨
1 区切り型テキストファイル(CSV、TSV) カンマ区切り、あるいは、タブ区切りによりデータを保持したファイルフォーマットであり、容易に利用できる。データストアに取り込む際には、最も高速に取り込むことができることが多い。 データレイク:×
業務システム:〇
バッチレイヤーへの連携時:〇
サービスレイヤーへの連携時:〇
リアルタイム処理時:〇
データ連携サービス:〇
クエリエンジン:×
2 json システムで利用されるデータ形式。 ×
3 xml システムで利用されるデータ形式。 ×
4 Apache Parquet 列指向のデータ形式。スキーマの自動読み込みが可能。 データレイク:〇
業務システム:×
バッチレイヤーへの連携時:〇
サービスレイヤーへの連携時:×
リアルタイム処理時:×
データ連携サービス:〇
クエリエンジン:◎
5 Delta Lake ACID特性などを保持させなどのParquetを拡張させたデータ形式。データレイクにおけるスタンダードとなりそうなファイル形式。ただし、利用するサービスで対応しているか確認する必要がある。 データレイク:◎
業務システム:×
バッチレイヤーへの連携時:×
サービスレイヤーへの連携時:×
リアルタイム処理時:〇
データ連携サービス:〇
クエリエンジン:〇
6 Apache Avro スキーマ情報を保持しており、システム間でデータ交換を行うための行指向のデータ形式。 データレイク:×
業務システム:×
バッチレイヤーへの連携時:◎
サービスレイヤーへの連携時:×
リアルタイム処理時:◎
データ連携サービス:〇
クエリエンジン:×
7 ORC Hiveの処理に最適化された列指向のデータ形式。 ×
8 Common Data Model 標準の共通データ モデル形式のスキーマ化されたデータとして保存するデータ形式。 データレイク:×
業務システム:◎
バッチレイヤーへの連携時:×
サービスレイヤーへの連携時:×
リアルタイム処理時:×
データ連携サービス:〇
クエリエンジン:×

Q&A

3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3