概要
データ分析基盤にてよく用いられるファイル形式を整理します。
データ分析基盤で用いるファイル形式と利用指針
番号 | フォーマット | 説明 | データ分析基盤での利用推奨 |
---|---|---|---|
1 | 区切り型テキストファイル(CSV、TSV) | カンマ区切り、あるいは、タブ区切りによりデータを保持したファイルフォーマットであり、容易に利用できる。データストアに取り込む際には、最も高速に取り込むことができることが多い。 | データレイク:× 業務システム:〇 バッチレイヤーへの連携時:〇 サービスレイヤーへの連携時:〇 リアルタイム処理時:〇 データ連携サービス:〇 クエリエンジン:× |
2 | json | システムで利用されるデータ形式。 | × |
3 | xml | システムで利用されるデータ形式。 | × |
4 | Apache Parquet | 列指向のデータ形式。スキーマの自動読み込みが可能。 | データレイク:〇 業務システム:× バッチレイヤーへの連携時:〇 サービスレイヤーへの連携時:× リアルタイム処理時:× データ連携サービス:〇 クエリエンジン:◎ |
5 | Delta Lake | ACID特性などを保持させなどのParquetを拡張させたデータ形式。データレイクにおけるスタンダードとなりそうなファイル形式。ただし、利用するサービスで対応しているか確認する必要がある。 | データレイク:◎ 業務システム:× バッチレイヤーへの連携時:× サービスレイヤーへの連携時:× リアルタイム処理時:〇 データ連携サービス:〇 クエリエンジン:〇 |
6 | Apache Avro | スキーマ情報を保持しており、システム間でデータ交換を行うための行指向のデータ形式。 | データレイク:× 業務システム:× バッチレイヤーへの連携時:◎ サービスレイヤーへの連携時:× リアルタイム処理時:◎ データ連携サービス:〇 クエリエンジン:× |
7 | ORC | Hiveの処理に最適化された列指向のデータ形式。 | × |
8 | Common Data Model | 標準の共通データ モデル形式のスキーマ化されたデータとして保存するデータ形式。 | データレイク:× 業務システム:◎ バッチレイヤーへの連携時:× サービスレイヤーへの連携時:× リアルタイム処理時:× データ連携サービス:〇 クエリエンジン:× |