概要
データ分析基盤にてよく用いられるファイル形式を整理します。
データ分析基盤で用いるファイル形式と利用指針
| 番号 | フォーマット | 説明 | データ分析基盤での利用推奨 |
|---|---|---|---|
| 1 | 区切り型テキストファイル(CSV、TSV) | カンマ区切り、あるいは、タブ区切りによりデータを保持したファイルフォーマットであり、容易に利用できる。データストアに取り込む際には、最も高速に取り込むことができることが多い。 | データレイク:× 業務システム:〇 バッチレイヤーへの連携時:〇 サービスレイヤーへの連携時:〇 リアルタイム処理時:〇 データ連携サービス:〇 クエリエンジン:× |
| 2 | json | システムで利用されるデータ形式。 | × |
| 3 | xml | システムで利用されるデータ形式。 | × |
| 4 | Apache Parquet | 列指向のデータ形式。スキーマの自動読み込みが可能。 | データレイク:〇 業務システム:× バッチレイヤーへの連携時:〇 サービスレイヤーへの連携時:× リアルタイム処理時:× データ連携サービス:〇 クエリエンジン:◎ |
| 5 | Delta Lake | ACID特性などを保持させなどのParquetを拡張させたデータ形式。データレイクにおけるスタンダードとなりそうなファイル形式。ただし、利用するサービスで対応しているか確認する必要がある。 | データレイク:◎ 業務システム:× バッチレイヤーへの連携時:× サービスレイヤーへの連携時:× リアルタイム処理時:〇 データ連携サービス:〇 クエリエンジン:〇 |
| 6 | Apache Avro | スキーマ情報を保持しており、システム間でデータ交換を行うための行指向のデータ形式。 | データレイク:× 業務システム:× バッチレイヤーへの連携時:◎ サービスレイヤーへの連携時:× リアルタイム処理時:◎ データ連携サービス:〇 クエリエンジン:× |
| 7 | ORC | Hiveの処理に最適化された列指向のデータ形式。 | × |
| 8 | Common Data Model | 標準の共通データ モデル形式のスキーマ化されたデータとして保存するデータ形式。 | データレイク:× 業務システム:◎ バッチレイヤーへの連携時:× サービスレイヤーへの連携時:× リアルタイム処理時:× データ連携サービス:〇 クエリエンジン:× |