はじめに
本記事では、PentahoETLの基本的なデータ変換処理の実装例および各処理を実装するにあたっての注意点などを紹介します。全5回に分けて紹介する内、本記事は第4回目です。その他の回は以下のリンクからご参照ください。
PentahoETLの基本処理パターン集【データ入力編】(1/5)
PentahoETLの基本処理パターン集【データ加工編1】(2/5)
PentahoETLの基本処理パターン集【データ加工編2】(3/5)
PentahoETLの基本処理パターン集【データ出力編】(5/5)
注記
・本記事は、PentahoETLについての製品利用の必要知識を有する方を対象が対象です。
・本書内の画面などについて、Pentahoのバージョンによっては本書の内容と異なる可能性があることにご注意ください。
用語説明
PentahoETLで利用する機能の用語を紹介します。
# | 用語 | 処理単位 | 内容 |
---|---|---|---|
① | ジョブ Job |
実行処理単位 | 一つもしくは複数のTransformationをコーディネートするものです。スケジューリングされて実行されます。 |
② | データ変換 Transformation |
バッチ処理単位 | ソースデータをInputし、変換処理を実行してターゲットデータをOutputする最小単位です。 |
③ | ステップ Step |
処理の最小単位 | 事前に登録されている機能です。ステップのプロパティに具体的な値をいれることで要求する処理が実行されます。 |
基本処理パターン例の見方
処理パターンリスト
# | 処理 | 使用ステップ |
---|---|---|
1 | 列結合 | ・フィールド結合 |
2 | 列定数置換 | ・定数追加 ・選択/名前変更 |
3 | 数値によるグルーピング | ・数値範囲 |
4 | 変数付与 | ・定数取得 |
5 | NULL直前値変換 | ・シーケンス追加 ・グループ化 |
6 | フィールド情報取得 | ・メタデータ構造 |
7 | 列値コピー | ・計算 |
8 | 累積集計 1. レコード間集計 2. カラム間集計 |
・グループ化 ・行正規化 ・行非正規化 |
9 | 連続値グループフラグ付与 | ・分析クエリー ・NULL値定数変換 ・数式 ・グループ化 |
10 | マルチテーブルジョイン | ・多方向 Merge Join ・計算 |
11 | 時間差分計算 | ・計算 ・数式 |
12 | 日付を年度、半期、四半期、年、月、日に分解 | ・計算 ・数式 |
13 | レコード毎に異なる行数複製 | ・行複製 |
14 | データ検証 | ・データ検証 |
1. 列結合
2. 列定数置換
3. 数値によるグルーピング
4. 変数付与
5. NULL直前値変換
6. フィールド情報取得
7. 列値コピー
8-1. 累積集計 レコード間集計
8-2. 累積集計 カラム間集計
9. 連続値グループフラグ付与
10. マルチテーブルジョイン
11. 時間差分計算
12. 日付を年度、半期、四半期、年、月、日に分解
13. レコード毎に異なる行数複製
14. データ検証
まとめ
今回はPentahoETLの基本処理パターン データ加工編3を紹介しました。
基本処理パターンは他の記事でも紹介しておりますので、ぜひご参照ください。
他社商品名、商標等の引用に関する表示
HITACHIは,株式会社 日立製作所の商標または登録商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。