はじめに
本記事では、PentahoETLの基本的なデータ変換処理の実装例および各処理を実装するにあたっての注意点などを紹介します。全5回に分けて紹介する内、本記事は第2回目です。その他の回は以下のリンクからご参照ください。
PentahoETLの基本処理パターン集【データ入力編】(1/5)
PentahoETLの基本処理パターン集【データ加工編2】(3/5)
PentahoETLの基本処理パターン集【データ加工編3】(4/5)
PentahoETLの基本処理パターン集【データ出力編】(5/5)
注記
・本記事は、PentahoETLについての製品利用の必要知識を有する方を対象が対象です。
・本書内の画面などについて、Pentahoのバージョンによっては本書の内容と異なる可能性があることにご注意ください。
用語説明
PentahoETLで利用する機能の用語を紹介します。
# | 用語 | 処理単位 | 内容 |
---|---|---|---|
① | ジョブ Job |
実行処理単位 | 一つもしくは複数のTransformationをコーディネートするものです。スケジューリングされて実行されます。 |
② | データ変換 Transformation |
バッチ処理単位 | ソースデータをInputし、変換処理を実行してターゲットデータをOutputする最小単位です。 |
③ | ステップ Step |
処理の最小単位 | 事前に登録されている機能です。ステップのプロパティに具体的な値を入れることで要求する処理が実行されます。 |
基本処理パターン例の見方
処理パターンリスト
# | 処理 | 使用ステップ |
---|---|---|
1 | 単純移送 | ・選択/名前変更 |
2 | 条件付き移送 | ・選択/名前変更 ・条件分岐 |
3 | データ変換単純計算 | ・計算 |
4 | データ変換 - 複雑な計算、条件付き計算 | ・数式 |
5 | データ変換 - 文字列処理 | ・文字列カット ・文字列置換 |
6 | データ生成 - 通番付与、日付付与 | ・シーケンス追加 ・システムデータ取得 |
7 | データ生成 - 割合付与 | ・グループ化 ・計算 |
8 | データ生成 - 定数付与 | ・定数追加 |
9 | ソート | ・行整列 |
10 | データ振り分け | ・条件分岐 ・選択/名前変更 |
11 | テーブル結合 - 内部結合 1. マージ結合ステップによる実装 2. ストリーム参照ステップによる実装 |
・マージ結合 ・ストリーム参照 |
12 | 外部結合 | ・マージ結合 |
13 | 条件付き結合 | ・行結合(デカルト積) |
14 | 連結 | ・データ結合 ・ダミー |
パターン紹介
1. 単純移送
2. 条件付き移送
3. データ変換 - 単純計算
4. データ変換 - 複雑な計算、条件付き計算
5. データ変換 - 文字列処理
6. データ生成 - 通番付与、日付付与
7. データ生成 - 割合付与
8. データ生成 - 定数付与
9. ソート
10. データ振り分け
11-1. テーブル結合 - 内部結合 マージ結合ステップによる実装
11-2. テーブル結合 - 内部結合 ストリーム参照ステップによる実装
12. テーブル結合 - 外部結合
13. テーブル結合 - 条件付き結合
14. 連結
まとめ
今回はPentahoETLの基本処理パターン データ加工編1を紹介しました。
基本処理パターンは他の記事でも紹介しておりますので、ぜひご参照ください。
他社商品名、商標等の引用に関する表示
HITACHIは,株式会社 日立製作所の商標または登録商標です。
Excel、MicrosoftおよびWindowsは、マイクロソフト 企業グループの商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。