はじめに
本記事では、PentahoETLの基本的なデータ変換処理の実装例および各処理を実装するにあたっての注意点などを紹介します。全5回に分けて紹介する内、本記事は第1回目です。その他の回は以下のリンクからご参照ください。
PentahoETLの基本処理パターン集【データ加工編1】(2/5)
PentahoETLの基本処理パターン集【データ加工編2】(3/5)
PentahoETLの基本処理パターン集【データ加工編3】(4/5)
PentahoETLの基本処理パターン集【データ出力編】(5/5)
注記
・本記事は、PentahoETLについての製品利用の必要知識を有する方を対象が対象です。
・本書内の画面などについて、Pentahoのバージョンによっては本書の内容と異なる可能性があることにご注意ください。
用語説明
PentahoETLで利用する機能の用語を紹介します。
# | 用語 | 処理単位 | 内容 |
---|---|---|---|
① | ジョブ Job |
実行処理単位 | 一つもしくは複数のTransformationをコーディネートするものです。スケジューリングされて実行されます。 |
② | データ変換 Transformation |
バッチ処理単位 | ソースデータをInputし、変換処理を実行してターゲットデータをOutputする最小単位です。 |
③ | ステップ Step |
処理の最小単位 | 事前に登録されている機能です。ステップのプロパティに具体的な値を入れることで要求する処理が実行されます。 |
基本処理パターン例の見方
処理パターンリスト
# | 処理 | 使用ステップ |
---|---|---|
1 | CSVファイル入力 1. 単一ファイル読み込み 2. 複数ファイル読み込み1 3. 複数ファイル読み込み2 4. 複数行のヘッダ読み飛ばし 5. 複数行のヘッダのみ読み込み |
・CSV入力 ・テキストファイル入力 ・ファイル名取得 |
2 | Excelファイル入力 | ・Excel入力 |
3 | DBテーブル入力 1. SQLによる読み込み 2. バインドパラメータを用いたSQLによる読み込み |
・テーブル入力 |
4 | 固定幅ファイル入力 | ・固定幅ファイル入力 |
5 | XMLファイル入力 1. XMLファイルの読み込み1 2. XMLファイルの読み込み2 3. XMLデータのパース |
・Get data from XML ・XML input stream (StAX) |
6 | JSONファイル入力 1. JSONファイルの読み込み 2. JSONデータのパース |
・JSON input |
パターン紹介
1-1. CSVファイル入力 単一ファイル読み込み
1-2. CSVファイル入力 複数ファイル読み込み1
1-3. CSVファイル入力 複数ファイル読み込み2
1-4. CSVファイル入力 複数行のヘッダ読み飛ばし
1-5. CSVファイル入力 複数行のヘッダのみ読み込み
2. Excelファイル入力
3-1. DBテーブル入力 SQLによる読み込み
3-2. DBテーブル入力 バインドパラメータを用いたSQLによる読み込み
4. 固定幅ファイル入力
5-1. XMLファイル入力 XMLファイルの読み込み1
5-2. XMLファイル入力 XMLファイルの読み込み2
5-3. XMLファイル入力 XMLデータのパース
6-1. JSONファイル入力 JSONファイルの読み込み
6-2. JSONファイル入力 JSONデータのパース
まとめ
今回はPentahoETLの基本処理パターン データ入力編を紹介しました。
基本処理パターンは他の記事でも紹介しておりますので、ぜひご参照ください。
他社商品名、商標等の引用に関する表示
HITACHIは,株式会社 日立製作所の商標または登録商標です。
Excel、MicrosoftおよびWindowsは、マイクロソフト 企業グループの商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。