Pentaho ファーストステップガイド PDI使い方編
はじめに
本記事では、Pentahoソフトウェア1 Ver10.2のETL機能であるPDIの基本的な使い方について紹介します。
なお、Pentahoのトライアル版のインストール方法についてはこちらの記事をご参照ください。
ETLツール Pentahoのトライアル版をインストールしてみよう!【Pentaho ファーストステップガイド インストール編】
PDIの紹介
Pentaho Data Integration(PDI)は、各種データソースからデータウェアハウス、データマートを作成する際の、データ抽出・変換・集約・ロード処理といったETL処理(Extract, Transformation & Loading)のプログラムを開発する構築支援ツールです。PDIは、GUIによるプログラムレスでのビジュアル開発によって、高生産性、高品質なデータウェアハウスの構築を可能とします。
PDI(Spoon)を起動する
以降で説明するデータ変換や加工などを実施するには、PDIが提供するGUI(Spoon)を最初に起動する必要があります。
PDIを起動するユーザに管理者権限があるかどうかで起動方法が異なります。
なお、初回起動時は初期化処理のため10分程度掛かることがあります。
-
管理者権限のあるユーザの場合
起動するユーザに管理者権限がある場合はスタートメニューから起動します。
[スタートメニュー]-[すべて]-[Pentaho Enterprise Edition]-[Data Integration]で起動します。
PDIの画面構成
単純なデータ変換を作成する
Step1: 新しいデータ変換定義画面を開く
[ファイル]メニュー-[新規]-[データ変換]を選択して、新しいデータ変換定義画面を開きます。
Step2: CSVファイルを読み込む設定を追加する
PDIに含まれるサンプルのCSVファイルを読み込むよう次の手順で設定します。
-
設定画面に次の内容を設定します。
# 設定項目 設定内容 備考 1 ファイル名 C:\pent\p102\design-tools\data-integration\samples\transformations\files\sales_data.csv
(上記のパスは、例です。)サンプルのCSVファイルの格納場所をフルパスで指定します。
[参照]ボタンをクリックするとファイルダイアログから選択できます。2 データ型を自動変換 オフ データ型の変換を省略して性能向上を図る機能です。後続処理でエラーになることがあるので、オフにすることをお勧めします。 3 文字コード ISO-8859-1 左記のとおり指定してください。 4 フィールド ([フィールドを取得]ボタンをクリックし、次に表示されるダイアログで[OK]ボタンをクリックしてください。) 読み込むファイルの1行目をフィールド名として利用し、2行目以降のデータで型を推測します。
正しく読み込めるかどうかはプレビュー画面で確認できます。確認手順を次に示します。
- [プレビュー]ボタンをクリックします。
- プレビューする行数をダイアログに入力して[OK]ボタンをクリックすると、次のようなプレビュー画面が表示されます。
- 表示されたプレビュー画面で問題がないか確認します。確認する項目の例を次に示します。
- 列名が表示されている
- データが複数行表示されている
-
文字化けしていない
問題なければプレビュー画面の[閉じる]ボタンをクリックしてプレビュー画面を閉じます。
- 設定完了後、[OK]ボタンをクリックし設定画面を閉じます。
Step3: Excelファイルを出力する設定を追加する
読み込んだCSVファイルをExcelファイルに出力するよう次の手順で設定します。
-
キャンバス上の[CSV入力]ステップと[Microsoft Excel writer]ステップをつなげます(ホップを設定)。
次の手順で実施してください。- [CSV入力]ステップの上にマウスポインタを持って行くと次のような吹き出しが表示されます。
-
をクリックし、マウスポインタを[Microsoft Excel writer]ステップまで移動させクリックします。
- [ステップのメインアウトプット]を選択し、接続(ホップ)を完了します。
ホップは次の方法でも設定できます。
- [Shift]キーを押した状態で、[CSV入力]ステップをクリックしたまま、マウスポインタを[Microsoft Excel writer]ステップまで移動させクリックを放します。
- ホイールがついたマウスであれば、[CSV入力]ステップでスクロールをクリックしたまま[Microsoft Excel writer]ステップまで移動させクリックを放します。
- [CSV入力]ステップの上にマウスポインタを持って行くと次のような吹き出しが表示されます。
-
[Microsoft Excel writer]ステップをダブルクリックし設定画面を開きます。
設定画面には次の内容を設定します。# 設定項目 設定内容 備考 1 ファイル名 (任意の場所を指定してください。拡張子(「.xls」など)は不要です。) 変換後のExcelファイルの格納場所をフルパスで指定します。ファイル名はCSVファイル名と異なる名称も指定できます。
[参照]ボタンをクリックするとファイルダイアログから選択できます。
設定後の設定画面は次のとおりです。
設定完了後、[OK]ボタンをクリックして設定画面を閉じます。
Step4: 作成したデータ変換を保存する
[ファイル]メニュー-[保存]を選択して、データ変換定義を保存します。新規に保存する場合はファイルダイアログが表示されますので、任意の場所に保存します。
データ変換を実行する
作成したデータ変換を実行する方法について説明します。
-
データ変換に成功すると、指定した場所にExcelファイルが出力されます。
Excelファイルを開くと、読み込んだCSVファイルの中身が出力されていることを確認できます。
-
確認できたらExcelファイルを閉じます。
実行結果のデータの中身を確認する
PDIではステップごとに実行結果を確認できます。
Step1: 各ステップの実行結果を確認する
実行すると右下に実行結果ペインが表示されます。[データをプレビュー]タブをクリックするとキャンバスで選択しているステップの実行結果を確認できます。
Step2: データをグラフ化する
PDI上でデータをグラフ化して視覚的にデータを把握できます。
ここでは[Microsoft Excel writer]ステップで[POSTALCODE]列の欠損があるかどうかを確認します。
-
[Microsoft Excel writer]ステップをクリックし、右上の
をクリックします。
次のような画面が表示されます。
-
[Layout]にフィールドを設定します。
ここでは、横棒グラフの横軸に[ORDERNUMBER]列、縦軸に[POSTALCODE]列を設定します。 -
[Not Available]があることを確認します。
[Not Available](欠損)が表示されている[POSTALCODE]列に、欠損があることを示します。
(横棒の大きさは[ORDERNUMBER]の合計値を表しており、欠損の個数ではありません。)
不要なデータを除外する
[フィルター]ステップで条件式を設定し、不要なデータを除外すれば、欠損を回避できます。
-
キャンバスに配置した[フィルター]ステップを、[CSV入力]ステップから[Microsoft Excel writer]へのホップの上にドラッグします。
ホップの上にステップをドラッグすると次の図のようにホップが太くなる場所があります。そこで[フィルター]ステップをドロップします。
次の図のようなメッセージが表示されますので、[はい]ボタンをクリックします。
-
[フィルター]ステップをダブルクリックし設定画面を開きます。
設定画面にはステップ名のほか、次の内容を設定します。# 設定項目 設定内容 備考 1 条件式が真(True)のときに実行する処理 Microsoft Excel writer 2 フィルタ条件(左) POSTALCODE 3 フィルタ条件(中) IS NOT NULL 設定画面を閉じると次の図のように[フィルター]ステップと[Microsoft Excel writer]のホップに が付きます。
データ変換を再実行する
次に示す手順で加工後のデータを変換し、問題ないことを確認します。
-
「データ変換を実行する」を参照し、データ変換を実行します。
「データ変換を実行する」で作成したExcelファイルを開いたまま実行すると手順2でエラーになります。Excelファイルを閉じてから実行してください。
-
「データをグラフ化する」を参照し、再度グラフ化します。
まとめ
今回はPentahoソフトウェア Ver10.2のETL機能であるPDIの基本的な使い方について紹介しました。
GUIで簡単にETL処理を作成できることを体験してみてください!
他社商品名、商標等の引用に関する表示
HITACHIは,株式会社 日立製作所の商標または登録商標です。
Excel、MicrosoftおよびWindowsは、マイクロソフト 企業グループの商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。
-
データパイプラインの開発を支援する 日立のデータ統合・分析基盤 Pentaho https://www.hitachi.co.jp/products/it/bigdata/platform/pentaho/about/index.html ↩