1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ETLツール Pentahoを使ってみよう!【Pentaho ファーストステップガイド PDI使い方編】

Last updated at Posted at 2025-03-03

Pentaho ファーストステップガイド PDI使い方編

はじめに

本記事では、Pentahoソフトウェア1 Ver10.2のETL機能であるPDIの基本的な使い方について紹介します。
なお、Pentahoのトライアル版のインストール方法についてはこちらの記事をご参照ください。
ETLツール Pentahoのトライアル版をインストールしてみよう!【Pentaho ファーストステップガイド インストール編】

PDIの紹介

Pentaho Data Integration(PDI)は、各種データソースからデータウェアハウス、データマートを作成する際の、データ抽出・変換・集約・ロード処理といったETL処理(Extract, Transformation & Loading)のプログラムを開発する構築支援ツールです。PDIは、GUIによるプログラムレスでのビジュアル開発によって、高生産性、高品質なデータウェアハウスの構築を可能とします。

PDI(Spoon)を起動する

以降で説明するデータ変換や加工などを実施するには、PDIが提供するGUI(Spoon)を最初に起動する必要があります。
PDIを起動するユーザに管理者権限があるかどうかで起動方法が異なります。
なお、初回起動時は初期化処理のため10分程度掛かることがあります。

  • 管理者権限のあるユーザの場合
    起動するユーザに管理者権限がある場合はスタートメニューから起動します。
    [スタートメニュー]-[すべて]-[Pentaho Enterprise Edition]-[Data Integration]で起動します。

image.png

PDIの画面構成

PDIの画面は次のとおりです。
image.png

単純なデータ変換を作成する

Step1: 新しいデータ変換定義画面を開く

[ファイル]メニュー-[新規]-[データ変換]を選択して、新しいデータ変換定義画面を開きます。
image.png

Step2: CSVファイルを読み込む設定を追加する

PDIに含まれるサンプルのCSVファイルを読み込むよう次の手順で設定します。

  1. 部品一覧の[入力]-[CSV入力]をキャンバスにドラッグ&ドロップします。
    image.png

  2. [CSV入力]ステップをダブルクリックし設定画面を開きます。
    image.png

  3. 設定画面に次の内容を設定します。

    # 設定項目 設定内容 備考
    1 ファイル名 C:\pent\p102\design-tools\data-integration\samples\transformations\files\sales_data.csv
    (上記のパスは、例です。)
    サンプルのCSVファイルの格納場所をフルパスで指定します。
    [参照]ボタンをクリックするとファイルダイアログから選択できます。
    2 データ型を自動変換 オフ データ型の変換を省略して性能向上を図る機能です。後続処理でエラーになることがあるので、オフにすることをお勧めします。
    3 文字コード ISO-8859-1 左記のとおり指定してください。
    4 フィールド ([フィールドを取得]ボタンをクリックし、次に表示されるダイアログで[OK]ボタンをクリックしてください。) 読み込むファイルの1行目をフィールド名として利用し、2行目以降のデータで型を推測します。

    設定後の内容は次のとおりです。
    image.png

正しく読み込めるかどうかはプレビュー画面で確認できます。確認手順を次に示します。

  1. [プレビュー]ボタンをクリックします。
    image.png
  2. プレビューする行数をダイアログに入力して[OK]ボタンをクリックすると、次のようなプレビュー画面が表示されます。
    image.png
  3. 表示されたプレビュー画面で問題がないか確認します。確認する項目の例を次に示します。
    • 列名が表示されている
    • データが複数行表示されている
    • 文字化けしていない
      問題なければプレビュー画面の[閉じる]ボタンをクリックしてプレビュー画面を閉じます。
  4. 設定完了後、[OK]ボタンをクリックし設定画面を閉じます。

Step3: Excelファイルを出力する設定を追加する

読み込んだCSVファイルをExcelファイルに出力するよう次の手順で設定します。

  1. 部品一覧の[出力]-[Microsoft Excel writer]をキャンバスにドラッグ&ドロップします。
    image.png

  2. キャンバス上の[CSV入力]ステップと[Microsoft Excel writer]ステップをつなげます(ホップを設定)。
    次の手順で実施してください。

    1. [CSV入力]ステップの上にマウスポインタを持って行くと次のような吹き出しが表示されます。
      image.png
    2. image.pngをクリックし、マウスポインタを[Microsoft Excel writer]ステップまで移動させクリックします。
      image.png
    3. [ステップのメインアウトプット]を選択し、接続(ホップ)を完了します。
      image.png

    ホップは次の方法でも設定できます。

    • [Shift]キーを押した状態で、[CSV入力]ステップをクリックしたまま、マウスポインタを[Microsoft Excel writer]ステップまで移動させクリックを放します。
    • ホイールがついたマウスであれば、[CSV入力]ステップでスクロールをクリックしたまま[Microsoft Excel writer]ステップまで移動させクリックを放します。
  3. [Microsoft Excel writer]ステップをダブルクリックし設定画面を開きます。
    image.png
    設定画面には次の内容を設定します。

    # 設定項目 設定内容 備考
    1 ファイル名 (任意の場所を指定してください。拡張子(「.xls」など)は不要です。) 変換後のExcelファイルの格納場所をフルパスで指定します。ファイル名はCSVファイル名と異なる名称も指定できます。
    [参照]ボタンをクリックするとファイルダイアログから選択できます。

設定後の設定画面は次のとおりです。
image.png
設定完了後、[OK]ボタンをクリックして設定画面を閉じます。

Step4: 作成したデータ変換を保存する

[ファイル]メニュー-[保存]を選択して、データ変換定義を保存します。新規に保存する場合はファイルダイアログが表示されますので、任意の場所に保存します。
image.png

データ変換を実行する

作成したデータ変換を実行する方法について説明します。

  1. キャンバスの左上にあるimage.png (実行)ボタンをクリックします。
    image.png

  2. [データ変換の実行]ダイアログが表示されますので、[実行]ボタンをクリックします。
    image.png

  3. 実行すると右下に実行結果のペインが表示されます。
    image.png

    正常に実行したステップの右上に緑色のチェックマークがつきます。
    image.png

    実行に失敗したステップは赤枠で囲まれ右上に赤色の停止マークがつきます。
    image.png

  4. データ変換に成功すると、指定した場所にExcelファイルが出力されます。
    Excelファイルを開くと、読み込んだCSVファイルの中身が出力されていることを確認できます。
    image.png

  5. 確認できたらExcelファイルを閉じます。

実行結果のデータの中身を確認する

PDIではステップごとに実行結果を確認できます。

Step1: 各ステップの実行結果を確認する

実行すると右下に実行結果ペインが表示されます。[データをプレビュー]タブをクリックするとキャンバスで選択しているステップの実行結果を確認できます。
image.png

Step2: データをグラフ化する

PDI上でデータをグラフ化して視覚的にデータを把握できます。
ここでは[Microsoft Excel writer]ステップで[POSTALCODE]列の欠損があるかどうかを確認します。

  1. [Microsoft Excel writer]ステップをクリックし、右上のimage.pngをクリックします。
    image.png
    次のような画面が表示されます。
    image.png

  2. [Table]のプルダウンメニューから横棒グラフを選択します。
    image.png
    次のような画面が表示されます。
    image.png

  3. [Layout]にフィールドを設定します。
    ここでは、横棒グラフの横軸に[ORDERNUMBER]列、縦軸に[POSTALCODE]列を設定します。

    1. [ORDERNUMBER]列の配置
      [Horizontal Axis]に[ORDERNUMBER]列をドラッグ&ドロップします。
      image.png
    2. [POSTALCODE]列の配置
      [Vertical Axis]に[POSTALCODE]列をドラッグ&ドロップします。
      image.png
  4. [Not Available]があることを確認します。
    [Not Available](欠損)が表示されている[POSTALCODE]列に、欠損があることを示します。
    (横棒の大きさは[ORDERNUMBER]の合計値を表しており、欠損の個数ではありません。)
    image.png

  5. image.pngをクリックし、データ変換定義画面に戻ります。
    image.png

不要なデータを除外する

[フィルター]ステップで条件式を設定し、不要なデータを除外すれば、欠損を回避できます。

  1. 部品一覧の[フロー]-[フィルター]をキャンバスにドラッグ&ドロップします。
    image.png

  2. キャンバスに配置した[フィルター]ステップを、[CSV入力]ステップから[Microsoft Excel writer]へのホップの上にドラッグします。
    image.png

    ホップの上にステップをドラッグすると次の図のようにホップが太くなる場所があります。そこで[フィルター]ステップをドロップします。
    image.png

    次の図のようなメッセージが表示されますので、[はい]ボタンをクリックします。
    image.png

    そうすると次の図のように、PDIが自動でホップを分割し、つなぎ直します。
    image.png

    次の図のように[フィルター]ステップの左にimage.pngが付いていない場合は、分割できていません。

    image.png

  3. [フィルター]ステップをダブルクリックし設定画面を開きます。
    設定画面にはステップ名のほか、次の内容を設定します。

    # 設定項目 設定内容 備考
    1 条件式が真(True)のときに実行する処理 Microsoft Excel writer
    2 フィルタ条件(左) POSTALCODE
    3 フィルタ条件(中) IS NOT NULL

    設定後の設定画面は次のとおりです。
    image.png

    設定画面を閉じると次の図のように[フィルター]ステップと[Microsoft Excel writer]のホップに が付きます。

    image.png

データ変換を再実行する

次に示す手順で加工後のデータを変換し、問題ないことを確認します。

  1. データ変換を実行する」を参照し、データ変換を実行します。

    データ変換を実行する」で作成したExcelファイルを開いたまま実行すると手順2でエラーになります。Excelファイルを閉じてから実行してください。

  2. データをグラフ化する」を参照し、再度グラフ化します。

  3. [Not Available]のデータがないことを確認します。
    image.png

まとめ

今回はPentahoソフトウェア Ver10.2のETL機能であるPDIの基本的な使い方について紹介しました。
GUIで簡単にETL処理を作成できることを体験してみてください!

他社商品名、商標等の引用に関する表示

HITACHIは,株式会社 日立製作所の商標または登録商標です。
Excel、MicrosoftおよびWindowsは、マイクロソフト 企業グループの商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。

  1. データパイプラインの開発を支援する 日立のデータ統合・分析基盤 Pentaho https://www.hitachi.co.jp/products/it/bigdata/platform/pentaho/about/index.html

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?