目的
オープンソースのBIツール「Pentaho」のETLツールであるPDI(Pentaho Data Integration)のインストール手順と基本的な設定項目を整理する。
PDIって?
目的にも書いてしまったけど、一言でいうと「オープンソースのBIツールであるPentahoがもつETLツール」です。
Pentaho自体は、OLAP、定形レポート、ダッシュボード、ETL、ユーザ管理等のプラットフォームを含むBIスイート製品ですが、そのなかのETL機能をPDIと呼びます。
PDI自体は、Spoon(ETLの処理をデザインするクライアントツール)、Pan&Kitchen(デザインしたETL処理をバッチ実行するツール)、Carte(ETL処理を実行するサーバ機能)で構成されているETLツールです。
基本的な機能としては、有償版と無償版で同じです。
(有償版と無償版での大きな違いは、Spoon上でデータの可視化ができるかどうかというところです)
今回の環境
PDI 7.1
Java Version 8 Update 131
※OSはJavaが動けばなんでも良い、またJavaはとりあえず最新版を入れておけば大丈夫
Javaのダウンロードとインストール
Javaは以下からダウンロードしてメニューに従ってインストールしておく。
https://java.com/ja/download/
PDIのダウンロードとインストール
以下からダウンロードする。
http://community.pentaho.com/
"Download Section"をClickして、以下のへ移動し"Data Integration"からダウンロードする。
ダウンロードしたZIPファイルを解凍してできる"data-integration"ディレクトリを適当な場所に配置して完了です。
起動方法
Spoon(ETL処理をデザインするクライアントツール)の起動は以下のように行ないます。
$ cd data-integration
$ ./spoon.sh
設定
日本語化
Toolsメニュー > Optionsを選択し、"Preferred Language"を"Japanese"に変更してSpoonの再起動。
メモリの割り当て
spoon.sh内の"-Xmx1024m"を変更してSpoonの再起動。
$ vim data-integration/spoon.sh
if [ -z "$PENTAHO_DI_JAVA_OPTIONS" ]; then
PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m"
fi
各種JDBCドライバの配置場所
以下にドライバを置いて、Spoonの再起動。
data-integration/lib/配下
kettle.properties
kettle.propertiesは起動しているJVM上で共通的に使用できるパラメータです。
SpoonやPan、Kitchen等は必ずkettle.propertiesを読み込むようになっているので、ここに共通的に使用したい値を設定しておくことで各ETL処理内で使いまわすことができます。
左辺がパラメータ名で右辺が値です。ETL上では"${パラメータ名}"で右辺の値を呼び出すことが可能です。
また、Spoon上のEditメニュー > Edit the kettle.properties fileから、Spoon上で直接kettle.properteisファイルを変更することも可能です。
$ vim ~/.kettle/kettle.properties
KETTLE_COMPATIBILITY_IMPORT_PATH_ADDITION_ON_VARIABLES=N
KETTLE_REDIRECT_STDERR=N