#Pentaho Repositoryとは
Pentahoのバージョン7系以降、Community版(無償版)で、Pentaho Repositoryという機能が使用可能になりました。
バージョン6系まではEnterprise Repositoryと呼ばれていた機能で、Enterprise版(有償版)でしか使用できなかったものです(たぶん)。
Repositoryと名がつくとおり、Spoon上で作成したETL定義体(JobやTransformation)をPentahoServerのファイルレポジトリを利用して保存することが可能です。また、Repositoryを使用することで以下の機能が使用できます。
- ETLの定義体の保存(前述のとおり)
- ETL定義体のユーザ更新やバージョン管理(前のバージョンに戻すことも可能)
- ETL定義体のロック機能(7.0までBugで実質使用不可だったが7.1で直っているもよう)
- DB/Hadoop/SlaveServerへの接続情報の共有
- パーティション設定の共有
- クラスタ設定の共有
- ユーザ/ロール設定(ETL定義体や各種接続情報の権限管理も)
- PentahoServerを使用したスケジュール実行
通常は、ファイルで保存しておくことが多いETLの定義体ですが、Pentaho Repositoryを使用することで、いろいろな機能が使用できますので、これはと思うものがあればお試しください。
#設定方法
まずは、初期設定です。
Pentaho Repositoryの本体はPentahoServerになるので、最初にPentahoServerを起動します。
(Pentahoのインストールや起動方法についてはこちら)
次にSpoonを起動します。
(PDIのインストールやSpoonの起動方法についてはこちら)
Spoonを起動すると、右側の方に「Connect」というリンクがあるのでClickします。
すると、以下のようなウィンドウが立ち上がってくるので、イメージの様に設定します。
Display Name: Repositoryの表示名(わかりやすい名前で設定)
URL: Repositoryとして使用するPentahoServerの接続先(例 http://localhost:8080/pentaho)
Description: 説明文(必要であれば)
以上で初期設定が完了しました。
#Pentaho Repositoryへ接続
次に、初期設定したPentaho Repositoryへ接続します。
当然ですがPentahoServerが起動している必要がありますので、PentahoServerが起動した状態で、Spoonより以下のように接続します(ユーザ/パスワードはPentahoServerと共通です)。
#Pentaho Repositoryを使用する
##ETL定義体を保存する
Spoon上で適当にTransformationをひとつ作成します。今回は「データグリッド」ステップをひとつだけ配置したものにしておきます。作成後、保存します。
##保存されたETL定義体を確認する(Repository Explorer)
保存されたETL定義体をRepository Explorerにて確認します。
また、Pentaho Repositoryは、PentahoServer内部にありますので、PentahoServerからも確認することが可能です。
ブラウザよりPentahoServerにアクセスして確認します。
##その他機能について
基本的にはRepository Explorerから利用可能ですが、一部分かりにくいものもあるので、そのあたりは別途まとめる予定です。
#投稿時点での注意点
投稿時点(2017/8/13)では、まれにSpoonの「Connect」リンクが消えてしまうBugがあるようです。
まだ修正されていないようですので、リンクが消えた場合は、「data-integration/system/karaf/caches/spoon/data*」を削除して、Spoonの再起動をしてみてください。