Pentahoとは
Pentahoとは
Pentaho とは、Pentaho社の社名であるとともに、Pentaho社が提供する データ統合・BI/BAツール の総称です。
データ統合
データ統合 とは、 複数のデータソースからデータを集めてくる処理 、集めたデータをきれいにする処理、 集めたデータを結合する処理 、 集めたデータを理解できる形に変換する処理 、そして最後に 様々な処理結果を格納する処理 からなります。
上記の領域をカバーするPentahoのツールである Pentaho Data Integration の起動画面を下図に示します。GUIでアイコンをつなぐことでETL処理を作ることができます。
BI/BA
BI/BA とは、それぞれBusiness IntelligenceとBusiness Analyticsの略称です。BI/BAの主要な機能は、 定型分析 (表形式のデータ表示、グラフ形式のデータ表示、OLAP分析)、 Adhocな分析 (データマイニング、テキストマイニング)、 レポーティング (PDFやHTMLでのレポート出力、ダッシュボード)、 プランニング (予測分析)などがあります。
BIとBAを分けて考えてもよいのですが、重なる部分も多いため両者のカバーする機能を列挙しました。
上記の領域をカバーするPentahoのツールである Pentaho Business Analytic Server の起動画面を下図に示します。ブラウザ上でOLAP分析やダッシュボード作成を行うことができます。
Pentahoの構成
Pentahoは、OSSソフトウェアの組み合わせで構成されているため、Community Editionであれば無償で利用することができます。有償のEnterprise Editionと比べると機能やサポート面で見劣りするところはありますが、十分使えるようです。
Pentaho社は買収により日立のグループ会社になりましたが、すでに使っているOSSを見る限り、急にすべてクローズドにすることは難しいでしょう。
Pentahoで何ができるのか
Pentahoで何ができるのかについて詳しい話は、公式のProduct Overviewや日立製作所 - Pentahoソフトウェアに譲るとして、ここではPentahoの主要なツールに何ができるかを説明します。なお、斜体のものはEnterprise Editionのみの機能です。
ツール名 | できること |
---|---|
Pentaho Data Integration | ETL処理全般/ビッグデータソースとの接続/OLAPに特化したETL処理/ RやWeka やPythonとの連携/コードスニペットによる細かい挙動の制御/プラグインによる拡張 |
Pentaho Business Analytic Server | GUIによるOLAP分析/Web上でのレポート作成/GUIで作成できるダッシュボード /Ctoolsによる洗練されたダッシュボードの作成/AppBuilderによるWebアプリケーションの作成 |
Pentaho Metadata Editor | ビジネスのデータモデルと論理データモデルを結びつける/ビジネスのデーモデルへのクエリを論理データモデルへのクエリに変換する |
Pentaho Report Designer | 紙やPDF/HTMLに出力する定型レポートを作成する |
Pentaho Schema Workbench | OLAPのスキーマ(Mondrianスキーマ)の作成を支援するツール |
Pentaho Aggregation Designer | 性能向上のために、計算時間がかかるが頻繁にアクセスされる列をあらかじめ集計するための補助ツール |
次回
今回はここまでです。
次回は、 Pentahoでできることとできないことを説明した後、 インストールからHello Worldまでやってみたいと思います。
記事の修正や記事にしてほしい話題がありましたら、連絡をいただければと思います。