はじめに
本記事は日立のPentahoという製品の持つ機能や特徴を実際の画面とともにご紹介します。
PentahoはETLツール・BIツールと呼ばれる機能をオールインワンで持つソフトウェアです。
ETLツールとは、データの抽出(Extract)、変換(Transform)、ロード(Load)を行うソフトウェアで、さまざまな形式のデータソースからデータを収集し、加工・統合して、さまざまな形で保存する処理をGUIでコーディングレスに作成することができます。
BI(ビジネスインテリジェンス)ツールとは、企業がデータを分析し、視覚化するためのソフトウェアで、レポートやダッシュボードを作成して、意思決定を支援します。
本記事は、ETL・BIツールに興味を持っている方やPentahoを触ってみたい方に向けた記事です。ETLの使い方、BIとの連携、Pentahoの操作イメージなどを記事を通して感じていただければと思います。
1. Pentahoとは
Pentahoはデータ収集・抽出・加工・出力を実行する「データ統合基盤(ETL)」と、 データ可視化・データ分析を実行する「データ分析基盤(BI)」をオールインワンで提供し、アジャイルでのデータ利活用を可能にするプラットフォームです。
Pentahoの詳細な説明は下記の日立製作所公式の製品紹介ページを参考にしていただければと思います。
データパイプラインの開発を支援する 日立のデータ統合・分析基盤 Pentaho
以降では、Pentahoの機能であるETL・BIそれぞれのツールについて画面イメージとともに、特徴や機能の説明をします。
2. PentahoのETL
PentahoのETL機能の開発ツールである、Spoonを紹介します。
ETLとはExtract・Transform・Loadの略で、データの入力・加工・出力といった機能のことを指します。
SpoonはGUIでデータの入力・加工・出力といったETLを開発するツールです。
Spoonでの開発は上のように部品をドラッグ&ドロップし、それらの間に矢印で実行順を定義します。
2.1 データの抽出(Extract)
ETLツールとして、Pentahoはさまざまなデータソースの連携部品を備えています。
以下は対応しているデータソースの一例です。
ここにある部品はそれらの対応しているデータソースを取り扱うための専用部品です。これらの部品を用いることでさまざまなデータソースから簡単にデータを読み込むことができます。
2.2 データの加工(Transform)
データを分析するためには、準備として適切な形に加工する必要があります。
Pentahoでは用途に応じたさまざまな部品を用いて加工を実現します。
以下は、よく使うSpoonの加工部品例です。
Spoonには部品が300種類以上あり、部品ごとに柔軟な設定が可能なので、複雑な処理であっても簡単に実装することができます。
2.3 データのロード(Load)
加工したデータを適切な形で出力します。
出力する際も入力同様多くの部品があり、SaaSやクラウド製品との連携も簡単に実装することができます。
2.4 ETLの実行・データの確認
開発したETLはSpoon上でデバッグ実行することができます。開発途中であっても、ログやデータの流れをGUIですぐに確認できるので、効率的にETLを開発することができます。
また、Spoon上でデータを可視化することもでき、可視化と加工のサイクルを素早く回すことができます。
3. PentahoのBI
PentahoのBIツールを紹介します。
BIとはBusiness Intelligenceの略で、データを分析・可視化し、経営や業務に役立てるためのソフトウェアです。
PentahoのBIへはブラウザーからアクセスできます。
下のように様々なグラフを表示することができ、さらに特定のデータだけに注目できるようなインタラクティブな操作性を兼ね備えています。
Pentahoの主なBIツールとして、ダッシュボード、アナライザレポート、インタラクティブレポート、Pentahoレポートというものがあります。
-
ダッシュボード
円グラフ、表、線グラフや棒グラフ、散布図、ジオマップなど、様々な表現の可視化を一括で確認できます。また、フィルター機能を用いることもでき、これであれば、特定の条件でデータのフィルタリングが可能です。
-
アナライザレポート
アナライザレポートはOLAP分析と呼ばれる多角的な視野でのデータ分析を可能とするもので、比較項目やレイアウトを自在に変更しながらデータを眺めることが可能なレポートです
- インタラクティブレポート
インタラクティブレポートは帳票作成ツールで、ブラウザー上で直感的に帳票を作成できるレポートです。
- Pentahoレポート
Pentahoレポートはより複雑なデザインのレポート作成を可能とするツールで、専用のクライアントアプリケーションを用いて開発するレポートです。
おわりに
本記事ではPentahoを用いてETL機能・BI機能を紹介しました。
もし、Pentahoに興味を持っていただけた場合は、以下の記事を参考にトライアル版をインストールしてみてください。
ETLツール Pentahoのトライアル版をインストールしてみよう!【Pentaho ファーストステップガイド インストール編】
他社商品名、商標等の引用に関する表示
Amazon Web ServicesおよびAmazon Redshiftは、米国その他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
IBMおよびDB2は、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。
Microsoft, Active Directory, Azure, Excel, SQL ServerおよびHDInsightは、米国Microsoft Corporationの米国およびその他の国における登録商標または商標です。
GoogleおよびBigQueryは、Google LLC の商標または登録商標です。
OracleおよびMySQLは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。文中の社名、商品名等は各社の商標または登録商標である場合があります。
本書に記載される SAP 及びその他の SAP の製品やサービス、並びにそれらの個々のロゴは、ドイツ及びその他の国における SAP SE (又は SAP の関連会社)の商標若しくは登録商標です。
HadoopおよびCassandraは、 Apache Software Foundationの米国およびその他の国における登録商標または商標です。
Clouderaは、Cloudera, Inc.の登録商標です。
PostgreSQLは、PostgreSQL Community Association of Canadaのカナダにおける登録商標およびその他の国における商標です。
Salesforceは、salesforce.com,Inc.の登録商標または商標です。
Snowflakeは、Snowflake Inc.の米国およびその他の国における商標または登録商標です。
MongoDBは、MongoDB Inc.の登録商標です。
HITACHIは、株式会社 日立製作所の商標または登録商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名、製品名などは、それぞれの会社の商標もしくは登録商標です。