0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

データ変換やジョブ管理を効率化するためにPentahoでREST APIを使う

Last updated at Posted at 2025-05-21

概要

多くの企業が抱える課題の一つに、大量のデータを効率的に処理し、ジョブを管理することがあります。複雑なデータ処理やジョブの管理を手動で行うと、時間と労力がかかり、ミスが発生しやすくなります。このような課題を解決するために、PentahoとREST APIを活用する方法をご紹介します。
Pentahoは、日立製作所が提供するソフトウェアで、データの収集・加工を行うETL機能と、データの可視化・分析を行うBI機能を統合した強力なプラットフォームです。Pentahoを利用することで、データの統合から分析までをシームレスに実現し、データ変換やジョブ管理を効率化することができます。
Pentahoについて詳細を知りたい方は、日立製作所公式の製品紹介ページ をご覧ください。
この記事では、よく用いるリクエストをcurlを使用した具体例とともに紹介し、実践的なAPIの利用方法を学びます。

対象となる読者

  • Pentahoの導入を検討しており、他のアプリケーションや外部のソフトウェアとの連携によるデータ変換やジョブ管理の効率化に興味がある方
  • Pentahoを既に使用しているが、REST APIを通じたスムーズなデータ連携を実現する方法を深く理解したい方
  • PentahoでREST API連携を実装していて、具体的なリクエスト送信方法を確認したい方

この記事は、特にデータエンジニアやアプリケーション開発者の方々に向けて、Pentahoとアプリケーションを用いた業務課題を解決するための情報を提供します。

Pentahoとアプリケーションの連携

Pentahoは、RESTベースのAPIを公開しており、データ変換、ジョブの管理、ファイル操作などの機能をアプリケーションから直接実行することが可能です。

PentahoのREST APIについて

主要なREST APIの使用方法を紹介します。
Pentahoサーバーはデフォルトで8080ポートを用いるため、以降のサーバーのURLはhttp://localhost:8080として説明しています。

認証

PentahoのREST APIを使うためには、ユーザー認証を通す必要があります。
Pentahoには、クライアント認証システムとして、Basic認証とCookieベース認証の2つの方法があります。今回はBasic認証を用いる場合について説明します。

Basic認証

概要

Basic認証は、ユーザー名とパスワードを使用して認証を行うシンプルな方法です。

パラメータ 説明
ユーザー名 Pentahoのリポジトリに登録されているユーザー名。
ユーザーコンソールにアクセスするときのユーザー名と同じです。
パスワード Pentahoのリポジトリにアクセスするためのパスワード。
ユーザーコンソールにアクセスするときのパスワードと同じです。

idpass.png
デフォルトでは、adminユーザーにパスワードとしてpasswordが設定されているので、以降のリクエストではこれらを用いて説明します。

curlでの実行サンプル

以下は、curlを使用してBasic認証でPentahoにリクエストを送信するGETリクエストのサンプルです。

認証方式1:URIに認証情報を記載するパターン
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/status"
(サーバーからの出力)

また、以下のようなURIでリクエストを送ることも可能です。

認証方式2:オプションに含めるパターン
curl -X GET -u admin:password "http://localhost:8080/pentaho/kettle/status"
(サーバーからの出力)

APIでのPentahoの操作方法

以下では、REST APIを使用してデータ変換やジョブといったPentahoの機能を操作する方法を紹介します。

1. ETLの実行

REST APIを用いて、Pentahoで開発したデータ変換やジョブの実行を行うことができます。

1-1. データ変換(ktrファイル)の実行

ktrファイルは、データ変換の定義ファイルです。

概要

/pentaho/kettle/executeTransは、ローカルファイルまたは指定されたリポジトリからデータ変換を実行します。実行中にエラーが発生した場合は、エラーの出力を含むレスポンスが返されます。エラーが発生しなかった場合、レスポンスは空になります。

エンドポイント 説明
/pentaho/kettle/executeTrans サーバーからデータ変換を実行します。
パラメータ名 説明
trans ロードして実行するジョブの名前を指定します。 String
rep (任意) 接続するリポジトリのIDを指定します。 String
user (任意) リポジトリに接続するためのユーザー名を指定します。 String
pass (任意) リポジトリに接続するためのパスワードを指定します。 String
level(任意) ジョブ実行時に使用するログレベルを指定します。
(例: Debug)
String
その他(任意) ジョブのカスタムパラメータを指定できます。 -

curlでの実行サンプル

以下は、curlを使用してktrファイルを実行するGETリクエストのサンプルです。

ktrファイル実行
# ローカルに保存されたファイルを実行する場合
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/executeTrans/?trans=/home/pentaho/my_trans.ktr&level=INFO"

# リポジトリに保存されたファイルを実行する場合
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/executeTrans/?trans=/home/admin/my_trans&rep=my_repository&level=INFO"


# データ変換が正常に実行できた場合
(出力なし)

# データ変換でエラーが発生した場合
<webresult>
  <result>ERROR</result>
  <message>
・・・
  </message>
  <id/>
</webresult>

  • http://admin:password@localhost:8080は、Pentahoサーバーのアドレスに置き換えてください
  • my_transmy_repositoryINFOは、実際のリポジトリ名、データ変換名、ログレベルに置き換えてください
  • リポジトリ名については、repositories.xmlというファイルのnameタグに記載された値を指定します。デフォルトでは、ユーザーディレクトリの下の.kettleディレクトリにあります

実行結果は、2. ETLステータスの確認で紹介する/pentaho/kettle/status/pentaho/kettle/transStatusを用いて確認できます。

1-2. ジョブ(kjbファイル)の実行

kjbファイルは、ジョブの定義ファイルです。

概要

ジョブを実行するためには、/pentaho/kettle/executeJobを使用します。

エンドポイント 説明
/pentaho/kettle/executeJob サーバーからジョブを実行します。
パラメータ名 説明
job ロードして実行するジョブの名前を指定します。 String
rep (任意) 接続するリポジトリのIDを指定します。 String
level(任意) ジョブ実行時に使用するログレベルを指定します。
(例: Debug)
String
その他(任意) ジョブのカスタムパラメータを指定できます。 -

curlでの実行サンプル

以下は、curlを使用してkjbファイルを実行するGETリクエストのサンプルです。

kjbファイル実行
# ローカルに保存されたファイルを実行する場合
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/executeJob/?job=/home/pentaho/my_job.kjb&level=INFO"

# リポジトリに保存されたファイルを実行する場合
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/executeJob/?job=/home/admin/my_job&rep=my_repository&level=INFO"


# ジョブが正常に起動した場合
<webresult>
  <result>OK</result>
  <message>Job started</message>
  <id>c4c886ed-6ee4-4ed7-9a41-2cd95ef26433</id>
</webresult>

# ジョブが起動できなかった場合
<webresult>
  <result>ERROR</result>
  <message>
・・・
  </message>
  <id/>
</webresult>

  • http://admin:password@localhost:8080は、Pentahoサーバーのアドレスに置き換えてください
  • my_jobmy_repositoryINFOは、実際のリポジトリ名、ジョブ名、ログレベルに置き換えてください
  • リポジトリ名については、repositories.xmlというファイルのnameタグに記載された値を指定します。デフォルトでは、ユーザーディレクトリの下の.kettleディレクトリにあります

実行結果は、2. ETLステータスの確認で紹介する/pentaho/kettle/status/pentaho/kettle/jobStatusを用いて確認できます。

2. ETLステータスの確認

まずは、現在実行しているサーバーのステータスやデータ変換やジョブの状態を確認するためのコマンドについて説明します。

2-1. サーバーステータスの確認

概要

現在のデータ変換の稼働状況やジョブの状態を把握するために、
Pentahoサーバーのステータスを確認するには、/pentaho/kettle/statusにアクセスします。

エンドポイント 説明
/pentaho/kettle/status サーバーのステータスを確認します。
パラメータ名 説明
xml(任意) Yを指定すると、XML形式で出力されます。
デフォルトはHTMLです。(xml=N)
boolean

curlでの実行サンプル

以下は、curlを使用してサーバーステータスを確認するGETリクエストのサンプルです。

サーバーステータス確認
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/status/?xml=Y"

<?xml version="1.0" encoding="UTF-8"?>
<serverstatus>
<statusdesc>Online</statusdesc>
    <memory_free>1192312832</memory_free>
    <memory_total>4294967296</memory_total>
    <cpu_cores>4</cpu_cores>
    <cpu_process_time>1618736639378</cpu_process_time>
    <uptime>499852119</uptime>
    <thread_count>108</thread_count>
    <load_avg>0.0</load_avg>
    <os_name>Linux</os_name>
    <os_version>5.14.0-427.13.1.el9_4.x86_64</os_version>
    <os_arch>amd64</os_arch>
    <transstatuslist>
        <transstatus>
             <transname>testTrans</transname>
             <id>7fe3f507-5b07-4369-b7ff-36c7382dbc7c</id>
            ・・・
        </transstatus>
    </transstatuslist>
    <jobstatuslist>
        <jobstatus>
             <jobname>testJob</jobname>
             <id>470d3363-d3fb-47d9-9d63-db802193f556</id>
             ・・・
        </jobstatus>
    </jobstatuslist>
</serverstatus>

ブラウザーから下記のURLにアクセスするとスレーブサーバーステータス画面を開けます。

http://admin:password@localhost:8080/pentaho/kettle/status

ddd.png

2-2. データ変換のステータス確認

概要

データ変換のステータスを確認することで、データ変換の実行状態、エラーの有無を把握できます。
ステータスを確認するには、/pentaho/kettle/transStatusにアクセスします。

エンドポイント 説明
/pentaho/kettle/transStatus データ変換のステータスを確認します。
パラメータ名 説明
name 確認したいデータ変換(ktrファイル)の名前を指定します。 string
xml(任意) Yを指定すると、XML形式で出力されます。
デフォルトはHTMLです。(xml=N)
boolean
Id(任意) データ変換のIDを指定します。
同じデータ変換を複数実行したときに使用します。
string
from(任意) 出力にログの何行目からを含めるかを指定します。 integer

curlでの実行サンプル

以下は、curlを使用してデータ変換ステータスを確認するGETリクエストのサンプルです。

ここで、Idは先ほどの/pentaho/kettle/statusから帰ってきた値を用いています。

データ変換ステータス確認
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/transStatus/?name=testTrans&Id=7fe3f507-5b07-4369-b7ff-36c7382dbc7c&xml=Y"

# 出力例
<?xml version="1.0" encoding="UTF-8"?>
<transstatus>
  <transname>testTrans</transname>
  <id>7fe3f507-5b07-4369-b7ff-36c7382dbc7c</id>
  <status_desc>Finished</status_desc>
  <error_desc/>
  <log_date>2025/04/14 10:46:09.421</log_date>
  <paused>N</paused>
  <stepstatuslist>
    <stepstatus><stepname>Data Grid</stepname><copy>0</copy><linesRead>0</linesRead><linesWritten>3</linesWritten><linesInput>0</linesInput><linesOutput>0</linesOutput><linesUpdated>0</linesUpdated><linesRejected>0</linesRejected><errors>0</errors><statusDescription>完了</statusDescription><seconds>0.0</seconds><speed> 1,500</speed><priority>-</priority><stopped>N</stopped><paused>N</paused></stepstatus>
    <stepstatus><stepname>Text file output</stepname><copy>0</copy><linesRead>3</linesRead><linesWritten>3</linesWritten><linesInput>0</linesInput><linesOutput>4</linesOutput><linesUpdated>0</linesUpdated><linesRejected>0</linesRejected><errors>0</errors><statusDescription>完了</statusDescription><seconds>0.0</seconds><speed> 800</speed><priority>-</priority><stopped>N</stopped><paused>N</paused></stepstatus>
  </stepstatuslist>
  <first_log_line_nr>0</first_log_line_nr>
  <last_log_line_nr>196</last_log_line_nr>
<result><lines_input>0</lines_input>
<lines_output>0</lines_output>
<lines_read>0</lines_read>
<lines_written>0</lines_written>
<lines_updated>0</lines_updated>
<lines_rejected>0</lines_rejected>
<lines_deleted>0</lines_deleted>
<nr_errors>0</nr_errors>
<nr_files_retrieved>0</nr_files_retrieved>
<entry_nr>0</entry_nr>
<result>Y</result>
<exit_status>0</exit_status>
<is_stopped>N</is_stopped>
<log_channel_id>874d3f63-0c79-4516-a630-1b299028129f</log_channel_id>
<log_text/>
<elapsedTimeMillis>0</elapsedTimeMillis>
<executionId/>
</result>  <logging_string>&lt;![CDATA[H4sIAAAAAAAA/zMyMDLVNzDRNzRRMDSwMjGzMrBU0FUoSS0uCSlKzCsGsn0yk1PzilMVyhJzMlMS
S1JT9LiMCGpyySwuSCxJzsjMS1coLkksAmpTSMsvUigByQMZuYklmfl5CtFwPbE4DHVJLElUcC/K
TNEzAPKeti97PqHtcdOk51ubnuxqU9DwtDXQUfAHEUEgItzWWEchFMRytTXQxGFkSGpFiUJaZk6q
Qn5pSUFpCV6TTUAmG2OYDAAYsQwDNwEAAA==
]]&gt;</logging_string>

ブラウザーから下記のURLにアクセスするとKettleトランスフォーメーションステータス画面を開けます。

http://admin:password@localhost:8080/pentaho/kettle/transStatus/?name=testTrans&Id=7fe3f507-5b07-4369-b7ff-36c7382dbc7c

testTransStatus_v3.png

2-3. ジョブのステータス確認

ジョブのステータスを確認することで、ジョブの実行状態、エラーの有無を把握できます。
ステータスを確認するには、/pentaho/kettle/jobStatusにアクセスします。

概要

エンドポイント 説明
/pentaho/kettle/jobStatus ジョブのステータスを確認します。
パラメータ名 説明
name 確認したいジョブ(kjbファイル)の名前を指定します。 string
xml(任意) Yを指定すると、XML形式で出力されます。
デフォルトはHTMLです。(xml=N)
boolean
id(任意) ジョブのIDを指定します。
同じデータ変換を複数実行したときなどに使用します。
string
from(任意) 出力にログの何行目からを含めるかを指定します。 integer

curlでの実行サンプル

以下は、curlを使用してジョブステータスを確認するGETリクエストのサンプルです。
IdexecuteJobにリクエストを送った際に帰ってきた値を使用します。

ジョブステータス確認
curl -X GET "http://admin:password@localhost:8080/pentaho/kettle/jobStatus/?name=testJob&id=470d3363-d3fb-47d9-9d63-db802193f556&xml=Y"

# 出力例
<?xml version="1.0" encoding="UTF-8"?>
<jobstatus>
  <jobname>testJob</jobname>
  <id>470d3363-d3fb-47d9-9d63-db802193f556</id>
  <status_desc>Finished</status_desc>
  <error_desc/>
  <log_date>2025/04/14 10:46:42.809</log_date>
  <logging_string>&lt;![CDATA[H4sIAAAAAAAA/zMyMDLVNzDRNzRRMDSwMjGzMjFS0FUoSS0u8cpPArIeN+143Lz8cfO0x02TXk7r
frq8+3Hj9MeN+8Dk/McNTVxGBEzwyUxOzStOVShLzMlMSSxJTdEjqOX5zN0vezY9buyB2Tj1cVMP
3FKFaJfS3NzKWIqNedYx4WnXfMLmwMMAbuDzrU1PdrUhhwTcNAWNotTi0pwS2+iSotLUWE0qmQ7x
MvmGYzUWFH0A+Xsm/gECAAA=
]]&gt;</logging_string>
  <first_log_line_nr>0</first_log_line_nr>
  <last_log_line_nr>196</last_log_line_nr>
<result><lines_input>0</lines_input>
<lines_output>0</lines_output>
<lines_read>0</lines_read>
<lines_written>0</lines_written>
<lines_updated>0</lines_updated>
<lines_rejected>0</lines_rejected>
<lines_deleted>0</lines_deleted>
<nr_errors>0</nr_errors>
<nr_files_retrieved>0</nr_files_retrieved>
<entry_nr>0</entry_nr>
<result>Y</result>
<exit_status>0</exit_status>
<is_stopped>N</is_stopped>
<log_channel_id/>
<log_text/>
<elapsedTimeMillis>0</elapsedTimeMillis>
<executionId/>
</result></jobstatus>

ブラウザーから下記のURLにアクセスするとKettleジョブステータス画面を開けます。

http://admin:password@localhost:8080/pentaho/kettle/jobStatus/?name=testJob&id=470d3363-d3fb-47d9-9d63-db802193f556

testJobStatus_v2.png

3. リポジトリの操作

REST APIを使用することで、リポジトリ内のファイルやディレクトリを操作することができます。ここでは、リポジトリ内に新しいディレクトリを作成する方法を紹介します。

リポジトリフォルダの操作

概要

/repo/dirs/{pathId}は、指定された名前で新しいフォルダを作成します。フォルダが既に存在する場合やエラーが発生した場合には、メッセージが返されます。

エンドポイント 説明
/repo/dirs/{pathId} リポジトリに新しいディレクトリを作成します。
パラメータ名 説明
pathId ルートまでのパスをコロンで区切って指定します。 String

curlでの実行サンプル

リポジトリ内にディレクトリを作成するには、PUTメソッドを使用します。
以下は、curlを使用して指定されたパスに新しいディレクトリを作成するPUTリクエストのサンプルです。

ディレクトリ追加
curl -X PUT "http://admin:password@localhost:8080/pentaho/api/repo/dirs/:home:admin:dir"

# 正常終了した場合
(出力なし)

# 異常終了した場合
(エラーメッセージ)
  • http://admin:password@localhost:8080は、Pentahoサーバーのアドレスです
  • :home:admin:dirは、作成するディレクトリのパスです。コロンで区切られた形式で指定します

このリクエストを送信することで、指定されたパスに新しいディレクトリが作成されます。

先ほどのコマンドを実行すると、以下のようにディレクトリが作成されます。

もっと知りたい方のために

詳細や公式情報へのリンク

他のリクエストや、さらに詳細なAPI仕様については、Hitachi Vantaraより提供されている公式リファレンスを参照してください。

日立製作所Pentahoチームでは、Pentahoを使いたい方や既に使用している方に向けて、さまざまな記事を公開しています。
気になる機能や質問がありましたら、ぜひコメントをお寄せください。
公開されている記事に関するご意見やご質問もお待ちしております。

まとめ

本記事では、PentahoのREST APIを活用してデータ統合と分析を効率化する方法について解説しました。REST APIを通じてPentahoの機能をアプリケーションから直接操作することが可能です。

他社商品名、商標等の引用に関する表示

HITACHIは,株式会社 日立製作所の商標または登録商標です。
Pentahoは、Hitachi Vantara LLCの商標または登録商標です。
その他記載の会社名,製品名などは,それぞれの会社の商標もしくは登録商標です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?