3
3

More than 1 year has passed since last update.

[Apache Hop] Windowsにインストールしてみた

Last updated at Posted at 2022-04-29

対象者

  • Apache Hop (データ統合プラットフォーム) をWindowsで試してみたい方。
  • データ収集、変換処理を試してみたい方。

Apache Hopとは

  • Apache Hop は オープンソースのデータ統合プラットフォームです。 ETL (Extract/Transform/Load) の開発ツール・実行エンジンです。

  • 部品連ねていくことで、データの変換処理をローコードで実現することができます。
    image.png
    例 : データを生成してjsonにしてからKaffkaのProducerとしてメッセージ送信してる流れ

  • 部品の種類も豊富でデータベースのMongDB, postgresql, MySQL、neo4jや Kafkaなどと連携する機能があります。応用した使い方としては、実装した変換処理をWebサービスとして公開する機能があります。

もしも、さらに詳細を知りたくなりましたら、日本Apache Hopユーザーグループの案浦さんの紹介動画を参照ください。

前提環境

  • OS: Windows 10
    ここでは著者の都合でWindowsを前提としている。基本的にJavaが動作するOSであれば、Linux, MacOSでも動くはず。

手順の概要

現時点(2022/04/29時点)で最新であるApache Hop 1.2.0を例としてインストール手順を説明します。

  • Javaのインストール
  • Apache Hop のダウンロード
  • hop-guiを起動する
  • サンプルの変換処理を試す

Javaのインストール

前提条件のページを確認して、必要なバージョンのJavaをインストールします。
https://hop.apache.org/manual/latest/installation-configuration.html#

自分の環境、使いたいバージョンのOpenJDKをダウンロードしてインストールします。
この手順の例としては、Adopt OpenJDK 11のmsiを使用してインストールします。
Apache Hopでサポートしているバージョンにしてください。

https://adoptopenjdk.net/
image.png

Apache Hop のダウンロード

Webページからインストールしたいレビジョンのファイルをダウンロードします。
今回の手順では、apache-hop-client-1.2.0.zipをダウンロードして、任意のフォルダで解凍します。
もしも、最新版のファイルが公開されていれば、そちらを参照ください。
https://hop.apache.org/download/

hop-guiを起動する

hopフォルダ以下にある、hop-gui.batを実行します。
image.png

コマンドプロンプトの画面がでてきて、変換処理を定義するhop-guiが起動します。
image.png

サンプルの変換処理を試す

メニューバーのProjectでsamplesを指定します。
image.png

メニューのFileからOpenをクリックします。
image.png

samples/transformsフォルダ以下に変換処理の定義ファイルがあります。この中からmerge-join-basic.hplを選択します。以下の画面が展開します。このフォルダに変換処理のサンプルがあるので、ファイル名から興味のありそうな変換があれば、開いてみるといいと思います。
image.png
Test Data1とTest Data2のテーブルを結合する例です。

Test Data1のテーブル
image.png

Test Data2のテーブル
image.png

変換処理を実行するために、メニューの再生ボタンを押下します。
image.png

Run Optionsの画面で、Pipeline run configurationでlocalを指定します。ローカルで実行の意味になります。Prametersタブで実行時に指定するパラメータを定義できます。ここでは省略してLanuchボタンを押下します。
image.png

実行した全体の状況、ログなどが下側の画面に出力されます。
image.png

実行されると部品の右上にチェックがつきます。
image.png

Output Innerの右下のテーブルのアイコンをクリックすると変換の結果がみられます。
image.png

image.png
注意事項: データが1行ずつながれてくるので、順番は最後にながれた行から出力されています。

まとめ

このような手順でWindowsでApache Hopを導入して動かしてみました。
公式のページのGetting Startedなどを参照してさらに使いこなしてみてください。部品をならべるところはPentaho(Kettle)から派生している部分もあるので、そちらでのやり方を検索してみるのもいいのではないかと思います。

参考、関連する記事

Apache Hopの公式ページ
https://hop.apache.org/

日本Apache Hopユーザーグループの案浦さんの紹介ブログ(日本語)
https://annoura.com/dive-into-apachehop/

ASF Incubatorを卒業したApache Hopで遊んでみる :
特徴が分かりやすくまとまっている。
また、ストリーム処理(Google Cloud Dataflow )も試されてる。上級者のかた。
https://zenn.dev/kotarot/articles/play-with-apache-hop

部品を連ねて処理を実装するのに参考になりそう

DockerでHopを動かす方法

今後のアクション(仮)

時間があれば以下の項目の記事も投稿していこうと思います。

  • hop guiの使い方
  • 定義の構成(Project, WorkflowやPiplelineなど)
  • Webサービスを実装する
  • 他のDBとの連携 (MongDB, postgresql, MySQL、neo4jなど)
3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3