対象者
- Apache Hop (データ統合プラットフォーム) をWindowsで試してみたい方。
- データ収集、変換処理を試してみたい方。
Apache Hopとは
-
Apache Hop は オープンソースのデータ統合プラットフォームです。 ETL (Extract/Transform/Load) の開発ツール・実行エンジンです。
-
部品連ねていくことで、データの変換処理をローコードで実現することができます。
例 : データを生成してjsonにしてからKaffkaのProducerとしてメッセージ送信してる流れ -
部品の種類も豊富でデータベースのMongDB, postgresql, MySQL、neo4jや Kafkaなどと連携する機能があります。応用した使い方としては、実装した変換処理をWebサービスとして公開する機能があります。
もしも、さらに詳細を知りたくなりましたら、日本Apache Hopユーザーグループの案浦さんの紹介動画を参照ください。
前提環境
- OS: Windows 10
ここでは著者の都合でWindowsを前提としている。基本的にJavaが動作するOSであれば、Linux, MacOSでも動くはず。
手順の概要
現時点(2022/04/29時点)で最新であるApache Hop 1.2.0を例としてインストール手順を説明します。
- Javaのインストール
- Apache Hop のダウンロード
- hop-guiを起動する
- サンプルの変換処理を試す
Javaのインストール
前提条件のページを確認して、必要なバージョンのJavaをインストールします。
https://hop.apache.org/manual/latest/installation-configuration.html#
自分の環境、使いたいバージョンのOpenJDKをダウンロードしてインストールします。
この手順の例としては、Adopt OpenJDK 11のmsiを使用してインストールします。
Apache Hopでサポートしているバージョンにしてください。
Apache Hop のダウンロード
Webページからインストールしたいレビジョンのファイルをダウンロードします。
今回の手順では、apache-hop-client-1.2.0.zipをダウンロードして、任意のフォルダで解凍します。
もしも、最新版のファイルが公開されていれば、そちらを参照ください。
https://hop.apache.org/download/
hop-guiを起動する
hopフォルダ以下にある、hop-gui.batを実行します。
コマンドプロンプトの画面がでてきて、変換処理を定義するhop-guiが起動します。
サンプルの変換処理を試す
samples/transformsフォルダ以下に変換処理の定義ファイルがあります。この中からmerge-join-basic.hplを選択します。以下の画面が展開します。このフォルダに変換処理のサンプルがあるので、ファイル名から興味のありそうな変換があれば、開いてみるといいと思います。
Test Data1とTest Data2のテーブルを結合する例です。
変換処理を実行するために、メニューの再生ボタンを押下します。
Run Optionsの画面で、Pipeline run configurationでlocalを指定します。ローカルで実行の意味になります。Prametersタブで実行時に指定するパラメータを定義できます。ここでは省略してLanuchボタンを押下します。
Output Innerの右下のテーブルのアイコンをクリックすると変換の結果がみられます。
注意事項: データが1行ずつながれてくるので、順番は最後にながれた行から出力されています。
まとめ
このような手順でWindowsでApache Hopを導入して動かしてみました。
公式のページのGetting Startedなどを参照してさらに使いこなしてみてください。部品をならべるところはPentaho(Kettle)から派生している部分もあるので、そちらでのやり方を検索してみるのもいいのではないかと思います。
参考、関連する記事
Apache Hopの公式ページ
https://hop.apache.org/
日本Apache Hopユーザーグループの案浦さんの紹介ブログ(日本語)
https://annoura.com/dive-into-apachehop/
ASF Incubatorを卒業したApache Hopで遊んでみる :
特徴が分かりやすくまとまっている。
また、ストリーム処理(Google Cloud Dataflow )も試されてる。上級者のかた。
https://zenn.dev/kotarot/articles/play-with-apache-hop
部品を連ねて処理を実装するのに参考になりそう
DockerでHopを動かす方法
今後のアクション(仮)
時間があれば以下の項目の記事も投稿していこうと思います。
- hop guiの使い方
- 定義の構成(Project, WorkflowやPiplelineなど)
- Webサービスを実装する
- 他のDBとの連携 (MongDB, postgresql, MySQL、neo4jなど)