Talend Open StudioをWindowsにインストールしてジョブ作成と実行までをやりました。その手順です。
Javaインストール
Javaをインストールします。以下のページの Java SE 8のJDKをダウンロードしてインストールします。
Java SE Development Kit 8 - Downloads
Javaのバージョンを間違えたとき
※2020/04/28現在
最初私は最新のJava 14を入れてしまったのですが、ジョブを作り実行しようとしたときに例えば以下のようなコンパイルエラーが発生して、動かせませんでした。(いろんなコンパイルエラーがいっぱい出る)
Incompatible conditional operand types Exception and TDieException
The method updateStatOnConnection(Map, String, int, int, String...) from the type RunStat refers to the missing type Map
The method convertToJsonText(Object, List) from the type ResumeUtil refers to the missing type List
サポートされている正しいJavaのバージョンを追加でインストールすればよいのですが、環境変数を直してもあとから入れたJavaを認識してくれないのかコンパイルエラーが直りませんでした。
こんなときはTalendのメニューから
Windows -> Preferences -> Java > Installed JREs
をたどって、Java 1.8を追加します。そしてTalend自体を再起動すると直りました。
Javaインストール後の環境変数設定
Javaを使えるように環境変数のPATHを設定します。
- Windows Settingsで「environment」で検索して、「Edit the system environment variables」を選択
- System Propertiesの画面の下のほうにある「Environment Variables...」をクリック
- Environment Variablesの画面の下半分System variablesの中のPathを選択して、「Edit...」をクリック
- Edit environment variableの画面でNewボタンから
C:\Program Files\Java\jdk1.8.0_251\bin
という値を追加 - OKをいっぱい押して閉じる
※ JAVA_HOME
の設定はしませんでしたがTalendは動きました。
Talendインストール
以下からTalend Open Studio for Data Integrationをインストールします。
オープンソースETL:Talend Open Studio for Data Integration
2020/04/28現在、最新バージョンは 7.3.1.20200219_1130 でした。
Talend起動
起動すると最初にどのプロジェクトを開くかを聞かれるので、新規作成します。
ジョブ作成
左のRepositoryのところで、Job Designsを右クリックするとその中にフォルダやジョブを作れます。
ジョブをダブルクリックするとメインの領域がジョブを作るキャンバスのようなものになります。
右のPaletteで File > Input とたどると tFileInputDelimited というコンポーネントがあるので、これをキャンバスの領域にドラッグするとコンポーネントをジョブに配置できます。
同じようにPaletteの Database > DB Common にある tDBOutput というコンポーネントも配置します。
配置した tDBOutput のアイコンの部分をクリックして、下にあるタブインターフェースの Component を選択するとこのコンポーネントに関する設定ができます。アイコンではなく薄い青色の四角のエリアをクリックしてもコンポーネントの設定画面が出てこないことに注意。
DatabaseはPostgreSQLを選択してApplyをクリックすると、接続先PostgreSQLの情報を入力する画面になります。必要事項を入力しておきます。なにかをインストールせよって出てきたらインストールします。
戻って最初にキャンバスに置いた tFileInputDelimited というコンポーネントも設定を見ておきます。CSVファイルの場所などの設定項目がありますので、設定しておきます。適当なサンプルとなるCSVファイルも用意しておきます。
「Edit schema」のボタンを押して、カラムの構成を設定します。
tFileInputDelimited のアイコンを右クリックして、 Row > Main を選択すると、マウスカーソルで接続先を選択できるようになります。
接続先としてマウスで tDBOutput を選択すると、コンポーネントがつながります。
ジョブ実行
下のタブインターフェースの Run を選択すると実行できる画面になります。Runのボタンを押すと実行できます。
PostgreSQLの中のデータを見てみたところ、用意しておいたCSVファイルの中身がINSERTされていることが確認できました。
以上。