##全体の目的
Talendの超簡単なサンプルジョブを作成して,ETLジョブ開発に必要なスキルを習得することが目的です。
##対象者
ETL / EAI技術者
##環境
使用環境 | バージョン |
---|---|
OS | Windows10 |
Talend | 7.2.1 |
##サンプル一覧
以下の順番で習得していきます
# | 内容 |
---|---|
1 | はじめてのTalend |
2 | ファイルI/O |
3 | データベースI/O |
4 | tMap |
5 | イテレータ |
6 | メタデータ |
7 | Context変数 |
8 | Global Map |
9 | tHashInput/tHashOutput |
10 | エラーハンドリング |
11 | ロギング |
12 | 子ジョブ(ジョブのネスト) |
13 | 設定ファイル読み込み(今回) |
14 | tJava |
##今回の目的
今回はよく使う変数を記録したファイルを保持しておき、TalendJobから容易に参照することを目的とします。
##設定ファイルの作成
テキストエディタで今回読み込むconfig用のファイルを作成しましょう。
検証用/商用を区別した設定ファイルをTalend内の設定を変えることで別に読み込めるようにしたいので、
使用用途 | フォルダ名 | ファイル名 |
---|---|---|
検証用 | config_develop | develop.properties |
商用 | config_prioduct | product.properties |
と仮定してファイルを二つ用意します。
拡張子に特にこだわりはありませんが、設定ファイルであることを識別するためにpropertiesとしています。
コメントを書きたいので、変数定義の箇所とそれ以外を識別できるようにしておくといいですね。
今回は「#」をコメント行の識別に使用します。
1行目、3行目がコメント、4行目が読み込む変数となります。
あとでTalend側でも設定を合わせますが、
改行コードは「\n」(LF)、エンコードはUTF-8にします。
##設定ファイルの配置
続いて、作成したファイルを配置します。
検証用、商用でファイルを分けているので、別のフォルダに配置します。
置きました。
お次はジョブの作成に入っていきます。
##新規ジョブの作成
ジョブを新規作成してください。
リポジトリの「ジョブ」を右クリックし、「ジョブの作成」をクリック
##contextに変数を書き込む
ジョブ側に各種変数をあらかじめ保持しておく「Contexts」タブなるものがあります。
デフォルトでは「Contexts」タブにはなにも入っていません。
Talendでは、「Contexts」タブにジョブ全体で保持することのできる変数を定義できます。
ここに設定した変数はcontext.**[Contextsタブに設定したキー]**で取得することができます。
Contextsタブでは、左下の「+」ボタンで行の追加、右上の「+」ボタンで列の追加が可能です。
行が変数、列が値に当たります。
画像左下の「+」ボタンを押下し変数を追加します。
今回は変数名は「config_filepath」とします。
続いて画像右上の「+」ボタンを押下し、値を追加します。
「Value」欄に入るのが文字通り変数の値になります。
値を追加することで使用する環境に応じて使い分けが可能です。今回は列名を「Products」とします。
Typeはここに入れるデータ型をプルダウンで選択する箇所になりますが、今回はString型なのでそのままです。
今のところこんな感じです。
続いて、変数に入れる値を記載します。
列名 | 値 |
---|---|
Default | "C:/Talend/TOS_DI-20190620_1446-V7.2.1/workspace/PRJ_QIITA/config_develop/develop.properies" |
Products | "C:/Talend/TOS_DI-20190620_1446-V7.2.1/workspace/PRJ_QIITA/config_prioduct/product.properties" |
をそれぞれ記載します。
ここは相対パスでも絶対パスでも大丈夫です。
注意点としては、通常Windowsでのパスは""を区切り文字として使用しますが、Talendでは"/"を使用しています。
入れました。
また、設定ファイルに記載した変数「OUTPUT_WORD」用の箱を用意します。Valueは空欄でいいです。
ここの空欄に入る値を設定ファイルから取得し、ジョブの中で取得する、というのが今回の趣旨に当たります。
ここのValueに設定ファイルで記載したHELLO,WORLD@検証用
をジョブ内で代入させます。
Talendはアプリの生成時に使用するContextsのカラムを指定できるので、検証用/商用で設定ファイルを使い分けることができます。
今回使用するコンポーネントをは下記の通りです。
コンポーネント名 | 役割 |
---|---|
tFileInputFullRow | ファイルを全行読み込む |
tFileteraRow | コメント行を削除する |
tMap | 変数のキーと値を分ける |
tContextLoad | キーと値をコンテキストに設定する |
tLogRow | 結果の確認(確認後削除します) |
##tFileInputFullRowの配置
デザイナー部分で「tFileInputFullRow」と打つ
いろいろサジェスチョンが出てきますが、今回は「tFileInputFullRow」を選択します。
デフォルトで入っているファイル名は消してしまって問題ありません。
「tFileInputFullRow」コンポーネントを選択し、画面下のコンポーネントタブの「表示」から「configの読み込み」という名称を付加しました。
そのままでは使用できないので、コンポーネントタブにて下記修正を加えます。
・「基本設定」の「ファイル名」に「context.config_filepath」と入力する
--これにより先ほど「Contexts」タブに設定した「config_fileath」の値を参照することができます。
・「基本設定」の「空の行をスキップ」にチェックを入れる
--これによりファイルを読み込んだ際に空行以外を入力として使用します。
・「詳細設定」のエンコードを先ほど作成した設定ファイルと揃える
--今回はUTF-8で作成したので、UTF-8を使用しています。
・「表示」から「configの読み込み」と入力し、コンポーネントの表示名を変える
--可読性の向上のためです。
(Talendは、それぞれのコンポーネント内部で何を行っているかがわかりづらいため、こまめに表示名を変えましょう。)
####tFileInputFullRowを経る前の設定ファイルのイメージ
#【検証用】Talendで読み込む設定ファイルです。
#設定を読み込めたかの確認用
OUTPUT_WORD=HELLO,WORLD@検証用
#####tFileInputFullRowを経た設定ファイルのイメージ
#【検証用】Talendで読み込む設定ファイルです。
#設定を読み込めたかの確認用
OUTPUT_WORD=HELLO,WORLD@検証用
このように、空行がスキップされています。
お次は、設定ファイル内のコメント行(文頭に#で記載した行)の削除を行います。
##tFilterRowの配置
Designer上で「tFileteraRow」と入力し、コンポーネントを配置する。
このコンポーネントは、コンポーネント間を接続する際にフィルターかリジェクトを選択できるのが特徴。
画面下部の「コンポーネント」タブにて下記編集を行う。
・「基本設定」から「上級モードの使用」にチェックを入れる
・表示された「詳細」欄に以下を入力
``` --文頭に#のある行以外を抽出している
・「表示」タブにて、「コメント行削除」を入力
![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/376167/6e3797ea-6305-c647-cf3a-55b68141f7a6.png)
#####tFileteraRowを経た設定ファイルのイメージ
```develop.properies
OUTPUT_WORD=HELLO,WORLD@検証用
コメント行以外が抽出されました。
##「tMap」の配置
Designer上で「tMap」と入力し、tMapコンポーネントを作成します。
のみが入ってきているはずなので、
これを左辺と右辺とでkeyとvalueに分けてしまいます。
「tMap」はデータマッピングを行うコンポーネントです。
コンポーネントをダブルクリックすると下図のようなマッパー画面が表示されます。
ここではjavaの式を使用して文字列の操作やフィルタリングが可能です。
画面左の「line」は「row2」に入っている行です。
これをkey,valueの形にします。
具体的には下記の編集を加えます。
・「コメント行削除」を右クリックし、「ロウ」>「フィルター」を選択し、tMapに接続
・右ペインの画面上部「+」ボタンをクリックし、「out1」を作成。
--「out1」はtMapのアウトプットになる
・tMapをダブルクリックし、マッパー画面を表示。
・左ペインの「row2」の「line」を、右ペインの「out1」の下にドラッグアンドドロップ
--これを2回行う。
・右ペインに式を入力し、「line」の左辺と右辺をに分割する
--**substring(indexOf())**を駆使し、lineの中で一行で記述されている変数=値を"="の左辺と右辺に分割する。
・画面下部の「スキーマエディター」タブより、「out1」の「line」「line_1」をそれぞれ「key」「value」に変更する
tMap途中イメージ
##tContextLoadコンポーネントを配置
「tContextLoad」を配置します。
・「表示」から、表示名を「コンテキスト設定」に変更します。
このコンポーネントは、「key」「value」の形で渡された情報をcontextとして保持するコンポーネントです。
ここまで来た時点で設定ファイルから渡された情報は、ハッシュの形をとっているため、特にこのコンポーネントで行うことはありません。
##試しに動かしてみよう
実行してみます。
ただし、このジョブはコンテキストを読み込み、内部に保持するだけのジョブなので、
実行結果が外からわかるようにログの設定をしてあげる必要があります。
こういったときに役に立つのが、「tLogRow」コンポーネントです。
「tLogRow」を配置し、テーブルの形で出力してみましょう。
Designer部分には行ごとの実測処理時間や処理行数が表示されます。
実行タブにはログが表示されます。
ログを見ると、
keyにOUTPUT_WORD
valueにHELLO,WORLD@検証用
が表示されていますので、成功です。
実行結果を確認したら、「tLogRow」コンポーネントを削除することを忘れないようにしましょう。
消し忘れると半永久的にいらないログが出力されるようになります。
##念のため、商用に作成したものも読み込んでみます。
「contexts」タブの「デフォルトのコンテキスト環境」のプルダウンを「Products」に変更し、実行します。
実際に開発を行っているプロジェクトではこのやり方は推奨しません。行う場合は自己責任でお願いします。
出力される値が変わっていることが確認できました。
このように、読み込むテキストを変更することで、環境に応じてContextsを変更することが可能です。
##まとめ
テキスト上に記載した変数と値のセットを読み込み、
フィルタリングやjavaの式を通じてkey,valueの形に成形することで、tContextLoadで取り込みを行い、
Contextsタブ上に定義した変数として抽出することが可能です。
また、Contextsに値のセットを複数持つことで、環境に応じて使い分けが可能となります。
##次回以降
次回はtJavaをやっていきます。
##もっと簡単に実現している記事
【Talend】2つのコンポーネントだけで簡単に設定ファイルを読み込む