#はじめに
TalendOpenStudioを可能な限り速く習得するためのまとめです。
基本的には、私がこっそり書いているTalendブログ記事の、重要な所だけをサマリしている感じです。
#つか、Talendって...なに?
ETL開発ツールです。
バッチとかの裏方で走らすジョブをGUIで簡単につくれるよ!というのが売りです。
割と真面目に簡単に、すぐにバッチが作れます。
TalendOpenStudioであれば、無償で使用することができます。
もう少し詳しく知りたい方はこちら【Talend Open Studio】バッチ開発を高速にっ!Talendについて
#爆速で入門するよ!
それでは、入門しましょう。
対象とするTalendOpenStudioのバージョンは、5.6です。
##環境構築
環境構築は、JDKとTalend本体を下記リンクからダウンロード&インストールすればokです。
ただし、Talend5.x系なら、JDKは7をインストールしてください。
TalendOpenStudioのダウンロード(Talendサイト)
両者をダウンロード&インストールして、起動した時に、エラーが表示される場合は、下記ページを参考にしてください。
【Talend Open Studio 入門01】開発環境の構築。Talendをインストールしよう
無事Talendが起動したら、入門で作るジョブを収めるためのプロジェクトを新規作成します。
上記画像の、作成ボタン⇒プロジェクト名,プロジェクトの説明などを入れて簡単に作成できます。
##サンプルジョブを作る1 CSVデータ変換
環境構築がすんだら、早速ジョブを作っていきます。
(ここではサマリで書いていきます。詳しくはこちら)
始めは、簡単そうなCSVデータ変換ジョブを作ってみることにします。
まずはジョブの作り方から
Talendを起動するとこんな感じの画面が表示されます。
ジョブは、一番左の「リポジトリ」の「ジョブ」を右クリックすると作れます。
一旦、右クリックでフォルダを作ってから、そこにジョブを作る方が後々見やすくてよいかと。
ジョブを作ったなら、下記のような真っ白な画面が表示されていると思います。
この真っ白な所に、部品を配置⇒接続 していくことで、ジョブが完成します。
###部品配置
CSV変換ジョブを作りたいので、CSV読み込み部品を配置します。
一番右側にある「パレット」の検索ウインドウに、"tFileInputDelimited"と入力してEnterを押下します。
お目当ての部品が見つかったら、ドラッグアンドドロップで画面に落とします。
これがファイル入力部品です。
同様の手順で、今度は"tMap"と入力してその部品を画面に落とします。
これが項目編集部品です。
さらに、"tLogRow"と入力して部品を配置します。
これがログ出力部品です。
###部品接続
次に、配置した3部品を接続していきます。
部品を右クリック⇒Row⇒メイン を選択して、tFileInputDelimitedとtMapを接続します。
###tFileInputDelimited部品設定
次に、tFileInputDelimitedで扱うデータのカラム(列)を定義します。
tFileInputDelimitedを選択⇒下側の「コンポーネント」タブを選択⇒「スキーマの編集」のボタン押下と進みます。
この様に定義します。
後は、読み込むCSVのパス設定、区切り設定も行っておきます。
これでcsv読み込み部品の設定はokです。
###tMap設定
項目編集のためのtMap部品を編集します。tMapのアイコンをダブルクリックでエディタが開きます。
一番右上の「+」ボタンを押して、出力テーブルを作ります。とりあえず名称は"out1"のままでokです。
出力側のカラム定義が終わったら、それぞれの項目にどの値をセットするかのマッピング定義を行います。
「式」に直接値を書いてもokですし、入力側の項目をドラッグ&ドロップでも設定できます。
ここまで設定できればtMapの設定は終わりです。
###一旦動作確認
tMapのout1を、tLogRowに繋げて動作を一旦確認します。
ジョブ実行は、下側の「実行」タブ⇒「基本実行」⇒「実行」ボタン押下でokです。
正常終了したらコンソールにログが吐かれます。
###ファイル出力部品配置&設定
正しく値が出力されていたら、今度はファイル出力部品を配置します。
名称は、"tFileOutputDelimited"です。
tLogRowからrowを繋げて、「コンポーネント」タブ⇒「ファイル名」の設定、CSV設定を行っておきます。
###ジョブ完成!実行して確認
以上で、CSV入力⇒編集CSV出力というジョブができました。
慣れると3分でこうしたジョブが作れます。
出力パスで指定したパスにcsvが吐かれているはずです。
お疲れ様でした。
##tMapをもっと詳しく知りたい
tMapは、Talendにおいてかなり重要なコンポーネントです。
下記ページも見ておくと参考になるかもしれません。
tMapでマスタデータを紐づける方法
tMapのフィルタリング機能とVarの使い方
##サンプルジョブを作る2 データベースと連携する
今度は、データベースからデータを取得して編集、別のテーブルにinsertする、というジョブを作ってみます。
使用するDBは、SQLServerです。が、部品のプレフィックス部が変わるだけで、他のDBでもほぼ同じです。
(ここではサマリで書いていきます。詳しくはこちら)
###DB接続部品
まずは、DB接続用のコンポーネントを配置します。
SQLServerの場合ですと、"tMSSQLConnection"とパレットで検索します。(他のDB、例えばMySQLであれば、tMySQLConnectionのように、tXXXConnectionと、XXXの部分が各DB製品ごと異なります)
配置したら、接続先情報を「コンポーネント」タブで設定します。
ここは各環境によって異なりますので、適切なパラメータを渡します。
###テーブルのレコード取得部品
次に、接続したDBのとあるテーブルから値を取得する部品を配置します。
SQLServerなら、"tMSSQLInput"です。
この部品も、「コンポーネント」タブで設定を行います。
「スキーマの編集」で、テーブルから取得し、rowとして次のコンポーネントに流したいカラムを定義します。
「クエリ」で、取得したいデータを取得するためのSelect文(SQL)を発行します。
「クエリ」に与えるパラメータは、文字列ですので、リテラルで書くならダブルクォートでちゃんと囲ってあげます。
(↑囲い漏れでエラーを出してしまうあるある)
###一旦レコード取得を確認
ここまで設定が間違いないことを、tLogRowで確認してみます。
「実行」タブの実行でジョブを動かします。
問題が無ければ、取得したレコードがログに表示されるはず。
###tMapでトランデータと突合(今回のサンプルの要件なので)
今回参考にしているこちらの要件ですと、マスタデータをDBのテーブルから、トランザクションをcsvから取得となっているので、こちらもその通り進めます。
(スクショの関係で)
というわけで、tMapとtFileInputDelimitedを配置して、取得したテーブルの値と突合します。
###レコード挿入部品
編集したデータをテーブルにinsertします。
テーブルinsert用の部品は、"tMSSQLOutput"です。
「テーブル」にinsert先テーブル名を。
「テーブル操作」では、テーブルが無かったら作る~などの設定を入れられますが、通常は何もしないでokのはず。
「データ操作」は、今回は挿入のみですので挿入を。
###最後にコミットを忘れずに
コミットをしないと、折角オペした内容が反映されないので、忘れずに入れておきます。
"tMSSQLCommit"です。
これでDBからデータ取得⇒編集⇒データ挿入 ができるTalendジョブの完成です。
お疲れ様でした。
#[2016/10/24] Talendの実装に関するTipsをまとめてみました
Talendのこんな時どうすればいいの?をまとめてみました