LoginSignup
51
65

More than 5 years have passed since last update.

Talendに爆速で入門する(環境構築⇒CSV変換ジョブ⇒DB連携まで)

Last updated at Posted at 2016-10-21

はじめに

TalendOpenStudioを可能な限り速く習得するためのまとめです。
基本的には、私がこっそり書いているTalendブログ記事の、重要な所だけをサマリしている感じです。

つか、Talendって...なに?

ETL開発ツールです。
バッチとかの裏方で走らすジョブをGUIで簡単につくれるよ!というのが売りです。
割と真面目に簡単に、すぐにバッチが作れます。
TalendOpenStudioであれば、無償で使用することができます。

もう少し詳しく知りたい方はこちら【Talend Open Studio】バッチ開発を高速にっ!Talendについて

爆速で入門するよ!

それでは、入門しましょう。
対象とするTalendOpenStudioのバージョンは、5.6です。

環境構築

環境構築は、JDKとTalend本体を下記リンクからダウンロード&インストールすればokです。
ただし、Talend5.x系なら、JDKは7をインストールしてください。

JDKのダウンロード(Oracleサイト)

TalendOpenStudioのダウンロード(Talendサイト)

両者をダウンロード&インストールして、起動した時に、エラーが表示される場合は、下記ページを参考にしてください。
【Talend Open Studio 入門01】開発環境の構築。Talendをインストールしよう

無事Talendが起動したら、入門で作るジョブを収めるためのプロジェクトを新規作成します。
alt
上記画像の、作成ボタン⇒プロジェクト名,プロジェクトの説明などを入れて簡単に作成できます。

サンプルジョブを作る1 CSVデータ変換

環境構築がすんだら、早速ジョブを作っていきます。
(ここではサマリで書いていきます。詳しくはこちら)
始めは、簡単そうなCSVデータ変換ジョブを作ってみることにします。

まずはジョブの作り方から
alt
Talendを起動するとこんな感じの画面が表示されます。
ジョブは、一番左の「リポジトリ」の「ジョブ」を右クリックすると作れます。
一旦、右クリックでフォルダを作ってから、そこにジョブを作る方が後々見やすくてよいかと。

ジョブを作ったなら、下記のような真っ白な画面が表示されていると思います。
alt
この真っ白な所に、部品を配置⇒接続 していくことで、ジョブが完成します。

部品配置

CSV変換ジョブを作りたいので、CSV読み込み部品を配置します。
一番右側にある「パレット」の検索ウインドウに、"tFileInputDelimited"と入力してEnterを押下します。
alt
お目当ての部品が見つかったら、ドラッグアンドドロップで画面に落とします。
これがファイル入力部品です。

同様の手順で、今度は"tMap"と入力してその部品を画面に落とします。
これが項目編集部品です。

さらに、"tLogRow"と入力して部品を配置します。
これがログ出力部品です。

部品接続

次に、配置した3部品を接続していきます。
alt
部品を右クリック⇒Row⇒メイン を選択して、tFileInputDelimitedとtMapを接続します。

tFileInputDelimited部品設定

次に、tFileInputDelimitedで扱うデータのカラム(列)を定義します。
tFileInputDelimitedを選択⇒下側の「コンポーネント」タブを選択⇒「スキーマの編集」のボタン押下と進みます。
alt
この様に定義します。
後は、読み込むCSVのパス設定、区切り設定も行っておきます。
これでcsv読み込み部品の設定はokです。

tMap設定

項目編集のためのtMap部品を編集します。tMapのアイコンをダブルクリックでエディタが開きます。
alt
一番右上の「+」ボタンを押して、出力テーブルを作ります。とりあえず名称は"out1"のままでokです。

作った出力側テーブルの項目(カラム)を編集します。
alt

出力側のカラム定義が終わったら、それぞれの項目にどの値をセットするかのマッピング定義を行います。
alt
「式」に直接値を書いてもokですし、入力側の項目をドラッグ&ドロップでも設定できます。

ここまで設定できればtMapの設定は終わりです。

一旦動作確認

tMapのout1を、tLogRowに繋げて動作を一旦確認します。
ジョブ実行は、下側の「実行」タブ⇒「基本実行」⇒「実行」ボタン押下でokです。
alt
正常終了したらコンソールにログが吐かれます。

ファイル出力部品配置&設定

正しく値が出力されていたら、今度はファイル出力部品を配置します。
名称は、"tFileOutputDelimited"です。

alt
tLogRowからrowを繋げて、「コンポーネント」タブ⇒「ファイル名」の設定、CSV設定を行っておきます。

ジョブ完成!実行して確認

以上で、CSV入力⇒編集CSV出力というジョブができました。
慣れると3分でこうしたジョブが作れます。

実行するとこんな感じになります。
alt

出力パスで指定したパスにcsvが吐かれているはずです。
お疲れ様でした。

tMapをもっと詳しく知りたい

tMapは、Talendにおいてかなり重要なコンポーネントです。
下記ページも見ておくと参考になるかもしれません。
tMapでマスタデータを紐づける方法
tMapのフィルタリング機能とVarの使い方

サンプルジョブを作る2 データベースと連携する

今度は、データベースからデータを取得して編集、別のテーブルにinsertする、というジョブを作ってみます。
使用するDBは、SQLServerです。が、部品のプレフィックス部が変わるだけで、他のDBでもほぼ同じです。

(ここではサマリで書いていきます。詳しくはこちら)

DB接続部品

まずは、DB接続用のコンポーネントを配置します。
SQLServerの場合ですと、"tMSSQLConnection"とパレットで検索します。(他のDB、例えばMySQLであれば、tMySQLConnectionのように、tXXXConnectionと、XXXの部分が各DB製品ごと異なります)

alt
配置したら、接続先情報を「コンポーネント」タブで設定します。
ここは各環境によって異なりますので、適切なパラメータを渡します。

テーブルのレコード取得部品

次に、接続したDBのとあるテーブルから値を取得する部品を配置します。
SQLServerなら、"tMSSQLInput"です。

alt
この部品も、「コンポーネント」タブで設定を行います。
「スキーマの編集」で、テーブルから取得し、rowとして次のコンポーネントに流したいカラムを定義します。
alt
「クエリ」で、取得したいデータを取得するためのSelect文(SQL)を発行します。
「クエリ」に与えるパラメータは、文字列ですので、リテラルで書くならダブルクォートでちゃんと囲ってあげます。
(↑囲い漏れでエラーを出してしまうあるある)

一旦レコード取得を確認

ここまで設定が間違いないことを、tLogRowで確認してみます。
「実行」タブの実行でジョブを動かします。
alt
問題が無ければ、取得したレコードがログに表示されるはず。

tMapでトランデータと突合(今回のサンプルの要件なので)

今回参考にしているこちらの要件ですと、マスタデータをDBのテーブルから、トランザクションをcsvから取得となっているので、こちらもその通り進めます。
(スクショの関係で)

というわけで、tMapとtFileInputDelimitedを配置して、取得したテーブルの値と突合します。
alt

tMapでマッピング設定をいれます。
alt

レコード挿入部品

編集したデータをテーブルにinsertします。
テーブルinsert用の部品は、"tMSSQLOutput"です。
alt
「テーブル」にinsert先テーブル名を。
「テーブル操作」では、テーブルが無かったら作る~などの設定を入れられますが、通常は何もしないでokのはず。
「データ操作」は、今回は挿入のみですので挿入を。

最後にコミットを忘れずに

コミットをしないと、折角オペした内容が反映されないので、忘れずに入れておきます。
"tMSSQLCommit"です。

alt
これでDBからデータ取得⇒編集⇒データ挿入 ができるTalendジョブの完成です。
お疲れ様でした。

[2016/10/24] Talendの実装に関するTipsをまとめてみました

Talendのこんな時どうすればいいの?をまとめてみました

51
65
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
51
65