この記事は インフォマティカ Advent Calendar 2022 Day 13 の記事として書かれています。
はじめに
コントロールブレイクとは、『キー項目の値が切り替わるタイミグで何らかの処理を行う』という他のプログラム言語などでも利用されるアルゴリズムのことです。
ソートされたキー項目値の前レコードと現レコードが違う値になったタイミング(ここを「ブレイク」という)で処理を行うため、「キーブレイク」や「コントロールブレイク」と呼ばれたり、または、改ページやファイル出力で使われるロジックのため、「データペイジング」と呼ばれたりするようです。
直近レコードの特定や最大値などの取り出し、キー項目のグループ毎の集計などに用いられており、具体例としては、以下が挙げられると思います。
- キー項目毎(社員、顧客…などの単位)に帳票出力
- キー項目のグループ毎(店舗、クレジットカード…などの単位)の集計(売上、在庫数、受注数、決済金額…など)
- 最新の契約情報を取り出す
・・・など
本記事では、Informatica Intelligent Cloud Services の データ統合/Cloud Data Integration を使ったTipsとして、そんなコントロールブレイク処理について、CDIでの実装イメージがつかめるように説明します。
作成する連携処理について
今回は「column2」のレコード値が切り替わるタイミグでコントロールブレイク処理を行います。
そのために、まず、ソータートランスフォーメーションにて、「column2」を昇順ソートします。
次に、式トランスフォーメーションにて、「column2」をキー項目にコントロールブレイク処理を用いて、フラグを立てます。
そして、トランザクション制御トランスフォーメーションにて、そのフラグを判定に用いて、キー項目毎にファイル出力するという処理を作成します。
上記のデータの流れを図にすると、以下のようになります。
それでは、作成していきましょう。
1. 接続の作成
はじめに接続を作成します。
今回はソースもターゲットもフラットファイルのため、フラットファイルコネクタで作成します。
2. マッピングの作成
2-1. ソーストランスフォーメーション
ソース用のフラットファイルコネクタを[接続]に設定し、[オブジェクト]にてソースファイルを選択します。
2-2. ソータートランスフォーメーション
2-3. 式トランスフォーメーション
「column2」をキー項目として、値が切り替わるタイミグでフラグを立てるために、以下の設定を行います。
この設定により、どのように処理されているのか説明します。
まず、式トランスフォーメーションが実行されると、データが1レコードずつ読み込まれ、フィールドの上から順番に処理が実行されていきます。また、変数フィールドは、次の処理が実行されるまで、格納された値を保持し続けています。
このように処理が実行されるのを利用しています。
そして、それを利用して、コントロールブレイク処理を行うために、3種類のフィールドを作成します。
①格納用:1つ前のレコードの値と保持するための変数フィールド
②判定用:1つ前のレコードの値と現レコードの値を比較して、何らかの処理を行うための変数フィールド
③出力用:判定した結果を出力するための出力フィールド
そして、3種類のフィールドは、下図の順番で設定します。
この順番で設定することで、[v_Flag]フィールドの式の判定には、1つ前のレコードの値と現レコードの値の比較を実現しています。
参考:1行目から6行目までを読み込んだ時のデータの流れ
データの流れを図にすると、以下のようになります。
2-4.トランザクション制御トランスフォーメーション
式トランスフォーメーションで設定した「Flag_Control」のフラグを判定に用いて、キー項目毎にファイル出力するという処理を作成します。
「v_Flag」項目の値が出力されており、"1"のフラグが立っているレコードが読み込まれた時、直前までのレコードをファイル出力し、現在のレコードから新しいファイルに書き出されていきます。
2-5.ターゲットトランスフォーメーション
まず、[ターゲット]プロパティにて、ファイルに出力する項目を選択します。
次に、ターゲット用のフラットファイルコネクタを[接続]に設定し、[オブジェクト]の選択を開きます。
そして、以下の式トランスフォーメーションで作成したファイル名を使用するために以下の設定を行います。
①「実行時に新規作成」にチェック後、「動的ファイル名を使用」にチェックします。
②「動的ファイル名フィールドを除外」にチェックし、式にファイル名を作成した「FileName」項目を設定します。
ここまで作成出来たら、マッピングを保存します。
3. 実行結果
それでは、実行してみましょう。
下記フォルダにソースファイルを格納して、実行します。
実行完了後、出力先のフォルダを確認すると、「column2」のキー項目値毎にファイルが作成されています。
また、ファイルに出力されているデータを確認すると、同一キー項目のレコードが出力されています。
4.最後に
コントロールブレイク処理を実装して実行してみましたが、いかがでしたでしょうか?
アグリゲータトランスフォーメーションやルータートランスフォーメーションを使う方が簡単な場合もありますが、複雑な仕様がある際には、こちらで対応できるということがあります。
また、ロジックは知っていても、CDIでどう実装すれば良いか分からないという場合もあったりするかと思います。
こちらの記事がお読みいただいた皆様の連携処理を検討する上での一助となれば幸いです。
参考サイト
-
IICS CDI(Cloud Data Integration)のマニュアル
https://docs.informatica.com/integration-cloud/cloud-data-integration/current-version.html -
KB:FAQ: What is the use of Exclude Dynamic File Name Field option in the flat file connector in CDI?
https://knowledge.informatica.com/s/article/000186188?language=en_US -
■Windows版Perlの細道・けもの道
http://a011w.broada.jp/wbaefznh35st/perl/perl022.html