はじめに
2023年12月に実装された新コンポーネント「RecordGroup」の登場で今まで少し複雑になっていたキーブレイクが簡単にできる様になりました。使いどころがわかりにくい感じのコンポーネントですが利用する事でロジックが簡略化できるコンポーネントですので簡単なサンプルで使ってみました。
RecordGroupとは

RecordGroupは、ASTERIA Warp 2312に実装された新コンポーネントです。入力されたストリーム(Record,CSV,FixedLength)を指定したカラムで複数のストリームに分け、それ毎にループを行います。ポイントは
- グループキーとなるフィールドを1つ選択する
- 選択されたグループキーの順でストリーム化される
・ 分割されたグループ内のソート順は分割前の状態で保持される1
グループ分割する際のキーが1つのみ選択可という事で複数のキーがある場合はグループ化キーの結合が必要です。また出力時に並び順を考慮する必要がある場合は事前グループに分割されたストリームに対しソートが必要になります。このルールをベースに構築を行います。
2つのグループキーを利用する、といった場合、グループキーでまとまった小計が必要であれば、並び順を意識してグループキーを作成して1つのグループキーでループします。グループキーが複数必要な場合、例えば大分類、小分類などの複数のグルーピングが必要な場合では1つ目のグループキーでRecordGroupを開始後、そのループの最初んに小分類でソート、その後RecordGroupでループを行います。その場合でもソート順は保持されないため、明細出力が必要な場合は最初にソートを行います。
RecordGroupはあるキーを元にグループ化可能なため、明細データに対するヘッダー、フッターなどの挿入する処理や集計処理に向いています。
小計の挿入1
CSVデータの明細行の間に単一グループの小計行を挿入します。
入力データは以下のデータです。
日付,動物の種類,動物名,金額
2023/01/01,哺乳類,ライオン,100000
2023/01/01,哺乳類,トラ,80000
2023/01/01,哺乳類,キリン,50000
2023/01/01,鳥類,ペンギン,15000
2023/01/02,哺乳類,ライオン,100000
2023/01/02,哺乳類,トラ,80000
2023/01/02,鳥類,フラミンゴ,20000
2023/01/02,鳥類,ペンギン,15000
2023/01/03,哺乳類,トラ,80000
2023/01/03,哺乳類,キリン,50000
2023/01/03,鳥類,フラミンゴ,20000
2023/01/03,鳥類,ペンギン,15000
2023/01/04,哺乳類,ライオン,100000
2023/01/04,哺乳類,トラ,80000
2023/01/04,鳥類,ペンギン,15000
このファイルに「各日付の種類別小計を出力する」というケースを例とします。
通常このような処理であれば1レコード毎のループを使ったキーブレイク判定を行い処理を分岐したり、RecordSQLを使用する事が多いと思いますが、今回はRecordGroupのみで構築します。
事前にストリームがキー毎に分割されるRecordGroupを使用する事でキーブレイク判定が不要になります。
グループキー=小計の単位としているため、1ストリームのすべての金額の集計を行う事で小計が生成できます。
処理フロー説明

【処理概要】
- ファイルの読み込みと初期処理(グループキー設定、ソート)
- RecordGroupのループ
- 明細部、合計部を別々に処理するループ
ファイルの読み込みと初期処理
FileGetのファイルのストリームフィールドはすべてString型を指定しています。
キーとなるのは日付ですがこの例ではDateTime型とせずにそのままString型で処理します。

グループキーとなるのは日付と動物の種類ですのでRecordGroupの前にグループキーとして結合します。ソート順はそのままでも問題ありませんが、動物順でソートします。
グループキーをフィールド指定し、グループキーの毎のストリームループを開始します(ループ1)
RecordGroupのループ
このループでは、グループキー毎に分解されたストリームとなっていますので、それを「明細部」「小計部」として2回利用するためLoopStartにより2回のループ(ループ2)を行います。
ループ1のLoopEndのストリームの出力形態は"ストリームをまとめる"、ループ1のLoopEndのストリームの出力形態は"コンテナ"としておきます。(ストリームをまとめるでも問題ありません)
明細部、合計部を別々に処理するループ
ループの実行回数を2でMODして余りの値が1か0かを判定し、BranchStartの条件に直接指定を行います。
明細部、合計部はともにMapperで新しいストリームを生成しグループキーは除きます。明細部のストリームの「先頭行のフィールド名を出力」には"はい"を指定しておきます。
明細部Mapperはカラムの移送のみを行います。
合計部Mapperではマッパー変数「小計」を登録し初期値を0とします。通常レイヤー「加算」とストリームの最終レコードのみ処理を行う条件レイヤー「移送」を使用し合計金額のサマリーを行います。
通常レイヤー「加算」では、マッパー変数の加算のみを行います。

条件レイヤー「移送」では、条件式に$Stream.RecordNo = $stream.RecordCount」(最初の$は半角)を指定し、「小計」を出力ストリームの「金額」に、グループキーを見出して「動物の種類」に移送します。こうする事で、このMapperでは最終行にそのストリームの金額の合計が1レコードのみ格納されるストリームとなります。

この2つのストリームはBranchEndで合流し、明細、合計をグループキーの数だけ繰り返すコンテナとして保存され、それが最後にループ1のLoopEndで1つのストリームにまとめられて出力されます。
出力結果
日付,動物の種類,動物名,金額
2023/01/01,哺乳類,キリン,50000
2023/01/01,哺乳類,トラ,80000
2023/01/01,哺乳類,ライオン,100000
,【2023/01/01:哺乳類 小計】,,230000
2023/01/01,鳥類,ペンギン,15000
,【2023/01/01:鳥類 小計】,,15000
2023/01/02,哺乳類,トラ,80000
2023/01/02,哺乳類,ライオン,100000
,【2023/01/02:哺乳類 小計】,,180000
2023/01/02,鳥類,フラミンゴ,20000
2023/01/02,鳥類,ペンギン,15000
,【2023/01/02:鳥類 小計】,,35000
2023/01/03,哺乳類,キリン,50000
2023/01/03,哺乳類,トラ,80000
,【2023/01/03:哺乳類 小計】,,130000
2023/01/03,鳥類,フラミンゴ,20000
2023/01/03,鳥類,ペンギン,15000
,【2023/01/03:鳥類 小計】,,35000
2023/01/04,哺乳類,トラ,80000
2023/01/04,哺乳類,ライオン,100000
,【2023/01/04:哺乳類 小計】,,180000
2023/01/04,鳥類,ペンギン,15000
,【2023/01/04:鳥類 小計】,,15000
小計の挿入2
今度は単一グループではなく、2つのグルーピングでそれぞれの小計を出力するケースを考えます。上記のCSVであれば、日付、動物の種類をそれぞれグルーピングするものです。
基本的な構成は小計の挿入1と同じですが、明細部と小計部を2回のRecordGroupのループによりグループ化します。
処理フロー説明

【処理概要】
- ファイルの読み込み
- RecordGroup日付のループ
- 日付部の明細部、小計部を別々に処理するループ
- 日付の明細部を再度 RecordGroup動物の種類でループ
- 動物名でソートし、動物の種類の明細部、小計部を別々に処理するループ
- 明細部のストリーム出力
- 動物の種類の小計出力
- 日付の小計出力
出力結果は以下の様になります。
出力結果
"日付","動物の種類","動物名","金額"
"2023/01/01","哺乳類","キリン","50000"
"2023/01/01","哺乳類","トラ","80000"
"2023/01/01","哺乳類","ライオン","100000"
"","【哺乳類 計】","","230000"
"2023/01/01","鳥類","ペンギン","15000"
"","【鳥類 計】","","15000"
"","【2023/01/01 計】","","245000"
"2023/01/02","哺乳類","トラ","80000"
"2023/01/02","哺乳類","ライオン","100000"
"","【哺乳類 計】","","180000"
"2023/01/02","鳥類","フラミンゴ","20000"
"2023/01/02","鳥類","ペンギン","15000"
"","【鳥類 計】","","35000"
"","【2023/01/02 計】","","215000"
"2023/01/03","哺乳類","キリン","50000"
"2023/01/03","哺乳類","トラ","80000"
"","【哺乳類 計】","","130000"
"2023/01/03","鳥類","フラミンゴ","20000"
"2023/01/03","鳥類","ペンギン","15000"
"","【鳥類 計】","","35000"
"","【2023/01/03 計】","","165000"
"2023/01/04","哺乳類","トラ","80000"
"2023/01/04","哺乳類","ライオン","100000"
"","【哺乳類 計】","","180000"
"2023/01/04","鳥類","ペンギン","15000"
"","【鳥類 計】","","15000"
"","【2023/01/04 計】","","195000"
これではわかりにくいのでEXCELに展開するとこのようになります。
正直なところ、非常に難解になってしまうため、2つのグループキーが必要なケースでは、別の手法を選択したほうがシンブルになるかと思います。
縦横変換
データ変換データの縦横変換が必要な場合でRecordGroupを使用する事で簡単な縦横変換を行えます。今回は先ほどのグループキー毎に明細の動物を最大5まで横に展開するケースで説明します。入力データは小計と同じものを使用します。
処理フロー説明

【処理概要】
- ファイルの読み込みと初期処理(グループキー設定、ソート)
- RecordGroupのループ
- ストリーム型の変換
ファイルの読み込みと初期処理
小計と同様で変更はありません
RecordGroupのループ
縦横変換のストリーム型は先ほどのフローの合計部のみを残したものを加工し、日付、動物の種類、動物名と設定します。囲み文字は”(None)”を指定します。(ヘッダの有無はどれでも構いません)

Mapper内では、マッパー変数「動物」と通常レイヤー「結合」、条件レイヤー「移送」を使用します。
通常レイヤー「結合」ではConcatenateを使用しカンマ結合のみを行います。


条件レイヤー「移送」の条件は、小計と同様最終レコードの場合のみのマッピング条件とし、日付、動物の種類と動物名マッパー変数に移送します。
ここでCSVの型指定で、文字囲みをしていません。囲み文字が最終イメージで必要な場合でもこの段階では囲み文字なしで処理し、ループ終了後に文字囲みの有るストリームにコンバートする必要があります。
ストリーム型の変換

出力結果
"日付","動物の種類","動物名1","動物名2","動物名3","動物名4","動物名5"
"2023/01/01","哺乳類","ライオン","トラ","キリン","",""
"2023/01/01","鳥類","ペンギン","","","",""
"2023/01/02","哺乳類","ライオン","トラ","","",""
"2023/01/02","鳥類","ペンギン","フラミンゴ","","",""
"2023/01/03","哺乳類","トラ","キリン","","",""
"2023/01/03","鳥類","ペンギン","フラミンゴ","","",""
"2023/01/04","哺乳類","ライオン","トラ","","",""
"2023/01/04","鳥類","ペンギン","","","",""
RecordGroupの入力ストリームのレコードが無い場合でもこのコンポーネントはループを開始します。レコードが無い場合のエラーを設定しない場合はエラーが発生します。レコードが無い場合の対応を”エラーを無視する”などに設定をすればフローが止まることはありませんが、ループ内の後続の処理でレコードが無い場合を想定する必要があります。そのため、RecordGroupの入力ストリームにレコードが無い場合は、RecordGroupに入らずループを回避する流れとしたほうが確実かと思います。
最後に
RecordGroupは「使おう!」と思って使うものでもないため、使用ケースが限られると思いますが、仕様と使い方を知っておくことで、思わぬところで利用が可能となります。筆者自身も当初ヘッダ・フッタの作成処理利用しか思いついていませんでしたが、レコードカラムの一部縦横変換が必要な構築の中で使う事を思いつき簡単な形で実装ができました。キーブレイクを意識しない構築を行う事で使用コンポーネントの大幅な減少が見込めます。
コンポーネントとしては1つのグループキーのみ指定できる事、グループ内のソートキーを指定する事ができない等の懸念点はありますが、他の現行コンポネントでカバーできる範囲かと思います。
今回はストリームをまとめる方法で簡単な説明としましたが、大量データを扱う場合は処理性能に影響を及ぼします。データベースへのレコード挿入や出力内容のTextファイルへの随時出力などでストリームデータ量を減らす必要があります。
-
2024/02/02追記
分割されたグループ内のソート順ですが追試した結果ソート順は保持されておらずランダムな並び順となっていました。結果、伝票明細など出力に並び順があるものは、グループ内でソートを行う必要がありました。 ↩