More than 5 years have passed since last update.

ASTERIAでSQL文自動生成に挑戦

Last updated at 2020-03-12Posted at 2020-02-26

きっかけ

CSVからDBにデータをUPLOADする際に下記のようなことができないか？という話題になった。
例えば

というテーブルとデータがあったとして次のようなCSV

を取り込んだ際に

という結果が欲しい。と。（id=2のオーナーidだけ更新したい）
当然素直に取り込めば

という結果になるのだが「2,,3」はNULLではなく「更新しない」という扱いにしてほしい、と。

…イヤイヤ、それは無理でわ？
そもそも「,,」を「更新しない」なのか「NULL」なのかを判断できないのでは？というところだが「そこを何とか」と
。
そこで無理やり次のようなSQL文を放り込んだ。

仮テーブルを作成してCSVを取り込んでから本テーブルにUPDATEをかける

（仮テーブルはここでは「tmpdog」という名前のテーブル）

■参考にさせていただいたWebサイト様
　「【SQL】UPDATEでNULLだったら更新しない方法」
ちなみに３つ目のSQLCallコンポーネント（COPYコマンドのやつ）の中身は

PostgreSQL

copy tmpdog from '/tmp/koushin.csv' with null '' csv;

で、
４つ目のSQLCallコンポーネント（UPDATEコマンドのやつ）の中身は

PostgreSQL

update public.犬テーブル
set id=case 
 when tmpdog.tmpID is not null then tmpdog.tmpID
 else id
 end,
名前 = case
 when tmpdog.tmp名前 is not null then tmpdog.tmp名前
 else 名前
 end,
オーナーid = case
 when tmpdog.tmpオーナーID is not null then tmpdog.tmpオーナーID
 else オーナーid
 end
from tmpdog
where
public.犬テーブル.ID=tmpdog.tmpID;

です。

そして次に出た要望は「このSQL（のコンポーネントの使い方）だとテーブルごとに書かなきゃいけないから、自動で何かパパっとできない？」。

環境

サーバ：WindowsServer2012 R2 StandardのHYPER-V上で動くCentOS8
クライアント：ごくごく普通のWindows10Pro
DB：PostgreSQL（9.2.24-1.el7_5）
ASTERIA：Asteria(1912)

苦労した点

１．とにかくASTERIAの情報が少ない
２．筆者はASTERIAもPostgreSQLも2019年11月から触っている。とにかく初心者。
※執筆時点は2020年02月。
３．周りにも頼れる仲間がいない。
４．開発業務は初めて。当然Javaもできないので新規コンポーネントの開発などできない。
（余談ですがQiitaもこれが初投稿です；）

困難は分割すべし

とりあえず構想をかき出してみる。

１．DBのフィールド名を読み込み（フィールド名を外部変数などから取得することはしたくなかった。あくまでできる範囲は自動化）
２．フィールドの個数を数える（例えば,の数＋１）
３．フィールドの個数は処理を実行する回数
４．フィールドの個数分だけ
　　id=case
　　when tmpdog.tmpID is not null then tmpdog.tmpID
　　else id
　　end,
　のような定型文を作成する
　※「id」、「tmpid」等は変数
５．SQL文を作成する
　　update public.犬テーブル
　　set
　　…
　　when tmpdog.tmpオーナーID is not null then tmpdog.tmpオーナーID
　　…
　　from tmpdog
　　where
　　public.犬テーブル.ID=tmpdog.tmpID;
というのが出発点でした。
この時点で
・Where句以降はその時々で異なる「条件」なので自動生成は出来ないだろう
　（できたとしても外部変数の指定などが多すぎて）

結果

全体像はこのような形になりました。

各処理の概要はコメント化しています。
細かい解説を入れます。

１．サブフローで呼び出すイメージで作成しているので外部変数が必要になります。

内容は図の通りです。

「tmp」と「work」はお好みで。「tmpSQLtxt」は定数ではなくセッション変数なんかで外から受け渡した方がよいのかもしれませんがパスはともかくファイル名、ということにしました。

２．次に外部変数を受け取るためのフロー変数です。

外部変数を直接使ってもいいのかもしれませんが、一応フロー内で使うものはフロー変数に退避した方がいいですよ…とはだれからも言われてないのですが何となくそんな気がするので。

３．スタートコンポーネント直後のマッパーの内容です。

外部変数を（多少加工して）フロー変数に退避します。

４．次のVelocityの内容です。

PostgreSQL

SELECT
    attname
FROM
    pg_attribute
WHERE
    attrelid = '${exvar.CSVNullCheck.Tablename}'::regclass
    and attnum>0;

これはカラム名を取得するPostgreSQLの命令文です。（修正＞だ、そうです；）
この後でDBを読み込みたいのですが変数指定したSQL文はDBGetコンポーネントに直接記入はできない（動かない）そうなのでVelocityでテンプレを作成してそれをマッパーでDBGetコンポーネントのSQL文プロパティに突っ込みます。

■参考にさせていただいたWebサイト様
　「PostgreSQLでテーブル名カラム名を取得する方法」

５．次のマッパーの内容です。

UPDATE分を一時ファイルに吐き出して置き、本命はVelocityの作成したSQLをDBGetに突っ込むという単純な内容です。

６．DBGet、RecordTranspose、Converter

全体像のコメント通りです。

補足するとすれば
DBGetでは

カラム名
id
名前
オーナーid

と縦に出力されるので縦横並び替えとカンマ区切りをしてテキストに変換、というところで結果は

id，名前，オーナーid

となります。
※DBのコネクションはマッパーなどから指定できるプロパティではないのでここはコンポーネントに対して直接指定が必要です。

７．Converterの次（左側）のマッパーです。

レコード件数（最後のレコードになったらループ終了）としたかったのですが、上手くいかなかったので最後のカラム名を取得しています。

８．Converterの次（右側）のTextSplitLoopです。

カンマ区切りでループさせます。

９．分岐（BranchStart）条件は以下の通りです。

　最後のレコード右->（true）
最後のレコード以外
（＄record.Object} = ＄flow.orgLastColName）
※不一致条件でも良かったのですが、最後のレコードだけ右に通す方がそれっぽかったので。

１０．分岐後のマッパー、Velocityの違いはほとんどありません。

マッパーではオリジナルのカラム名（「id」など）、比較するための一時的なテーブル名、カラム名をVelocityのローカル変数に格納します。（個々の違いまはまったくありません）

Velocityのテンプレートは次の図のような形になります。

PostgreSQL

set ${local.orgColName}=case
 when ${local.tmpTableName}.${local.orgColName} is not null then ${local.tmpTableName}.${local.orgColName}
 else ${local.orgColName}
 end,