実施環境: Splunk Free 8.2.2
0. 概要
Splunk では複数の検索データを組み合わせるのに、しばしばサブサーチを使用します。
join コマンドや append コマンドでサブサーチを組み合わせるのは直感的にわかりやすいため、ついつい頼ってしまいがちです。
ですが、サブサーチというのは内部的には結局サーチをもう1つ実行しているわけですので、性能的にみるとあまり好ましい選択肢ではありません。
また、 join コマンドや append コマンドはその仕様として結合できるサブサーチのデータ数に上限があるため、巨大なデータを扱う場合には思っていた結果が得られない場合もあります。
そこで、「サブサーチを使わない SPL 」というものが求められてきます。
今回はそのような、「サブサーチを使わない SPL 」の例をいくつか挙げてみました。
なお、こういった「サブサーチを使わない SPL 」はぱっと見でわかりにくいものも多いので、データ量の少ない環境などではサブサーチを用いた読みやすい SPL の方が望ましい場合もあります。
また、 join コマンドなどをフルに活用して非常に複雑な結合をしているような場合は、「サブサーチを使わない SPL 」への置き換えが困難なパターンもありえます。
どのような SPL が最善かは環境や用途などにより変わってきますので、サブサーチの有無に固執せず、臨機応変に使い分けられるようになるとベストです。
1. append コマンドで単純にデータを並べているパターン
まずは、単純にデータを並べているパターンを考えます。
1.1. 通常の検索
普通に search コマンドで検索した結果を並べているパターンを考えます。
index="main" type="A"
| rename num_1 AS num_0, name_1 AS name_0
| append
[ search index="main" type="B"
| rename num_2 AS num_0, name_2 AS name_0 ]
| table type, num_0, name_0
| sort name_0
この場合、素直に最初の検索で両方検索すればサブサーチを使わずに済みます。
異なるフィールド名を統一したい場合は、 eval コマンドの if 関数や case 関数、 coalesce 関数などを使うとよいです。
if 関数や case 関数は、指定した条件に合致するかどうかで返す値を変える関数です。
coalesce 関数は、指定した複数のフィールドについて空かどうかを先頭から確認し、最初に空でなかったフィールドの値を返す関数です。
index="main" type IN ("A", "B")
| eval num_0 = coalesce(num_1, num_2),
name_0 = coalesce(name_1, name_2)
| table type, num_0, name_0
| sort name_0
ちなみに、フィールド名の変更といえば rename コマンドもありますが、今回のように異なるフィールドを同じフィールド名に統合するのには使えません。
以下の例では num_1 , num_2 を num_0 に、 name_1 , name_2 を name_0 にリネームしていますが、後で適用した num_2 , name_2 の値しか残っていません。
これは、 num_1 , name_1 をリネームした後 num_2 , name_2 を同じフィールド名にリネームしたことで、結果が上書きされてしまっているためです。
index="main" type IN ("A", "B")
| rename num_1 AS num_0, num_2 AS num_0,
name_1 AS name_0, name_2 AS name_0
| table type, num_0, name_0
| sort name_0
1.2. 特殊な検索
where コマンドなどで特殊なデータの絞り込み方をしているパターンも考えてみます。
index="main" type="A"
| where match(num_1, "^[1-3]01$")
| rename num_1 AS num_0, name_1 AS name_0
| append
[ search index="main" type="B"
| where match(num_2, "^1[0-9]*$")
| rename num_2 AS num_0, name_2 AS name_0 ]
| table type, num_0, name_0
| sort name_0
このようなパターンでも、 if 関数や case 関数などをうまく用いればサブサーチなしにできる場合があります。
index="main" type IN ("A", "B")
| where (type="A" and match(num_1, "^[1-3]01$")) or
(type="B" and match(num_2, "^1[0-9]*$"))
| eval num_0 = coalesce(num_1, num_2),
name_0 = coalesce(name_1, name_2)
| table type, num_0, name_0
| sort name_0
よほど特殊なパターンでもない限り、 append コマンドは使わず単にすべて最初に検索してしまったほうが、変にデータ上限に引っかかることもなくなるのでベターかと思います。
2. join コマンドで異なるデータを組み合わせているパターン
次に、特定のフィールドをキーにして join コマンドで異なるデータを組み合わせているパターンを考えます。
2.1. 1 対 1 の組み合わせ
2つのデータが完全に 1 対 1 で対応しているパターンを考えます。
index="main" type="A"
| rename num_1 AS num_0
| join num_0
[ search index="main" type="C"
| rename num_2 AS num_0 ]
| table num_0, name_1, name_2
| sort num_0
このようなパターンでは、 stats コマンドの list 関数や values 関数を用いるとサブサーチをなくせます。
この2つの関数はフィールドに格納されている値をそのまま並べて出力する関数で、 list 関数は重複があってもそのまま、 values 関数は重複を排除して値を返します。
抽出するフィールドをキーとなるフィールドごとにこの関数で集計することで、 join コマンドと同様の結果を得ることができます。
index="main" type IN ("A", "C")
| eval num_0 = coalesce(num_1, num_2)
| stats values(name_1) AS name_1, values(name_2) AS name_2 BY num_0
| sort num_0
2.2. N 対 N の組み合わせ
2つのデータが 1 対 1 対応でないパターンも考えてみます。
index="main" type="D"
| rename num_1 AS num_0
| join num_0
[ search index="main" type="E"
| rename num_2 AS num_0 ]
| table num_0, name_1, name_2
| sort num_0
NULL 値はそこまで考慮する必要がないことも多いですが、サブサーチ側から抽出される値が複数となるようなパターンでは、 mvexpand コマンドなどでマルチバリューを分解する必要があります。
index="main" type IN ("D", "E")
| eval num_0 = coalesce(num_1, num_2)
| stats values(name_1) AS name_1, values(name_2) AS name_2 BY num_0
| mvexpand name_2
| sort num_0
もっとも、このような N 対 N の結合処理では、そもそも join コマンドを使用した場合においても想定通りに結果が出せないケースも多いです。
内部結合か外部結合か、 join コマンドか stats コマンドか、データの量や更新頻度などによってはルックアップを利用するという選択もあるかもしれません。
データの性質や処理の目的などによって、慎重に SPL を検討するようにしたほうがよいでしょう。
3. join コマンドで同一のデータを組み合わせているパターン
最後に、 join コマンドを利用したパターンの中でも特殊な、同一のデータを結合しているパターンを考えます。
index="main" type="X"
| eval num = num_b
| join num
[ search index="main" type="X"
| fields num_a, name_a
| rename num_a AS num, name_a AS name_b ]
| table num_a, num_b, name_a, name_b
| sort num_a, num_b
上の例では、 stats コマンドを用いてもなかなかうまくいきません。
ではどうするかというと、 eventstats コマンドを用います。
eventstats コマンドは集計結果を各データに付与していくコマンドです。
以下の例ではこれで num_a と name_a のセットのリストを各データに付与し、 num_b と比較して name_b を導出しています。
index="main" type="X"
| eval num_name = num_a . "/" . name_a
| eventstats values(num_name) AS num_name_list
| mvexpand num_name_list
| where num_name_list LIKE num_b . "/%"
| eval name_b = replace(num_name_list, "^[^/]*/", "")
| table num_a, num_b, name_a, name_b
| sort num_a, num_b
かなり複雑な処理にはなってしまいましたが、それでも一応サブサーチを使わないでもやりようはあることがわかります。
やろうと思えば意外とサブサーチはなくせるので、すぐに無理と決めつけずにいろいろ考えてみるのもよいかと思います。