この記事はSplunk Advent Calendar 2023 15日目です。
Splunk Machine Learning Toolkit (MLTK) の最新バージョン(v5.4.0)では、ONNX形式のモデルをアップロードすることが可能になりました。これは、外部で作成したモデルをSplunkに統合したいユーザーにとって素晴らしいニュースです。このブログでは、私がONNX形式のMLモデルを作成し、展開できなかった経験と、それに苦しむ中での対処法のメモです。
ONNXモデルを作成
最初に、MLモデルを作成するためのデータセットを探し始めました。Kaggleを手始めにざっと見ている中で、クラシックな住宅価格予測のデータセットに興味を持ちました。少しのクリーニングの後、次のようなデータフレームを作成しました。
このデータセットで、SquareFeet、Bedrooms、Bathrooms、Rural、Suburb、Urbanを使用して、Priceを予測します。ONNXのMLTK機能に焦点を当てたため、モデルの選択やトレーニングについては特に洗練されたものを探しませんでした。この回帰の問題に対して、humbleなLinearRegressorを使用しました。
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
X_train, X_test, Y_train, Y_test = train_test_split(X_filtered, Y, test_size=0.3)
linear_model = LinearRegression()
linear_model.fit(X_train, Y_train)
さて、モデルがトレーニングされました(一瞬で)、次はONNXのコートを着る時です。ONNX変換には、sklearnモデルを直接ONNXにマップするためにskl2onnxパッケージを使用しました。
from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType
initial_type = [('float_input', FloatTensorType([None, X_train.shape[1]]))]
onx = convert_sklearn(linear_model, initial_types=initial_type)
with open("housing_predictor.onnx", "wb") as f:
f.write(onx.SerializeToString())
Splunk MLTKにアップロード
Splunk MLTK APPのUIで、Modelsタブに移動して、「Upload ONNX model」をクリックすると、アップロードウィンドウが表示され、モデル名(onnxファイル名と同じである必要があります)、入力フィールド名、および出力フィールド名を指定すると、アップロードは成功しました。
その後、サーチタブに移動しました。Splunkにサンプルデータセットをアップロードした状態で、次のクエリを実行してONNXモデルを呼び出そうとしましたが、残念ながらエラーが発生しました。
エラーの調査と解消
エラーについて詳しく知るために、_internalインデックスにクエリを実行し、次のエラーログを見つけました。
どうやら、私のONNXモデルのopsetは自動的に18に設定され、Splunk MLTKのONNXランタイムではサポートされていなかったようです。そのため、ONNX変換コードを修正してopsetを手動でより低いバージョンに変更する必要がありました。
initial_type = [('float_input', FloatTensorType([None, X_train.shape[1]]))]
onx = convert_sklearn(linear_model, initial_types=initial_type)
# Manually change opset version
onx.opset_import[0].version = 2
onx.opset_import[1].version = 2
with open("housing_predictor.onnx", "wb") as f:
f.write(onx.SerializeToString())
ONNXファイルを更新して、サーチが成功しました。apply関数によって生成された新しいフィールド「predicted(Price)」がONNXモデルによって予測された結果を示しています。モデルのトレーニングがこのブログのメインではなかったため、精度はかなり低いですけど、これはトレーニングが十分に行われたモデルとともに非常に有用な機能になるかもしれません。