4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Splunk Advent Calendar 2023Advent Calendar 2023

Day 15

Splunk MLTKにONNXモデルをアップロードしてみた

Last updated at Posted at 2023-12-12

この記事はSplunk Advent Calendar 2023 15日目です。

Splunk Machine Learning Toolkit (MLTK) の最新バージョン(v5.4.0)では、ONNX形式のモデルをアップロードすることが可能になりました。これは、外部で作成したモデルをSplunkに統合したいユーザーにとって素晴らしいニュースです。このブログでは、私がONNX形式のMLモデルを作成し、展開できなかった経験と、それに苦しむ中での対処法のメモです。

ONNXモデルを作成

最初に、MLモデルを作成するためのデータセットを探し始めました。Kaggleを手始めにざっと見ている中で、クラシックな住宅価格予測のデータセットに興味を持ちました。少しのクリーニングの後、次のようなデータフレームを作成しました。

Screenshot 2023-12-03 at 19.31.25.png

このデータセットで、SquareFeet、Bedrooms、Bathrooms、Rural、Suburb、Urbanを使用して、Priceを予測します。ONNXのMLTK機能に焦点を当てたため、モデルの選択やトレーニングについては特に洗練されたものを探しませんでした。この回帰の問題に対して、humbleなLinearRegressorを使用しました。

train.py
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X = data.iloc[:, :-1]
Y = data.iloc[:, -1]

X_train, X_test, Y_train, Y_test = train_test_split(X_filtered, Y, test_size=0.3)

linear_model = LinearRegression()
linear_model.fit(X_train, Y_train)

さて、モデルがトレーニングされました(一瞬で)、次はONNXのコートを着る時です。ONNX変換には、sklearnモデルを直接ONNXにマップするためにskl2onnxパッケージを使用しました。

onnx.py
from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType

initial_type = [('float_input', FloatTensorType([None, X_train.shape[1]]))]
onx = convert_sklearn(linear_model, initial_types=initial_type)

with open("housing_predictor.onnx", "wb") as f:
    f.write(onx.SerializeToString())

Splunk MLTKにアップロード

Splunk MLTK APPのUIで、Modelsタブに移動して、「Upload ONNX model」をクリックすると、アップロードウィンドウが表示され、モデル名(onnxファイル名と同じである必要があります)、入力フィールド名、および出力フィールド名を指定すると、アップロードは成功しました。

Screenshot 2023-12-03 at 21.52.26.png

その後、サーチタブに移動しました。Splunkにサンプルデータセットをアップロードした状態で、次のクエリを実行してONNXモデルを呼び出そうとしましたが、残念ながらエラーが発生しました。

Screenshot 2023-12-03 at 23.27.18.png

エラーの調査と解消

エラーについて詳しく知るために、_internalインデックスにクエリを実行し、次のエラーログを見つけました。

Screenshot 2023-12-03 at 23.30.07.png

どうやら、私のONNXモデルのopsetは自動的に18に設定され、Splunk MLTKのONNXランタイムではサポートされていなかったようです。そのため、ONNX変換コードを修正してopsetを手動でより低いバージョンに変更する必要がありました。

onnx_revised.py
initial_type = [('float_input', FloatTensorType([None, X_train.shape[1]]))]
onx = convert_sklearn(linear_model, initial_types=initial_type)

# Manually change opset version
onx.opset_import[0].version = 2
onx.opset_import[1].version = 2
with open("housing_predictor.onnx", "wb") as f:
    f.write(onx.SerializeToString())

ONNXファイルを更新して、サーチが成功しました。apply関数によって生成された新しいフィールド「predicted(Price)」がONNXモデルによって予測された結果を示しています。モデルのトレーニングがこのブログのメインではなかったため、精度はかなり低いですけど、これはトレーニングが十分に行われたモデルとともに非常に有用な機能になるかもしれません。

Screenshot 2023-12-03 at 21.56.50.png

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?