拡張のインポートノードを使用したデータモデルの自動生成について

Posted at 2025-02-21

目的

拡張のインポートノードを使用してデータを読み込む際には、データセットに応じたデータモデルを毎回作成する必要があります。
今回はpandasを使用して、データタイプからデータモデルを自動生成するスクリプトを作成しました。

対象読者

・SPSS Modeler 18.5の導入を検討されている方
・SPSS Modeler上でPythonを使用してデータ分析を行いたい方
・SPSS Modeler上でのデータモデル作成に困っている方

データモデルについて

SPSS Modelerでは入力データセットのメタデータ (フィールド数、フィールド名、フィールド・ストレージ・タイプなど) をデータモデルと呼びます。
通常可変長ファイルなどで読み込んだ際には自動でデータモデルが作成されます。

一方で、拡張のインポートノードを使用してデータを読み込んだ際には自動でデータモデルが作成されないためノード内に記述する必要があります。

dataModel = modelerpy.DataModel([
#                           %FieldName%, %StorageType%, %MeasurementType%
            modelerpy.Field(‘StringField’, ‘string’, ‘nominal’),
            modelerpy.Field(‘FloatField’, ‘real’, ‘continuous’),
            modelerpy.Field(‘IntegerField’, ‘integer’, ‘ordinal’),
            modelerpy.Field(‘BooleanField’, ‘integer’, ‘flag’),
            modelerpy.Field(‘DatetimeField’, ‘timestamp’, ‘continuous’),
            modelerpy.Field(‘TimeField’, ‘time’, ‘continuous’),
            modelerpy.Field(‘DateField’, ‘date’, ‘continuous’),
        ])
# StorageType could be: integer, real, string, date, time, timestamp
# MeasurementType could be: discrete, flag, nominal, ordinal, continuous

ここではpandasのdtypes関数を使用してデータ型を取得し、それをSPSS Modelerのストレージタイプ・データ型にマッピングすることで、データモデルを自動生成する仕組みを作成してみたいと思います。
下記はdtypes関数で取得できるデータ型の例です。

データ型	説明
int64	64ビットの整数型。整数値を格納する列に使用されます。
float64	64ビットの浮動小数点型。小数点を含む数値データに使用されます。
object	一般的に文字列型データを表します。ただし、任意のPythonオブジェクトも格納可能。
bool	真偽値型（True / False）データ。
datetime64[ns]	日付と時刻を表す型。Pandasの日時操作に適しています。

2章データモデル自動作成スクリプトについて

使用するライブラリとファイルの読み込み
今回はSPSS Modelerでのpythonを制御するmodelerpyとデータ操作のためのpandasの二つのライブラリをインポートします
また、読み込むcsvファイルを指定します。こちらは任意のファイルで構いません
```
# ネイティブ Python APIのパッケージ
import modelerpy
import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv("D:/train2.csv")  # 適切なファイルパスに置き換えてください
```

データモデル変換表の作成
dtypes関数で取得した各列のデータ型に応じて、SPSS Modelerのストレージタイプとデータ型に割り当てるための変換表を作成します

# 修正された変換表を作成
mapping_data = {
    'dtypes': ['int64', 'float64', 'object', 'bool', 'datetime64[ns]'],
    'StorageType': ['integer', 'real', 'string', 'integer', 'timestamp'],
    'Measurement': ['ordinal', 'continuous', 'nominal', 'flag', 'continuous']
}
mapping_df = pd.DataFrame(mapping_data)

データモデルを自動生成する関数を作成します
変換表から「[%FieldName%, %StorageType%, %MeasurementType%]」をそれぞれの列について作成しています。

# データモデル生成関数
def generate_data_model(df, mapping):
    # Convert mapping DataFrame to a dictionary for easier lookup
    type_mapping = mapping.set_index('dtypes').to_dict(orient='index')

    # Generate modelerpy.Field entries
    field_entries = []
    for column in df.columns:
        dtype = str(df[column].dtypes)
        if dtype in type_mapping:
            storage_type = type_mapping[dtype]['StorageType']
            measurement = type_mapping[dtype]['Measurement']
            field_entries.append(
                f"modelerpy.Field('{column}', '{storage_type}', '{measurement}')"
            )
        else:
            print(f"Warning: No mapping found for dtype '{dtype}' in column '{column}'")

    # Create the dataModel string
    data_model = "modelerpy.DataModel([\n    " + ",\n    ".join(field_entries) + "\n])"
    return data_model

データモデルの作成
作成した関数を実行し、データモデルをdata_model_scriptとして生成します
```
data_model_script = generate_data_model(df, mapping_df)
```

データの参照
作成したデータモデルを読み込みます
この時に、data_model_scriptをデータモデルとして使用するためにeval()関数を使用してオブジェクトに変換しています

# データモデルの参照時
if modelerpy.isComputeDataModelOnly():
    outputDataModel = None
    ### Compute output data model here
    ### 出力データモデルの設定
    eval_data_model = eval(data_model_script)  # 文字列を評価してオブジェクトとして扱う
    modelerpy.setOutputDataModel(eval_data_model)

データの出力
ここまでで準備は完了しましたので、writePandasDataframe関数を使用して、データフレームをSPSS Modelerで読み込みます

# データ出力時
else:
    outputData = None
    ### ファイルからデータの読み込み
    outputData = df
    ### データの出力
    modelerpy.writePandasDataframe(df)

以上が拡張のインポートノード内で読み込んだデータセットのデータモデルを自動生成するスクリプトになります

3章 SPSS Modelerでの操作について

作成したスクリプトを使って、データモデルが自動生成されているかを確認します。

入力パレットから拡張のインポートノードをキャンバスへ追加します
Pythonを選択し、2章で作成したスクリプトを貼り付けて、OKボタンをクリックします
（作成したスクリプトは下記です）
付録（スクリプト）
データ型ノードをダブルクリックして、編集画面を開き、データモデルが生成されSPSS Modelerにデータが読み込まれていることを確認します
出力パレットからテーブルノードをキャンバスに追加し、データ型ノードからリンクして、テーブルノードを実行します

4章活用例について

3章ではcsvファイルを指定して読み込んでいましたが、拡張のインポートノードを使用するとフォルダ配下のcsvファイルを全て結合した上でSPSS Modelerに読み込むことが出来ます。

データ取得まではPythonを使用して、データ加工についてはSPSS Modeler上で行う事が出来ますし、読み込み方を変更することでバッチ処理の中に組み込むなどの活用も出来ますのでご紹介させていただきました。

5章あとがき

拡張のインポートノードを使用する際にデータモデルを毎回作るのが億劫ですが、今回の記事が少しでも使用のハードルを下げることに繋げれば幸いです。
データモデル用の変換表はdtypes関数の全てのデータ型を網羅しているわけではないので、必要に応じて追加しながら使用していただければと思います。

付録(スクリプト)

# ネイティブ Python APIのパッケージ
import modelerpy
import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv("D:/train2.csv")  # 適切なファイルパスに置き換えてください

# 修正された変換表を作成
mapping_data = {
    'dtypes': ['int64', 'float64', 'object', 'bool', 'datetime64[ns]'],
    'StorageType': ['integer', 'real', 'string', 'integer', 'timestamp'],
    'Measurement': ['ordinal', 'continuous', 'nominal', 'flag', 'continuous']
}
mapping_df = pd.DataFrame(mapping_data)

# データモデル生成関数
def generate_data_model(df, mapping):
    # Convert mapping DataFrame to a dictionary for easier lookup
    type_mapping = mapping.set_index('dtypes').to_dict(orient='index')

    # Generate modelerpy.Field entries
    field_entries = []
    for column in df.columns:
        dtype = str(df[column].dtypes)
        if dtype in type_mapping:
            storage_type = type_mapping[dtype]['StorageType']
            measurement = type_mapping[dtype]['Measurement']
            field_entries.append(
                f"modelerpy.Field('{column}', '{storage_type}', '{measurement}')"
            )
        else:
            print(f"Warning: No mapping found for dtype '{dtype}' in column '{column}'")

    # Create the dataModel string
    data_model = "modelerpy.DataModel([\n    " + ",\n    ".join(field_entries) + "\n])"
    return data_model

data_model_script = generate_data_model(df, mapping_df)

# データモデルの参照時
if modelerpy.isComputeDataModelOnly():
    outputDataModel = None
    ### Compute output data model here
    ### 出力データモデルの設定
    eval_data_model = eval(data_model_script)  # 文字列を評価してオブジェクトとして扱う
    modelerpy.setOutputDataModel(eval_data_model)

# データ出力時
else:
    outputData = None
    ### ファイルからデータの読み込み
    outputData = df
    ### データの出力
    modelerpy.writePandasDataframe(df)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

拡張のインポートノードを使用したデータモデルの自動生成について

目的

対象読者

データモデルについて

目次

1章データモデルと自動生成について

2章データモデル自動作成スクリプトについて

3章 SPSS Modelerでの操作について

4章活用例について

5章あとがき

付録(スクリプト)

拡張のインポートノードを使用したデータモデルの自動生成について

目的

対象読者

データモデルについて

目次

1章 データモデルと自動生成について

2章 データモデル自動作成スクリプトについて

3章 SPSS Modelerでの操作について

4章 活用例について

5章 あとがき

付録(スクリプト)

1章データモデルと自動生成について

2章データモデル自動作成スクリプトについて

4章活用例について

5章あとがき