SPSS Modelerでテスト用データやシミュレーション用データをつくるユーザー入力ノードをPythonのpandasで書き換えてみます。
以下の@416nishimaki さんの記事でModelerでの使い方は解説されていますので、この内容をpandasで行ってみます。
SPSS Modeler ノードリファレンス 1-3 ユーザー入力 - Qiita
1.連番データ作成
Modelerでは以下のように「1;13」という指定で1から13までの連続データを生成できます。
pandasではrangeオブジェクトで同じことができます。
ちょっとトリッキーなのは、出力結果にはstop値は含まないことで、出力したい値+1を指定する必要があることです。以下では1から13のデータが欲しいので14を指定しています。
pd.DataFrame(range(1,14),columns=['番号'])
- 参考
Python | range関数の使い方(開始から終了までの連続した数値を要素として持つrange型オブジェクトを作成する)
2.デカルト積データ作成
Modelerでは以下の指定で13ある番号に4つの絵柄の総当たりで52種類のレコードができます。
番号と絵柄の総当たりデータを生成しています。このようなデータ集合をデカルト積、または直積と呼びます。
pandasではitertools.productでデカルト積のデータを作ります。
ややこしいのは、itertools.productはイテレータなので、list化してからDataFrameのdataとして入力する必要があることです。
import itertools
no=range(1,14)
card=['スペード','クラブ','ハート','ダイヤ']
pd.DataFrame(list(itertools.product(no,card)),columns=['番号','絵柄'])
- 参考
Pythonで複数のリストの直積(デカルト積)を生成するitertools.product | note.nkmk.me
3. 予測モデルのスコアリングデータを作成(1レコード)
作ったモデルでスコアリングするためのデータを任意に作りたいことがあります。
Modelerでは、スコアリングしたいデータを入力します。右クリックでユーザー入力ノードを生成できるので、フィールド名などの入力が不要で便利です。
pandasで、行データを生成する場合は2次元リストを与えます。
df_scoring=pd.DataFrame([[21.9,86,2841,12.5]],
columns=['燃費', 'エンジン', '車体重量', '加速性'])
スコアリングはpredictの引数にDataFrameを入れることで可能です。(lrは別途作成した線形回帰のモデルです)
df_scoring['$-馬力']=lr.predict(df_scoring)
- 参考
Scikit-learn で線形回帰 - Qiita
4. 予測モデルのスコアリングデータを作成(複数レコード)
作ったモデルに様々なデータをいれて一番いい組み合わせなどを探すシミュレーションを行うことがあります。
ユーザー入力ノードはデカルト積のデータを簡単につくれるので、こういったシミュレーション用のデータが簡単に作れます。
以下のように240パターンのデータを作っています。
ちなみに以下の「燃費」と「加速性」のように0.1ずつ増えるデータを生成することもできます。
21.9, 22.1, 0.1で[21.9,22.0,22.1]が生成されます。
pandasでは、それぞれの列のリストデータをつくって、やはりitertools.productでデカルト積を作ります。
ちなみにnumpy.arrangeをつかうとfloat型の小数点刻みの連続データも簡単に作れます。
np.arange(21.9, 22.1, 0.1)で[21.9,22.0,22.1]が作れます。
import numpy as np
#fueleco=[21.9,22.0,22.1]
fueleco=np.arange(21.9, 22.1, 0.1)
engine=list(range(86,90))
weight=list(range(2841,2846))
#accel=[12.5,12.6,12.7,12.8]
accel=np.arange(12.5, 12.8, 0.1)
df_scoring2=pd.DataFrame(list(itertools.product(fueleco,engine,weight,accel)),
columns=['燃費', 'エンジン', '車体重量', '加速性'])
スコアリングして、スコアリング結果で並べ替えると一番馬力の大きくなる説明変数を見つけることができます。
df_scoring2['$-馬力']=lr.predict(df_scoring2)
df_scoring2.sort_values(by=['$-馬力'],ascending=False)
- 参考
Python♪小数の繰り返し処理の落とし穴。range()、arange()、linspace() | Snow Tree in June
5. 各列のデータ型を指定したDataFrame生成
Modelerでは以下のように各データのデータ型を指定して、データを生成します。
pandasでは、型を自動判定するのが基本的な動きです。
あえて指定する場合はpd.Series([<データ>], dtype=<データ型>)で指定する必要があります。
整数データをFloat型やstr型で保存する場合は指定が必要です。また、同じ整数型でもint8,int16,int32,int64のようなサイズが異なる型があります。メモリを最適化したい場合はこのサイズもなるべく小さいものを選びます。
いったんDataFrameをつくったあとにastypeで変換することも可能です。
日付型と時間型のデータはdatetime.dateとdatetime.timeのオブジェクトにしてから入れます。pandasには専用の型がないのでobject型で保存されます。
タイムスタンプ型はpd.to_datetimeで変換してから入れます。
import datetime
df=pd.DataFrame({'INT': pd.Series([1], dtype=int),
'FLOAT': pd.Series([1], dtype=float),
'STR': pd.Series([1], dtype=str),
'DAY': [datetime.date(2000, 1, 31)],
'TS': [pd.to_datetime('2021-01-31 23:59:59')],
'TIME': [datetime.time(13,20,58)]
})
pandasの各列のデータタイプはdyptesで調べます。
print(df.dtypes)
INT int32
FLOAT float64
STR object
DAY object
TS datetime64[ns]
TIME object
dtype: object
ただ、これだとobject型のデータ型がわからないので、それを調べるためには以下のように調べます。
for col in df.columns:
print(type(df[col][0]))
<class 'numpy.int32'>
<class 'numpy.float64'>
<class 'str'>
<class 'datetime.date'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
<class 'datetime.time'>
- 参考
datetimeモジュールとdate型/time型 | Python学習講座
pandasは遅い!大量データの高速化、最適化のノウハウを公開!│ペン太ブルBlog
6. サンプル
サンプルは以下に置きました。
ストリーム
notebook
データ
■テスト環境
Modeler 18.3
Windows 10 64bit
Python 3.8.10
pandas 1.4.1