1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

キャッシュで2度目以降の処理速度を上げる(SPSS Modeler データ加工逆引き9-5)

Last updated at Posted at 2022-10-23

キャッシュで2度目以降の処理速度を上げる

スクリーンショット 2022-10-18 9.54.58.png

1.想定される利用目的

・大規模なCSVなどのフラットファイルを入力にした際のデータ加工速度の向上

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2022-10-18 10.49.50.png

a.入力するデータのひとつ目です。6種類のカテゴリーと値が100万レコード(行)生成されます。
スクリーンショット 2022-10-18 10.05.57.png

b.入力ふたつ目はカテゴリの重みマスタです。
スクリーンショット 2022-10-18 10.06.32.png

c.[レコード結合]ノードを編集します。ふたつの入力データを[Cate]をキーに内部結合します。
スクリーンショット 2022-10-18 10.07.10.png

d.[フィールド作成]ノードを編集します。値に重みを掛けます。
スクリーンショット 2022-10-18 10.07.41.png

[プレビュー]します。
スクリーンショット 2022-10-18 10.08.21.png

e.[レコード集計]ノードを編集します。
スクリーンショット 2022-10-18 10.08.54.png

[レコード集計]ノードを右クリックして[キャッシュを使用する]を選択します。
スクリーンショット 2022-10-18 10.09.58.png

[レコード集計]ノードに白いバッジがつきました。
スクリーンショット 2022-10-18 10.10.36.png

f.[テーブル]を実行します。バッジが緑に点灯しました。
スクリーンショット 2022-10-18 10.11.43.png

メモリ16GBのMacで28秒処理に時間がかかりました。
スクリーンショット 2022-10-18 10.12.14.png

もう一度[テーブル]実行します。レコード集計段階でキャッシュされているため1秒かからずテーブルが表示されます。後続処理が続く場合には時間の短縮が期待できます。
スクリーンショット 2022-10-18 10.12.53.png

注意事項

後続でもキャッシュを利用すると全体としてメモリ超過になるため適宜不要なキャッシュは[キャッシュを使用しない]で解放します。またストリームが完成してバッチ化される際には全てキャッシュは不要です。
スクリーンショット 2022-10-18 10.18.55.png

キャッシュを中間ファイルとして[保存]して、次回の作業で呼び出([ロード])して再利用することも可能です。SPSS形式であるため圧縮率が高いメリットがあります。もちろん明示的に中間ファイルを作成していただいても結構です。

4.参考情報

キャッシュを解説した記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?