1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

大きなテーブルと小さなテーブルを効率よく結合する(SPSS Modeler データ加工逆引き6-16)

Last updated at Posted at 2024-08-21

大きなテーブルと小さなテーブルを効率よく結合する

スクリーンショット 2024-08-15 14.10.21.png

1.想定される利用目的

・なるべく高速に大きなテーブルを結合する(CSVなどのフラットファイルを想定)

2.サンプルストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2024-08-15 14.12.38.png

a.入力するデータのひとつめは以下の通りです。278万行の大規模なテーブルです。
スクリーンショット 2024-08-15 16.54.05.png

b.入力するデータふたつめは以下の通りです。7行のマスタテーブルです。
スクリーンショット 2024-08-15 16.54.20.png

c.[レコード結合]ノードを編集します。曜日番号をキーにします。
スクリーンショット 2024-08-15 16.54.33.png

効率的に結合させるため[最適化]タブで大規模データの選択を行います。
スクリーンショット 2024-08-15 16.54.48.png

[テーブル]を実行します。
スクリーンショット 2024-08-15 16.55.28.png

サンプルストリームを最初に実行するとパターン3のキャッシュなしが該当します。
スクリーンショット 2024-08-15 17.00.48.png

キャッシュのバッジがグリーンに点灯した状態で再度[テーブル]を実行するとパターン4になります。11秒であったため、「最適化なし」のパターン2と比較しても半分のスピードで結合が終了したことになります。

スクリーンショット 2024-08-15 16.55.38.png

キャッシュの説明はこちらを参照してください。

注意事項

今回はフラットファイルのためにキャッシュを利用しましたが、DB接続のケースではキャッシュを外してSQLプッシュバックを想定した工夫を検討します。例えばDBによってはあらかじめテーブルサイズの統計を取ることで、今回と同じようように効率化を実現できます。

4.参考情報

レコード結合を解説した記事

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?