ちょっとしたデータ分析だと一人で完結すると思いますが、規模が大きくなるとチームを組んでSPSS Modelerを使ってデータ分析することも多いのではないでしょうか。
一人で作業しているときは特に問題ありませんが、数人のチームでSPSS Modelerを使ってデータ分析をするようになると、何かしらルールを決めておかないとぐちゃぐちゃになってしまいます。
チームで作業をするというのは、Aさんが途中まで作成したSPSS Modelerのストリームを、Bさんが引き継いで残りを完成させる、Bさんが作成したストリームをベースにしてCさんが少しカスタマイズしたストリームを作成するなど、いろいろなパターンがあると思います。
過去の経験を踏まえて、未来の自分のためにも、チームで作業するときの4つのポイントをまとめました。
- ストリーム名の命名規則を決める
- 入出力ファイルのエンコードを揃える
- 入出力ノードのフォルダ揃える
- スーパーノードを活用する
1. ストリーム名の命名規則を決める
ストリームを他人と共有するなら、ばらばらの名前だと管理しずらいです。
例えば、ストリームのファイル名に日付を付加する場合も、先頭に入れる人と末尾に入れる人が混在していると、わかりにくくなります。
20210101_aaaprj_anomaly1.str
aaaprj_anomaly2_20210101.str
プロジェクト名+分析カテゴリ+日付.strなど、命名規則をプロジェクト初期に決めておくとよいです。
2. 入出力ファイルのエンコードを揃える
入出力がCSVファイルということは結構多いと思います。
チームメンバーが全員Windowsで入力ファイルを出力するシステムもWindowsサーバの場合はSJISで統一されると思うので、そのままデフォルトで問題ありません。
また、チームメンバーが全員Macのときもデフォルトで問題ありませんが、チームメンバーがWindowsとMacが混在することも多いと思います。
Windowsの人とMacの人で作業する場合、UTF-8に揃えておいた方がよいです。
デフォルトではシステムのエンコード(Windowsの人はSJIS、Macの人はUTF-8)になっていると思うので、下記リンク先手順を参考にUTF-8に揃えましょう。
3. 入出力ノードのフォルダ揃える
別の人が作成したストリームを動かすときに、毎回必ず入出力ノードのファイルパスを変更しないといけないと大変ですよね?
各自のPCローカルで動かす場合は、入出力ファイルのパスもルール化してプロジェクト初期に決めておくとよいです。
後続フェーズでSPSS Modeler Server上で動かすことが決まっている場合は、サーバー上のファイル配置パスを同じ構造にしておくのがよいでしょう。
各自のPCローカルで動かす場合は、例えば以下のような感じでルールを決めておきます。
配置パス種別 | 具体的なフォルダのパスの例 |
---|---|
入力ファイル | /work/プロジェクト名/data/input |
出力ファイル | /work/プロジェクト名/data/output |
ストリーム | /work/プロジェクト名/stream |
4. スーパーノードを活用する
よく使うノードのセットをスーパーノードにしておくことで、他のストリームにも組み込みやすくなります。
パターン化できるものはスーパーノードにしてチーム内での再利用を心掛けましょう。