はじめに
この記事は、IBMのサンプルデータをSPSS Modelerを使って読み解いていこうというものです。今回は連載2回目となります。この回では、データの確認方法をみていきたいと思います。
シリーズ目次
-
Bakery and weather data を使用して、天気と売れ筋商品TOP3をSPSS Modelerで見てみた。(その1- 全データのTOP3を確認する)
-
Bakery and weather data を使用して、天気と売れ筋商品TOP3をSPSS Modelerで見てみた。(その2 - データを俯瞰して見る)
初めに、SPSS Modelerの「重複レコードノード」を使って、Distinct することで、データの種類を見てみたいと思います。
次に実はもっと便利な「データ検査」ノードというものがあるので、これを使って、CSVデータの中身を俯瞰して見ていきたいと思います。
どちらも「天気に使用されているデータの種類を確認する」という目的は達成できますが「データ検査」ノードがかなり面白いので、ぜひ使ってみてください。
1. 天気データの種類の確認(重複レコードノード)
初めに、天気のデータの種類としてどういったものがCSVデータの中にあるのか見てみたいと思います。
1-1. 天気データの種類の確認(重複レコードノード)
初めに、新規のストリーム領域に、「Bakery and weather data.csv」をドラッグ&ドロップします。
1-2. フィルターノードをストリーム領域にドラッグ
次に、フィルターノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、「Bakery and weather data.csv」(可変長ファイルノード)と接続します。
フィルターノードをダブルクリックして編集で開き、「Weather」以外の全ての項目の矢印部分をクリックして❌表示にし「OK」で閉じます。
1-3. 重複レコードノードをストリーム領域にドラッグ
次に、重複レコードノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、フィルターノードと接続します。
重複レコードノードをダブルクリックして編集で開き、「グループ化のキー フィールド」に 「Weather」を追加し、「OK」で閉じます。
1-4. テーブルノードをストリーム領域にドラッグ & 実行
次にテーブルノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、重複レコードノードと接続し、右クリック(Macタッチパネルの場合は二本指で同時クリック)して、「実行」します。
1-5. 天気のデータのDistinct(重複排除)のデータを確認
1-1から1−4までのステップで、天気のデータの重複排除したデータとレコード件数を確認する事ができました。
Cloudy Rainy Sunny Snowy の 4種類が使われている事がわかりました。
2. データ全体の傾向の確認(データ検査ノード)
次に、データ検査ノードを使って、もっと楽にCSVデータ全体のデータの傾向を確認したいと思います。
2-1. データ検査ノードの追加 & 実行
出力パレットから「データ検査ノード」をストリーム領域に追加し、「Bakery and weather data.csv」(可変長ファイルノード)と接続し、実行します。
2-2. CSVデータの中身の傾向をグラフで確認
データ検査ノードを実行すると、CSVデータの中身を以下のような「尺度」「最小値」「最大値」「カテゴリ数」といった情報とともに確認する事ができます。
2-3. 「Weather」を確認
Weatherを確認するとカテゴリが4とあり、データは4種類である事がわかります。Weatherのグラフをダブルクリックします。以下のように、4つのデータの件数と割合を確認する事ができます。
3. まとめ
この記事では、天気データにどのようなものがあるか2つの確認方法を記載しました。
次の記事(その3)では、Sunny, Clowdy, Rainy, Snowy で売れ筋商品に違いが出てくるか確認していきます。