はじめに
最近SPSS Modelerを勉強している斉藤です。IBM Cloud Pak for Data as a Service のギャラリーにサンプルのさまざまなデータが掲載されています。
その中に「Bakery and weather data」というものがありましたので、天気で売れ筋商品に変化があるかSPSS Modelerで見てみることにしました。
今回 Watson Studio の Modeler(ブラウザ版)を使うのではなく、クライアント版のSPSS Modeler 18.3 Mac版を使用したいと思います。
シリーズ目次
-
Bakery and weather data を使用して、天気と売れ筋商品TOP3をSPSS Modelerで見てみた。(その1- 全データのTOP3を確認する)
-
Bakery and weather data を使用して、天気と売れ筋商品TOP3をSPSS Modelerで見てみた。(その2 - データを俯瞰して見る)
1.サンプルデータのダウンロード
1-1. こちらの記事をご覧になり、IBM Cloud Pak for Data as a Serviceのギャラリーにアクセスします。
1-2. データが見つかったら、「Add to Project」(または「プロジェクトに追加」)をクリックして、プロジェクトに追加後、CSVをダウンロードします。
2.サンプルデータについて
こちらのサンプルデータは、リアルなデータではなくフィクションだそうです。ケーキやクッキーの他に、飲み物も売っています。パン屋というよりカフェでしょうか。
3.全データの総売上、TOP3を見てみる。
まず初めに、細かな属性を見ず、全データから総売上、TOP3がどんな商品なのか見てみたいと思います。
3-1. CSVストリーム領域にドラッグ
ダウンロードした「Bakery and weather data.csv」を、 SPSS Modelerのストリーム領域にドラッグ&ドロップして追加します。
3-2. レコード集計ノードをストリーム領域にドラッグ
次にレコード集計ノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、「Bakery and weather data.csv」(可変長ファイルノード)と接続します。
レコード集計ノードをダブルクリックして編集で開き、キーフィールドに「Product」、基本集計は「合計」だけにして、「フィールドにレコード数を含める」にチェックをして「OK」で閉じます。
3-3. ソートノードをストリーム領域にドラッグ
次にソートノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、レコード集計ノードと接続します。
ソートノードをダブルクリックして編集で開き、フィールドに「Sales in USD_Sum」を追加し、「降順」に設定し「OK」で閉じます。
3-4. 抽出条件ノードをストリーム領域にドラッグ
次に抽出条件ノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、ソートノードと接続します。
抽出条件ノードをダブルクリックして編集で開き、「条件」の欄に以下を入力します。
@INDEX <= 3
3-5. テーブルノードをストリーム領域にドラッグ & 実行
次にテーブルノードをSPSS Modelerのストリーム領域にドラッグ&ドロップして追加し、抽出条件ノードと接続し、右クリック(Macのタッチパネルの場合は二本指で同時クリック)して、「実行」します。
3-6. CSVファイルの全データから、この会社(勝手にカフェのチェーン展開をしている会社と想像)の一年間を通じた売れ筋商品TOP3を見る事ができました。
1位 🏆 Red Velvet Cupcake
2位 🏆 Cold Brew Coffee
3位 🏆 Light Roast Coffee
Red Velvet Cupcakeはケーキ生地が赤く着色されていてクリームなどが乗っている人気で伝統的なお菓子だそうです。Cold Brew Coffee は水出しコーヒーですね。Light Roast Coffeeは浅い焙煎のコーヒーでしょうか。ライトな味わい?のコーヒーでしょうか・・
まとめ
いよいよ次回は、天気で売れ筋商品が変わるのか見ていきたいと思います!その前に、天気のデータにどういうものがあり、何件くらいデータがあるかみていきたいと思います。