#はじめに
クリスマスは好きですか?僕は好きです。だってチキンがたくさん食べられるんだもの。
どうも、カラアゲニストのYusuke Miyamaruです。
データサイエンティスト(DS)としてお客様の課題を解決するために日々精進しています。
本日は、クリスマスも近いということで
###テンションを「アゲ」ていくために
###「唐揚げ」
のデータ分析をしたいと思います(?)
本記事の内容を社内のLTで発表したときの資料です。こちらもよろしければどうぞ。↓
インテックのデータ分析・AI活用のノウハウをまとめた連載記事です↓
第2弾です。GPT-3を触ってみました。↓
#今日の素材は?
さて、今回使うデータはこちら!
###総務省の統計データの「小売物価統計調査」です!※1
小売物価統計調査は、消費者物価指数やその他物価に関する基礎資料を得ることを目的とした調査です。
毎月、全国的規模で国民の消費生活上重要な財の小売価格、サービスの料金及び家賃を、店舗及び世帯を対象に調査しています。
調査結果は、年金等の給付見直しの際の基礎資料や、公共料金の上限値を決める際の資料として、幅広く利用されています。
調査は、物価の動向を把握するための動向編と、地域別や店舗形態別の価格差などの物価の構造を把握するための構造編で構成されています。
こちらは、上にもあるように小売商品の価格を定点観測してデータ化しているものです。
今回はこのデータの「からあげ(単位は100グラムあたりの円)」の価格推移のデータを見ていきます。
おいしいごはんをつくるには、良い調理道具から。データ分析もそれは同じ。
今回は、GUIでデータ分析・機械学習が簡単にできる
###データ分析プラットフォーム「Dataiku」
で料理していきたいと思います。
まだまだ日本での知名度は高くはないですが、
「Gartner 2020 Magic Quadrant」の「LEADER」に選ばれる※2など、
欧米では、データ分析プラットフォームの分野で非常に高い評価を得ています。
さて、今回の分析環境はこちらの「Dataiku」を使って構成します。
OS:MacOS Catalina 10.15.4
Dataikuのバージョン:7.0.1
pythonのバージョン:3.7
上記環境で、ローカルのPCでDataikuの仮想サーバを立ち上げて分析を実施しています。
また、「Dataiku」についての使用感や環境設定については、以下の記事が参考になると思います。よければ参照ください。
・Dataiku DSSをVirtual Boxを使って利用する方法
・DataikuのチュートリアルBasicsをやってみる
・dataiku Academy Tutorial:Scoringをやってみた
・DataikuのチュートリアルMachine Learningをやってみる
美味しいごはんをつくるには、良いレシピ、献立が大事ですよね。
高価な食材があっても、とりあえず焼いてみてからとか、煮てみてからとかだと美味しい料理ができるかわからないですよね?
まずは「どういった目的でデータを分析するのか」を整理していきます。
でも今回は、正直使えるデータは限られているので、分析の目的は立てにくいです。
カレーを作るぞ!と決めて、じゃがいもだったり人参などの食材を買いに行って料理する、ではなく
家の残り物で、この食材で何作ろっかーって感じに近いです。
となると、まずデータの中身を見ていくことから始めるのが良さそうですね。
そこで今回は下記の流れで進めていきます。
1:使用するデータの項目を見る
2:分析の目的(仮説)をたてる
3:データの可視化をして仮説を検証していく
#素材の状態を見ていきます。
今回は
###「調査品目の月別価格及び年平均価格-県庁所在市及び人口15万以上の市(2015年~) 」
という5年分の小売における物の価格がまとめられたデータを使います。
政府統計の窓口「e-stat」ではこうしたデータがDBの形でまとめられていて、CSVでダウンロードできたり、API連携できるようになっています。
からあげの「銘柄符号(識別番号)」は「1842」なのでこちらを選択し、ダウンロードボタンを押下します。
こういった画面が出るので、「ページ上部の選択項目」にチェックし、CSVをダウンロードします。
では、Dataikuで統計情報を確認していきます。
データが汚れているので少しきれいにしましょう。料理も下ごしらえが大事ですよね。
先程も少し出ていましたが、「年月」と「地域」のクロス集計になっていますね。
「地域」カラムより左側の列は同じ情報が列挙されているだけなので一旦削除します。(Dataikuでは一旦消しても、ボタン一つで戻せます)
また、赤で示された部分は欠損値ですが、どうやら本データは各都道府県のうち一つの都市だけ集計したようです。
よって、こちらのレコードも削除します。
また、「年月」のコラムは、「年」と「月」に分けたいので、カラムの分割とデータを可視化しやすいように転置も実行します。
Dataikuの「Recipes」機能を使うとこういった加工が素早く処理できて、証左も残せるのは便利ですね。
はいデータがきれいになりましたので、続いては分析の目標を決めていきます!
私が冒頭でも述べてましたが
###クリスマスって本当にみんなチキン食べるのか???
って思ったんですね。
つまり、今回のデータでは、からあげの提供数であったり、家庭で食べられている「数」のデータはないですが
###需要がある月は価格が高くなるんじゃないか??
と思いまして、今回はこちらの仮説を検証していきます!
###仮説① 「からあげの値段は、クリスマスのある12月に高くなるかも???」
あと、もうひとつ。
からあげの聖地と言われている中津市がある大分県ですが、
単純にたくさん食べられているので、値段もお安いのか気になります。ですのでこちらの仮説も検証していきます。
###仮説② 「大分県ではからあげの値段はお安い???」
それでは、分析に入っていきます!
#料理① からあげの値段は、クリスマスのある12月に高くなる???
まず、「からあげの値段は、クリスマスのある12月に高くなる???」の検証をしていきましょう。
今回見たい情報は「地域差に依存しない月の情報」なので、それぞれの地域差を均した平均の値をカラムとして追加しておきましょう。
「formula」を使って、平均値を算出して新しいカラムを作りました。
それではこちらのデータを「chart」と「statistics」を使って可視化していきましょう。
下の図ですが、「月」を横軸、「5年分の平均値」を横軸にし、単純にクロス集計させました。
こちらを棒グラフでプロットしました。ほぼ、差は見られなさそうです。
箱ひげ図で見てみると、ばらつきもあるものの、11月、12月は比較的に少ないことが読み取れます。
先程の棒グラフを平均に対する比率を示したグラフですが、これを見るとわずかながら12月が一番値段が高くなっていることが読み取れます。
からあげの値段に季節性はあまり見られないものの、12月および11月は年ごとに影響されにくい傾向が少し見られましたね。
よって仮説「からあげの値段は、クリスマスのある12月に高くなる」の検証結果は
###基本的に月による差はないが、12月は少しだけ高くなるように見える!!
ですかね。
#料理② 大分県ではからあげの値段はお安い???
ではつづいて、「大分県ではからあげの値段はお安い???」の検証をしていきましょう。
先程と同様に平均値を出してから分析を進めます。
今回見たい情報は「年月に依存しない地域の情報」なので、それぞれの年月を均した平均の値をカラムとして追加しておきましょう。
下の図ですが、「年月の平均値」を横軸、「地域」を横軸にし、単純にヒストグラムでプロットさせました。
ん?極端に低い県がいますね。大分県でしょうか???よく見てみましょう。
###大分じゃない。。。。
まさかの弊社拠点の富山県が最安でした。
ものすごい外れ値。一番値段の高い「福島県」と約100円も違います。
ちなみに大分は、全都道府県の中では平均より少し下くらいですね。九州地方は比較的に安い傾向も見られてます。
はい。それでは、仮説「大分県ではからあげの値段は安くなる」の検証結果ですが
###大分県ではなくてまさかの富山県が一番安い!
です。
はい、いかがでしたでしょうか。
いろいろ雑にやっちゃった部分もありますが
「Dataiku」のおかげでデータの抽出、加工、仮説の策定、分析まで
###さくっと
出来ました。
また今回は、「からあげの値段」のみのデータを見ていきましたが、
「からあげの出荷量」、「消費量」、「提供形態」のデータやがあるともっと高度な分析ができマーケティングに使えそうですね。
また、今回の「小売物価統計調査」ですが、からあげの構成要素である
###「鶏肉」や「食用油」
にとどまらず
###「からあげ弁当」
といった項目も調査されています。
こうしたデータを分析することで、受発注の最適化にもつながっていきそうです。
まだまだ、からあげにまつわる分析は色々できそうです!
###「からあげ」 も 「顧客の意思決定の速さ」
も
###「アゲ」
れるようなデータサイエンティストになれるよう精進します。
#最後に
ここまで見てくださってありがとうございます!
今後も楽しくデータ分析や開発の魅力をお伝えできればと思います!
ではまた。
#参考資料
※1 総務省 統計データ 物価統計調査 URL: http://www.stat.go.jp/data/kouri/index.html
※2 Dataiku Named a Magic Quadrant LEADER URL: https://pages.dataiku.com/gartner-2020