21
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

INTECAdvent Calendar 2020

Day 16

からあげDSアゲ太郎 #1 -クリスマスはチキンと一緒にデータ分析を-

Last updated at Posted at 2020-12-15

#はじめに
building_karaage.png
クリスマスは好きですか?僕は好きです。だってチキンがたくさん食べられるんだもの。
どうも、カラアゲニストのYusuke Miyamaruです。
データサイエンティスト(DS)としてお客様の課題を解決するために日々精進しています。

本日は、クリスマスも近いということで
###テンションを「アゲ」ていくために
###「唐揚げ」
のデータ分析をしたいと思います(?)


本記事の内容を社内のLTで発表したときの資料です。こちらもよろしければどうぞ。↓

インテックのデータ分析・AI活用のノウハウをまとめた連載記事です↓

第2弾です。GPT-3を触ってみました。↓

#今日の素材は?
さて、今回使うデータはこちら!

###総務省の統計データの「小売物価統計調査」です!※1

小売物価統計調査は、消費者物価指数やその他物価に関する基礎資料を得ることを目的とした調査です。
毎月、全国的規模で国民の消費生活上重要な財の小売価格、サービスの料金及び家賃を、店舗及び世帯を対象に調査しています。
調査結果は、年金等の給付見直しの際の基礎資料や、公共料金の上限値を決める際の資料として、幅広く利用されています。
調査は、物価の動向を把握するための動向編と、地域別や店舗形態別の価格差などの物価の構造を把握するための構造編で構成されています。


こちらは、上にもあるように小売商品の価格を定点観測してデータ化しているものです。
今回はこのデータの「からあげ(単位は100グラムあたりの円)」の価格推移のデータを見ていきます。


#調理器具のご紹介!
chuka_chef.png

おいしいごはんをつくるには、良い調理道具から。データ分析もそれは同じ。
今回は、GUIでデータ分析・機械学習が簡単にできる
###データ分析プラットフォーム「Dataiku」
で料理していきたいと思います。

まだまだ日本での知名度は高くはないですが、 
「Gartner 2020 Magic Quadrant」の「LEADER」に選ばれる※2など、
欧米では、データ分析プラットフォームの分野で非常に高い評価を得ています。

さて、今回の分析環境はこちらの「Dataiku」を使って構成します。
OS:MacOS Catalina 10.15.4
Dataikuのバージョン:7.0.1
pythonのバージョン:3.7

上記環境で、ローカルのPCでDataikuの仮想サーバを立ち上げて分析を実施しています。

また、「Dataiku」についての使用感や環境設定については、以下の記事が参考になると思います。よければ参照ください。
Dataiku DSSをVirtual Boxを使って利用する方法
DataikuのチュートリアルBasicsをやってみる
dataiku Academy Tutorial:Scoringをやってみた
DataikuのチュートリアルMachine Learningをやってみる

#今日の料理の流れは?
cooking_ryouri_oyako.png

美味しいごはんをつくるには、良いレシピ、献立が大事ですよね。
高価な食材があっても、とりあえず焼いてみてからとか、煮てみてからとかだと美味しい料理ができるかわからないですよね?

まずは「どういった目的でデータを分析するのか」を整理していきます。

でも今回は、正直使えるデータは限られているので、分析の目的は立てにくいです。

カレーを作るぞ!と決めて、じゃがいもだったり人参などの食材を買いに行って料理する、ではなく
家の残り物で、この食材で何作ろっかーって感じに近いです。

となると、まずデータの中身を見ていくことから始めるのが良さそうですね。

そこで今回は下記の流れで進めていきます。
1:使用するデータの項目を見る
2:分析の目的(仮説)をたてる
3:データの可視化をして仮説を検証していく

#素材の状態を見ていきます。
今回は
###「調査品目の月別価格及び年平均価格-県庁所在市及び人口15万以上の市(2015年~) 」
という5年分の小売における物の価格がまとめられたデータを使います。

政府統計の窓口「e-stat」ではこうしたデータがDBの形でまとめられていて、CSVでダウンロードできたり、API連携できるようになっています。

こういった形で見れるようになっています。
スクリーンショット 2020-12-14 2.08.28.png

からあげの「銘柄符号(識別番号)」は「1842」なのでこちらを選択し、ダウンロードボタンを押下します。
こういった画面が出るので、「ページ上部の選択項目」にチェックし、CSVをダウンロードします。
スクリーンショット 2020-12-14 2.09.31.png

では、Dataikuで統計情報を確認していきます。

データが汚れているので少しきれいにしましょう。料理も下ごしらえが大事ですよね。
先程も少し出ていましたが、「年月」と「地域」のクロス集計になっていますね。
スクリーンショット 2020-12-14 2.21.39.png

「地域」カラムより左側の列は同じ情報が列挙されているだけなので一旦削除します。(Dataikuでは一旦消しても、ボタン一つで戻せます)
また、赤で示された部分は欠損値ですが、どうやら本データは各都道府県のうち一つの都市だけ集計したようです。
スクリーンショット 2020-12-14 2.39.47.png

よって、こちらのレコードも削除します。
また、「年月」のコラムは、「年」と「月」に分けたいので、カラムの分割とデータを可視化しやすいように転置も実行します。
Dataikuの「Recipes」機能を使うとこういった加工が素早く処理できて、証左も残せるのは便利ですね。
スクリーンショット 2020-12-14 2.21.54.png

はいデータがきれいになりましたので、続いては分析の目標を決めていきます!

#きょうの料理はこれだ!
animal_chara_tori_nikuya.png

私が冒頭でも述べてましたが

###クリスマスって本当にみんなチキン食べるのか???

って思ったんですね。

つまり、今回のデータでは、からあげの提供数であったり、家庭で食べられている「数」のデータはないですが

###需要がある月は価格が高くなるんじゃないか??

と思いまして、今回はこちらの仮説を検証していきます!

###仮説① 「からあげの値段は、クリスマスのある12月に高くなるかも???」

あと、もうひとつ。
からあげの聖地と言われている中津市がある大分県ですが、
単純にたくさん食べられているので、値段もお安いのか気になります。ですのでこちらの仮説も検証していきます。

###仮説② 「大分県ではからあげの値段はお安い???」

それでは、分析に入っていきます!

#料理① からあげの値段は、クリスマスのある12月に高くなる???

まず、「からあげの値段は、クリスマスのある12月に高くなる???」の検証をしていきましょう。

今回見たい情報は「地域差に依存しない月の情報」なので、それぞれの地域差を均した平均の値をカラムとして追加しておきましょう。
「formula」を使って、平均値を算出して新しいカラムを作りました。
スクリーンショット 2020-12-14 19.48.25.png

それではこちらのデータを「chart」と「statistics」を使って可視化していきましょう。
スクリーンショット 2020-12-14 19.50.31.png

下の図ですが、「月」を横軸、「5年分の平均値」を横軸にし、単純にクロス集計させました。
スクリーンショット 2020-12-14 20.37.06.png

こちらを棒グラフでプロットしました。ほぼ、差は見られなさそうです。
スクリーンショット 2020-12-14 20.36.44.png

箱ひげ図で見てみると、ばらつきもあるものの、11月、12月は比較的に少ないことが読み取れます。
スクリーンショット 2020-12-14 20.37.17.png

先程の棒グラフを平均に対する比率を示したグラフですが、これを見るとわずかながら12月が一番値段が高くなっていることが読み取れます。
スクリーンショット 2020-12-14 20.36.57.png

からあげの値段に季節性はあまり見られないものの、12月および11月は年ごとに影響されにくい傾向が少し見られましたね。

よって仮説「からあげの値段は、クリスマスのある12月に高くなる」の検証結果は

###基本的に月による差はないが、12月は少しだけ高くなるように見える!!

ですかね。 

#料理② 大分県ではからあげの値段はお安い???
ではつづいて、「大分県ではからあげの値段はお安い???」の検証をしていきましょう。

先程と同様に平均値を出してから分析を進めます。
今回見たい情報は「年月に依存しない地域の情報」なので、それぞれの年月を均した平均の値をカラムとして追加しておきましょう。
スクリーンショット 2020-12-14 20.58.19.png

下の図ですが、「年月の平均値」を横軸、「地域」を横軸にし、単純にヒストグラムでプロットさせました。
ん?極端に低い県がいますね。大分県でしょうか???よく見てみましょう。
スクリーンショット 2020-12-14 21.05.23.png

###「富山県」
スクリーンショット 2020-12-14 21.07.55.png

###大分じゃない。。。。

まさかの弊社拠点の富山県が最安でした。

ものすごい外れ値。一番値段の高い「福島県」と約100円も違います。
スクリーンショット 2020-12-14 21.05.40.png

ちなみに大分は、全都道府県の中では平均より少し下くらいですね。九州地方は比較的に安い傾向も見られてます。
スクリーンショット 2020-12-14 21.06.03.png

大分県を拡大したもの。
スクリーンショット 2020-12-14 21.16.45.png

はい。それでは、仮説「大分県ではからあげの値段は安くなる」の検証結果ですが

###大分県ではなくてまさかの富山県が一番安い!

です。

#分析を終えて
chicken_race_niwatori.png

はい、いかがでしたでしょうか。
いろいろ雑にやっちゃった部分もありますが
「Dataiku」のおかげでデータの抽出、加工、仮説の策定、分析まで
###さくっと
出来ました。

また今回は、「からあげの値段」のみのデータを見ていきましたが、
「からあげの出荷量」、「消費量」、「提供形態」のデータやがあるともっと高度な分析ができマーケティングに使えそうですね。
また、今回の「小売物価統計調査」ですが、からあげの構成要素である
###「鶏肉」や「食用油」
にとどまらず
###「からあげ弁当」
といった項目も調査されています。
こうしたデータを分析することで、受発注の最適化にもつながっていきそうです。

まだまだ、からあげにまつわる分析は色々できそうです!

###「からあげ」 も 「顧客の意思決定の速さ」

###「アゲ」
れるようなデータサイエンティストになれるよう精進します。
#最後に

food_tonkatsu.png

ここまで見てくださってありがとうございます!
今後も楽しくデータ分析や開発の魅力をお伝えできればと思います!
ではまた。

#参考資料
※1 総務省 統計データ 物価統計調査 URL: http://www.stat.go.jp/data/kouri/index.html
※2 Dataiku Named a Magic Quadrant LEADER URL: https://pages.dataiku.com/gartner-2020

21
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
21
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?