More than 5 years have passed since last update.

【自習】ベーカリーの売上分析【前処理~可視化】

Last updated at 2019-04-02Posted at 2019-03-31

データ分析について自分なりに勉強を始めたけれども, 使わない知識がどんどん抜け落ちていくので,アウトプットして少しでも定着させられたらと思う.

今回はRを使ってベーカリーのレシート情報(kaggle:Transactions from a bakery よりDL)
からどんな知見が得られるのかやってみます.
半年前までQiitaって何？って状態だった私が試すことなので, 同じような非エンジニアから入ってきた人にも分かるようくどい内容になっています.

1. データの前処理

# 「BreadBasket_DMS.csv」の置き場を作業ディレクトリにする.
setwd("C:\\Users\\name\\Desktop\\pan")
# ほかにもファイルがある場合, csvだけを指定して取得する.
csv_list <- list.files(pattern=".csv")
# csv_listにはいっているBreadBasket_DMS.csvをbread_dataとして格納する.
bread_data <- read.csv(csv_list)
# 直接ファイル名を指定してもできる.
# read.csv("BreadBasket_DMS.csv")
# kaggleなど見ているとreadrのread_csv関数を使ってることが多いみたいです.
# データの中にNAが無いかを確認する.
table(is.na(bread_data))
# FALSE
# 85172
# NAは無いようなので次にデータの構造を調べる.

# データの構造(行列)の次元を調べる.
dim(bread_data) 
# [1] 21293     4
# 21293行 4列のカタチをしていることがわかった.

names(bread_data)
# [1] "Date" "Time" "Transaction" "Item"  
# 4列のタイトルは日付, 時間, 取引番号, 品物　らしい.

# 頭と尾の3行を確認する.

head(bread_data,3)
#        Date     Time Transaction         Item
# 1 2016-10-30 09:58:11           1        Bread
# 2 2016-10-30 10:05:34           2 Scandinavian
# 3 2016-10-30 10:05:34           2 Scandinavian
tail(bread_data,3)
#            Date     Time Transaction      Item
# 21291 2017-04-09 14:57:06        9683    Coffee
# 21292 2017-04-09 14:57:06        9683    Pastry
# 21293 2017-04-09 15:04:24        9684 Smoothies

# Itemには商品名が文字として入っていて, Transactionには一回の取引番号に対して品物が結び付いているらしい.
# 時間のデータは2016年の10月末から2017年の4月頭までの半年間のデータのよう.

ここまで確認して, データから得られそうな情報は
・取引番号(Transaction)と品物(Item)が結び付いているので何と何が一緒に購入されているのか調べる
　(パンとコーヒーは同時に買われることが多そう)
・時期によってどんな品物が売れるのか
　(季節で特に売れる品、売れない品などあるのか)

これだけではわからないけれど, データから予想できそうなこと
・実はキャンペーンやCMを始めたことで、売り上げが伸びた時期がある（逆に下がる）

では品物の特性を調べてみます.

# 品物はどんなものを取り扱っているのか確認.
table(bread_data$Item)

#                   Adjustment      Afternoon with the baker                     Alfajores 
#                            1                            44                           369 
#              Argentina Night                      Art Tray                         Bacon 
#                            7                            38                             1 
#              　　　　　　(                           以下省略                             )

# 見にくい!できれば読み込んだ時と同様に行列で見たい.
# data.frameという属性を個別に指定できるような少し変わった構造に突っ込む.
data.frame(table(bread_data$Item))
#                            Var1 Freq
# 1                     Adjustment    1
# 2       Afternoon with the baker   44
# 3                      Alfajores  369
# 4                Argentina Night    7
# 5                       Art Tray   38
#                         （　以下省略　）
# 95              Victorian Sponge    7
# 見やすくなった!　95品目あるらしい.
# 品物によっては1回という全然売れていない品も見受けられる.
# 商品の名前だけほしいときは.
unique(bread_data$Item)
# で取得できる.

# data.frameにしておくとedit関数でエクセルのような直観的な操作もできるようになる.
data <- data.frame(table(bread_data$Item))
edit(data)

品目数や品物名や購入された数が分かった.
ここまでで半年間の人気商品,不人気商品がわかる.
では時系列で半年間のデータを確認した時, 季節で売り上げ個数が変化するものはあるのか？を調べてみます.

まず一日刻みだとプロットした時大変になるので一か月ごとに品物を集計して, 月別売上数を調べることにしましょう.
品物も95個すべてに対して行うと95本の線が出来てしまうので上位の数品目程度に対して行ってみます.

2.とりあえずプロット(大事)

plot_data <- sort(data$Freq)
plot(plot_data)

95品目のうちほとんどが1000以下(グラフからして100以下がほとんど),
上位10~30品目程度が主力と考えられる.

今回は上位10品目で確認していく.

order_data <- data[order(data$Freq, decreasing=T),]
order_data_10 <- order_data[1:10,]
order_data_10
#            Var1 Freq
# 24        Coffee 5471
# 12         Bread 3325
# 85           Tea 1435
# 16          Cake 1025
# 67        Pastry  856
# 64          NONE  786
# 75      Sandwich  771
# 56     Medialuna  616
# 49 Hot chocolate  590
# 27       Cookies  540

頻度を多い順からorder関数で数えてみると上記のようになった.
NAはなかったがNONEというおそらく分類できない品目が入ってきている.
NONEが分析するのに意味のあるものなら残し、何かわからないようなものなら消す.
今回はNONEを除いていこうと思う.

# 上位10品目が含まれている行を取り出す.
# dateの列から年-月までの7文字を切り出して新しい列とする.
for (i in 1:nrow(order_data_10)){
  extract_Item           <- order_data_10$Var1[i]
  bind_data              <- bread_data[bread_data$Item==extract_Item,]
  bind_data$month        <- substr(bind_data$Date,1,7)
  #より細かい条件で抽出したり、時間帯など範囲指定をするときは時刻データに直しておくと便利
  #bind_data$time_series <- as.POSIXct(paste(bind_data$Date ,bind_data$Time))
  bind_all_data          <- rbind(bind_all_data, bind_data)
  }

bind_all_data
# 　　　　　   Date      Time Transaction          Item   month
# 48201  2016-11-29 11:02:41        2282        Coffee 2016-11
# 48211  2016-11-29 11:03:17        2283        Coffee 2016-11
# 48241  2016-11-29 11:26:39        2285        Coffee 2016-11
# 48261  2016-11-29 11:34:50        2287        Coffee 2016-11
# 48331  2016-11-29 12:00:52        2291        Coffee 2016-11
# （以下省略）

あとはmonthに対してItemの登場する頻度を数え上げる.

df2 <- NULL
for (i in 1:nrow(order_data_10)){
  df1 <- bind_all_data[bind_all_data$Item==order_data_10$Var1[i],]
  df1 <- data.frame(table(df1$month))
  df2 <- rbind(df2,df1)
  }
df2
# monthと頻度だけのデータなので品目名を入れる.
item_list <- c(
  rep("Coffee",7),
  rep("Bread",7),
  rep("Tea",7),
  rep("Cake",7),
  rep("Pastry",7),
  rep("NONE",7),
  rep("Sandwich",7),
  rep("Medialuna",7),
  rep("Hot_chocolate",7),
  rep("Cookies",7)
  )
# eachを明記してもできる.
# c(rep(c("Coffee","Bread","Tea","Cake","Pastry",
  "NONE","Sandwich","Medialuna","Hot_chocolate",
  "Cookies"),each=7))
df2$item <- item_list
head(df2)
#     Var1 Freq   item
# 1 2016-10  186 Coffee
# 2 2016-11 2378 Coffee
# 3 2016-12 1864 Coffee
# 4 2017-01 1784 Coffee
# 5 2017-02 2008 Coffee
# 6 2017-03 2142 Coffee

# 忘れないようにNONEの行を除いておく
df2 <- df2[!df2$item == "NONE",]

月, 頻度, 品目のデータができたので月ごとの折れ線グラフにする.

# install.packages("ggplot2")
# library(ggplot2)
monthly_sales <- ggplot(df2, aes(x = Var1, y = Freq, color = item, group=item)) +  
                   geom_point() + 
                   geom_line()
monthly_sales

breadとcoffeeは同じような線ですから, 一緒に買われるのかもしれません.
より正確にはアソシエーション分析しましょう.

1月は売れ行きが下がっています.
他の商品はそうでもないのに何かあったのでしょうか.

アソシエーション分析についても続けて別の記事にしたいとおもいます.

（やっていることを記事にして人に伝えることは難しい）

以上
(2019/04/01　記入)
(2019/04/02 read.csvについて修正)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up