#解析内容
技術書典7でサークル「お台場計算尺」は合わせて合計112点の本とグッズを頒布したが、それにあたって11:00から17:00まで10分ごとに頒布数を記録した。記録漏れもある(5%くらいある、忙しいときは忙しかったんです...)が、それは無視して時系列解析を試みる。
#データと解析スクリプト
R と ggplot2 を使って解析した。Rスクリプトの中にデータも埋め込んだ。時系列データの平滑化は LOWESS で行った。と言っても geom_smooth()
に丸投げしただけで他の方法は全く試してないので、手抜きのそしりは免れない。
library(tidyverse);
theme_set(theme_bw(base_family = "HiraKakuProN-W3"));
dat <- c(0,1,9,3,2,2,1,2,12,8,0,5,10,4,0,5,0,4,
3,1,5,2,0,0,1,2,4,3,4,8,4,1,1,1,0,4);
DAT <- cbind(seq(1:length(dat)), dat);
colnames(DAT) <- c("time", "items");
ggplot(DAT, aes(x = time, y = items)) + geom_line() + geom_smooth();
#結果
でプロットされるのはこんな図。横軸は11:00からの経過分数の1/10。
前半が山で後半がプラトー、または山が二つあるような気がしないでもない。それにしても標準誤差が負に食い込んでるなぁ...と思ったときの常套手段の一つは対数をとる事だが(対数値が負になることは全然気にならないので)、データ点には0がいくつもあるので、その場凌ぎで 1 を足して対数を取って LOWESS にかけてみるとこうなる。
ggplot(DAT, aes(x = time, y = log(items + 1))) + geom_line() + geom_smooth();
こっちだと山は二つかな、と思える。まぁ元々、データそのままのプロット(上の図)だと二つ目の山は結構ハッキリしている。
#解釈
現場の感触としては
- 開場から16:30くらいまでずっと人通りが絶えなかった
- しかし3時すぎて一旦すいてきた
- そのあと4時ごろに人の波が一回来た
という具合で、平滑化したプロットはそれと一致する。
全くの想像ではあるが、
- 最初の山は待機列を作っていた一般入場者
- 次の山はサークル参加者
なのかもな、と思う。ラスト10分の駆け込み需要がなかったら二つ目の山はもっと明確だったと思うが、この山がサークル参加者によるものなら、むしろ本質はこの一番最後のピークか、と言う気もする。
#追記
16時前に一般参加者の入場制限を解除した、という情報があった。二つ目の山はそれによるのかな。