はじめに
「ID-POSデータを活用したデータ分析入門」というタイトルですが、今回、分析に使用するデータはID-POSデータではありません。
今回は、某商店街に設置されたAIカメラで計測された人流データの分析事例をご紹介します。
今回の前提
某商店街ではある時期から大規模な再開発工事が始まりました。
この再開発工事により一部区間のアーケードが撤去されるなど、商店街の通行量へのマイナスの影響が懸念されています。
そこで、再開発前後で、本当に商店街の通行量に影響が生じているのか、それとも実はあまり影響は生じていないのかという点をAIカメラの人流データを分析することで明らかにしていきたいと思います。
また分析の結果、通行量に有意な差が見られた場合、その要因は何なのかという事も明らかにしていきたいと思います。
なお、商店街の特定を避けるため、一部回りくどい表現をしています。
何卒、ご了承ください。
分析結果の要約
再開発前後の通行量の変化についての分析
再開発前年の7月~9月の人流データと、再開発着工年の7月~9月の人流データを取得し、正規性、等分散性の検証を行ったのち、平均値の差の検定(ウェルチの検定)を行いました。
その結果、再開発前年の通行量の平均値と再開発年の通行量の平均値には有意な差があり、通行量の減少が認められました。
通行量の差が生じる要因についての分析
通行量の減少が本当に再開発によるものなのか、それとも別の要因によるものなのかを検証しました。
具体的には、再開発工事の中でもアーケードが撤去されたことの影響がどの程度のものなのかを検証していきました。
アーケードが撤去されたことによる一番の影響として「天候の影響を受けやすくなる」という事が考えられます。
そこで、気象庁のDBより「平均気温、降水量、日照時間」のデータを取得し、これらを説明変数に、通行量を目的変数とした重回帰分析を行いました。
結果、再開発前年においては「平均気温」「降水量」の2変数は通行量に有意な影響を与えていると言えるが、説明変数全体では、通行量の分散の16.4%しか説明していないことが分かり、天候要因が通行量に与える影響はわずかであることが分かりました。
また、再開発着工年においては「平均気温、降水量、日照時間」全ての変数が有意ではなく、自由度修正済決定係数も0.019と、非常に精度の低いモデルとなりました。
したがって、天候が通行量に与える影響は僅かであるという事が分かりました。
再開発前後で通行量の平均値には有意な差は認められた一方で、再開発に伴うアーケードの撤去、すなわち天候の影響を受けやすくなったことは商店街の通行量に僅かな影響しか与えていないことが分かりました。
通行量の変化を特定するには天候以外の説明変数を加える等、モデルの精度を高める必要があります。
また、実際のビジネスにおいては、天候による影響は軽微であると判断し、伸びている部分に注力することも考えられます。
当該商店街においては、付近にマンションが建設されたことで、周辺人口が増えており、周辺人口属性のボリュームゾーンである特定の顧客層の来訪が増加していることもAIカメラの人流データから分かっています。
こうした顧客層への施策を行うことが優先順位の高い取り組みであると考えられます。
Rによる実装
使用するデータ
使用するデータは商店街に設置されたAIカメラの人流データです。
再開発が始まった年の7月~9月の3か月間のデータと、その前年(再開発前)の7月~9月の3か月間のデータを比較し、通行量の平均値に差が生じているかどうかを分析していきます。
再開発前後の通行量の変化についての分析
分析に使用するデータを読み込みます。
始めに、再開発前年の人流データを読み込みます。
# データの読み込み
# 初めに再開発工事前年の人流データの読み込み
bef_cons <- read_csv("bef_cons.csv")
次に、再開発着工年の人流データを読み込みます。
#次に、再開発着工年の人流データの読み込み
aft_cons <- read_csv("aft_cons.csv")
標本を抽出した再開発工事前年、および再開発工事着工年とも正規性は確認できましたが、等分散性は確認できませんでしたので、ウェルチの検定を行います。
検定に使用するデータを読み込みます。
# データの読み込み
two_years <- read_csv("two_years_2σ.csv")
ウェルチの検定を行います。
# ウェルチの検定
t.test(formula = 来訪者 ~ 年度, data = two_years )
ウェルチの検定
t.test(formula = 来訪者 ~ 年度, data = two_years )
data: 来訪者 by 年度
t = 2.3232, df = 111.24, p-value = 0.02198
alternative hypothesis: true difference in means between group 2023 and group 2024 is not equal to 0
95 percent confidence interval:
84.93899 1070.02303
sample estimates:
mean in group 2023 mean in group 2024
17036.04 16458.56
t値が2.3232で、p値が0.021(<0.05)ですので、帰無仮説:「再開発工事前後で通行量の平均値に差はない」が棄却されました。
したがって、再開発前後で通行量の平均値には有意な差があり、再開発着工年において通行量の減少があることが分かりました。
次回(第7回目)のテーマ
前半が長くなりましたので、「通行量の差が生じる要因についての分析」は次回(7回目)に回します。
天候要因を説明変数に、通行量を目的変数とした重回帰分析を行います。