1.はじめに
教育データセット(Kaggle: Students Performance in Exams)を対象に、
学力に影響する要因(性別・人種・家庭環境・準備状況など)を探索しました。
分析には Google Looker Studio を用いたダッシュボード構築と、
Pythonによる統計的検証を組み合わせ、実務に近い分析プロセスを再現しています。
(実務ではGCP未導入のため、Excelで分析しています。LookerStudioのほうが視覚的かつ機能的に充実していると感じています)
2. genderごとのスコア分布と教育水準別の構成比
genderごとの平均スコア(math/reading/writing)**を棒グラフで可視化
gender × parental level of education の組み合わせをツリーマップで可視化
※ Looker Studioではドラッグ&ドロップで簡単にグラフ化でき、基本的な切り口分析がすぐ可能
3.race/ethnicity・parental level of educationごとのスコア比較
race/ethnicityごとの平均スコアを縦棒グラフに
parental level of educationごとの平均スコアを縦棒グラフに
※ 学歴が高いほどスコアが高い傾向があることを確認
※ 人種グループ間でもスコア差が見られるが、データの偏り要因(サンプルサイズ)に注意が必要
4. lunch・test preparation courseとスコアの関係
lunch(standard vs free/reduced)ごとの平均スコアを棒グラフ
test preparation course(completed vs none)ごとの平均スコアを棒グラフ
Looker Studio の「スコアカード」で平均値差を表示
AVG(CASE WHEN lunch = 'standard' THEN math_score ELSE NULL END) - AVG(CASE WHEN lunch = 'free/reduced' THEN math_score ELSE NULL END)
※ 数式はGoogleスプレッドシートと同じような数式を使えばよい(ただし、初めに=がつかないなど異なる点もあることに注意)
※ lunchでは約11.1点の差、test preparation courseでは約5.62点の差が確認された。
→test preparation courseの平均値の差は有意差なのか?
5. 平均値の差は統計的に有意か?
Looker Studioでは「差がある」ことは分かるが、それが統計的に有意かどうかは確認できない。
そこでPython
(前回の記事参照:)
(Github)
で t検定 を実施(別に予測モデルも立てています)。
test preparation course の差は 統計的に有意(p < 0.05)
test preparation course が有意差 → test preparation courseの受講有無が学力に影響している可能性
※ BIで「気づき」、Pythonで「検証」する流れは実務でも重要
6.まとめ
Looker Studioで多角的なダッシュボードを構築し、データ傾向を把握
BIツールだけでなく、数式を用いた指標作成も実装
Pythonによるt検定で統計的な有意差を確認し、分析を深化
「BIで仮説を発見 → Pythonで検証」という分析サイクルを実践