教育系データのLightGBMによる特徴量分析

Last updated at 2025-11-02Posted at 2025-09-18

概要

自己紹介: 教育分野でデータ分析をPythonで行っている教師（教師でPython分析する人は珍しい？）

課題: 実務で扱うデータをここでは使えないため、公開データで分析の練習と備忘録を兼ねて記録することにした。

記事の目的: 統計的検定と機械学習、両方の手法を適用した分析プロセスを共有し、そこから得られた学びを記録する。

コード：GitHub

使用データ: Kaggleの「Students Performance in Exams」を使用。

仮説: 「テスト対策講座の有無は、数学の点数に影響を与えるか？」という問いから分析を開始。

手法: Plotlyで視覚的に傾向を捉え、t検定でその差が統計的に有意かを検証。

結果: P値が極めて低く、有意な差があることを確認。（Pythonで書くとあっという間に計算できる）

目的: 点数に影響を与える要因を特定するため、LightGBMで予測モデルを構築。

モデル評価: MAEとRMSEで予測精度を確認し、モデルの信頼性を評価。

SHAPによる解釈: SHAP値を用いて、モデルがなぜそのように予測したのかを解明。reading scoreとwriting scoreが最も重要であることを発見した。（因果推論必須）

目的意識: 実務では明確に目的を決めて分析するが、公開データでは目的がブレやすいことを実感。分析の初めに「何を知りたいか」を明確にすることの重要性を再認識した。

今回の検証では、教育関連データを用いて複数手法の性能と特徴量寄与を比較した。
今後は以下の観点から、さらなる拡張する。

教育データを題材に、機械学習を“説明可能な分析手法”として活用することを目指している。