Python
K-means
主成分分析
sklearn

偏差値以外の観点で大学を選んでみる

More than 1 year has passed since last update.


はじめに

僕が高校生だったとき、どの大学を受験するかは自分の偏差値をベースに考えた。

以下のような表が高校の教室の後ろに貼ってあって、それを見ながら志望校を決めた気がする。

まぁ、妥当な決めかただったと思うけど、もっと違う軸で大学を見てみても面白かったかなと今更思って、今回は機械学習の勉強がてら違うパラメータで大学を見てみたいと思う。

国公立大学偏差値表


進学に大事な要素

今回は、私の独断と偏見で以下の4つの要素で大学を評価する。


  • 将来のお給料


    • 理由:大事だよね(笑)

    • パラメータ:卒業生の平均年収

    • ソース:DODA



  • 男女比


    • 理由:キャンパスライフの充実度はこれに尽きる!

    • パラメータ:学生の男女比

    • ソース:パスナビ



  • 授業料


    • 理由:奨学金もらうひともいるしね

    • パラメータ:入学初年度の授業料の平均

    • ソース:パスナビ



  • 大学が都会にあるか田舎にあるか


    • 理由:バイトするにしてもデートするにしても就活するにも都会の方がいいよね

    • パラメータ:大学の本部所在地がある市町村の人口密度

    • ソース:wikipedia




データ

以下は自分でスクレイプしたデータ。今回は、これを利用する。合計124大学。

university_data_with_header.csv


手法

上記のように大事な要素が4個あって可視化しにくいので、まず次元を減らすために主成分分析する。

そのあと良さげな感じにグループ分けするためにK-meansを使う。

実装はこちら


結果

university_pca.png

主成分分析の結果は、第一主成分が0.40646819で第二主成分は0.24849364の寄与率。微妙。。

k-meansのCluster数は5個が一番しっくりきたのでそれで。

以下がクラスタごとの特徴。


  • クラスタ0(青)


    • 特徴:女子率が高い系な私立大学。薬科大学も多い。授業料高め。

    • 主な大学:東邦、昭和、学習院、ICU、東京薬科大 etc



  • クラスタ1(オレンジ)


    • 特徴:地方で授業料やすい系大学。地方国公立など。金銭的に親孝行な進路。下に飛んでる点は京都府立大学(女子率高)。

    • 主な大学:筑波大学、千葉大学、弘前大学、信州大学 etc



  • クラスタ2(緑)


    • 特徴:都会で将来の年収も多い系大学。上に2個突き出てる点は、東工大と東大。

    • 主な大学:東大、一橋、東工大、慶應、早稲田 etc



  • クラスタ3(赤)


    • 特徴:中堅都市の私立大学。男女比もまあまあ。

    • 主な大学:日本大学、中央大学、上智大学、明治学院大学 etc



  • クラスタ4(紫)


    • 特徴:政令指定都市などの国公立大学。年収もまずまず。一番左の飛んでる点は防衛大。

    • 主な大学:京都大学、東北大学、埼玉大学、九州大学 etc



詳しい結果はこちら


どの大学に進学すべき?

主成分分析&K-meansしなくてもわかることだが、、


  • 薬科大学は女子の比率も給料も高いのでやはりそこが安パイ(授業料も高いけど)

  • 金銭的にリーズナブルな所を選ぶなら、地方国公立。

  • 年収高めをめざすなら、国公立。


まとめ


  • 年収、男女比、授業料、都会度を入力にして主成分分析 + Kmeansした

  • 累積寄与率は0.654961831763とそんな高くない

  • 年収はMINとMAXでそんなに差がないから結果にそこまで寄与してなさそう。

  • 個人的には、薬科大は授業料が高いけど女子率&年収も高いのでオススメ!

  • 特定の第一志望校がある場合、同じクラスタの大学を併願しても良いかも!(レコメンドっぽいこと)