はじめに
ひつじ橋です🐑
今回と次回では,
決定木分析と重回帰分析を扱います.
どちらも, ビジネスで頻繁に利用されるアルゴリズムだそう.
これらは, 「教師あり学習」.
中でも, 「識別系」と「予測系」に分類されます.
決定木分析とは?
・・・決定木を用いた分析方法.
「決定木分析」で画像を検索すると, 心理テストなどに見られるような, Yes / Noのみで分かれたシンプルな樹形図が出てきます.
まさにこのイメージです!
①決定木分析の強み
1. みやすい
統計に精通していない人でも, 見てすぐに分析が可能です.
2. 前処理が少なく済む
決定木分析の分岐では, 値の大小などに基づいて振り分けられます.
そのため,
分布の考慮や, 変数変換などの処理が要らず楽!!
3. 分類と回帰の両方に対応!
さて,
ここで, 2つの予測方法を紹介します.
🌟分類・・・データがどのカテゴリーに続するか, を予測する手法.
個人的には, 『ア○ネーター』のイメージでいます.
🌟回帰・・・連続する値を予測する手法.
たとえば, 過去の売上データをもとに回帰直線し, これを利用して売上を予測したり...
(参考)
これらにはそれぞれ, 適する分析手法が異なります.
しかし, 決定木分析は
分類と回帰の両方に対応
しています!!
②決定木分析の弱み
1. 分岐の数に注意!
分岐の数が少なすぎると,
予測精度が低くなりすぎる場合があります.
逆に多すぎると,
過学習の危険があります.
WORD
🌟過学習・・・使ったデータにのみ適合しすぎて、新しいデータの予測精度が低くなること.
...
なんだかよく分からないですね🤦♀️
やはり『◯キネーター』で想像してみると,
・「日本人ですか?」
👉「教員ですか?」
👉「思い浮かべているのは Mr.UNI」
ではとても当たらないですよね.
・逆に, 「日本人」の「教員」の「白衣」の「男性」のみ試しすぎると,
その界隈にだけ無駄に詳しくなり, 他の人間のデータに疎くなりますよね.
2. 精度が高くなりにくい
アルゴリズムがシンプルすぎるために, 複雑なデータへの対応が難しいということです.
③活用できる場面
そんな決定木分析が輝ける舞台は...?
実際には, 主に
・顧客の行動予測
・ある事象の原因探索
に使われているようです.
(参考)
④Pythonで実装してみた
以下GitHubに置いてあります🔽
おわりに
今回は, 決定木分析の概要をまとめました.
次は重回帰分析です!