もくじ
決定木分析ってなあに?
ざっくりまとめると、ある目的に対して関連の強い項目から順に分岐させ、ツリー状に表す分析手法です。
例えば、好きなキャラクターの画像を入力してキャラの属性を分析する場合だと、
髪の長さは?[長いor短い] > 肩幅は?[広いor狭い] > 付いてる?[あるorない] > 最終的に「これはおとこのこ!」
といった感じで一つの項目からどんどん分岐していき、最終的にたどり着いた場所から結論を導き出す。という分析手法のようです。
(つまりは、よくあるまったく参考にならない性格診断チャート的なイメージ。他にはアキネ〇ターなんかもそうですね。)
決定木分析の種類
大きく二つの手法があり、総称して「決定木(ディシジョンツリー)」と呼称されています。
個人的なイメージでは分類木はswich文、回帰木はif文という印象を受けました。
・分類木
もし○○なら△△or◇◇と答え、最終的な結論を出す手法。何かを分類したいときに主に使われます。
先ほど例に出した、おとこのこかどうか?や性格診断チャートなんかが当てはまりますね。
・回帰木
連続的なデータを分析する手法。先ほどの例で当てはめると
「髪の長さが何cm以上か?」「肩幅は何cm以下か?」> 最終的なおとこのこ率n%!
のように数字でデータを線引きするような感じで分類する際に使うことが多いようです。
メリット
可視化しやすい。
これに関しては説明するまでもないとは思うのですが、結果がチャート表のような感じや樹形図の形にしたりと、一目見て理解できる形にできるのはこれ以上ない程のメリットですね。数学や分析の知識に乏しくても、表にしてしまえば何が起きているのかをざっくり理解することができます。つまりはデータの解釈がしやすいとも言えますね。
データの型に依存しにくい。
感のいい方は気が付いたかもしれませんが、今回の例で出した文字としての情報だけでなく、画像や数字データ、音声等だいたいどんな形式の物でも分析することができてしまいます。
発展形
アンサンブル学習
それぞれ、得意が違う決定木を集めて学習を行う手法です。
これに関してはまた別途で記事を書くつもりです。
ランダムフォレスト
アンサンブル学習の発展系で、簡単に言ってしまえば複数の決定木を集めて多数決させる手法です。
分類木Aと分類木Bと回帰木αの三つのうち2が結果Nを出したから最終結果はN!といった感じですね。
ひとつの面からの分析からではなく、多角的な複数の決定木を用意することでより精度の高い分析をすることができます。
記事作成:K&Q