目次
1.はじめに
2.教師あり学習について
3.分類問題
ここから本題↓
4.サポートベクターマシン
5.ランダムフォレスト
6.おまけ 決定木の特徴
はじめに
今回は教師あり学習の特に分類問題について解説しようと思います。
特に
- サポートベクターマシン
- ランダムフォレスト
についてフォーカスします。
まず教師あり学習について
まずは少しだけ
- 回帰問題
- 分類問題
この2つについて軽くおさらいしておきましょう。
回帰問題
回帰問題とは予測する値が連続値である場合これに該当します。
分類問題
これはさらに2値分類、多値分類に分けることができます。
すなわち予測する値が0 or 1のとき分類問題といえます。これを特に2値分類といいます。
また0 or 1の2つのラベルではなく3つ以上に増えたときに特に多値分類と呼ばれるものになります。
さて次から本格的に分類問題について考えてみようと思います。
分類問題
上図のように二次元平面上のデータを直線で分けられる場合を線形分離可能といい、そのアルゴリズムを線形分類器といいます。
有名なものとしては以下のようなものが挙げられます。
- 単純パーセプトロン
- 線形サポートベクタマシン
- ロジスティック回帰
etc.
また一般に図2のように直線を組み合わせて考えることが多いのも事実です。このような線形ではない形で分類するアルゴリズムを非線形分類器といいます。有名なものは
- k-近傍法
- 決定木(分類木)
- ランダムフォレスト
- 非線形サポートベクターマシン
- ニューラルネットワーク
etc.
があります。
【SVMとランダムフォレスト】
少し前置きが長くなりましたが、それぞれ説明致します。
サポートベクターマシン
境界線を作り最適な超平面を見つけ出す
まずSVMのアルゴリズムの目的としてはあるクラスのデータを、別のクラスのデータからできる限り距離を取ることを指します。
例えば図を書くを下図のようになります。
図3をご覧ください。この場合の青い破線の中に書かれている矢印をMarginといいます。この距離が最大になるようにサポートベクターマシンは学習を進めていきます。
ランダムフォレスト
決定木の集まりがランダムフォレスト
木が集まって森になるのは言葉として面白いですね。
ランダムフォレストはアンサンブル学習の中でもバギングを用いたアルゴリズムです。
アンサンブル学習とは
察しのいい人ならお気づきかも知れません。
アンサンブル学習とは複数の学習器を組合わせた1つのモデルのことを言います。
アルゴリズムの世界でも3人寄れば文殊の知恵なわけですね。
バギングとは
モデルの予測結果のバリアンスを低くすることで予測精度の改善をする手法のことを言います。
バギングでは重複を許して学習データを復元抽出することでデータに多様性をもたせることを言います。
すなわちランダムフォレストとは、決定木を組合わせ多様性を持たせたアルゴリズムだと言えます。
ちなみに
決定木の特徴
決定木は説明力が高いことが知られています。
すなわち重要な特徴量がわかるということです。
それがどうした。というわけですが、これはビジネスで非常に重要です。
ビジネスでは超精度のアルゴリズムより理論付けられた提案をするほうが重要です。
つまりどの変数が重要かわかりやすいため説得力をもたせやすいという点が決定木の特徴であり、強みであると言えます。
専門でなくともわかりやすい長所があるので、ビジネスでは+αで決定木も実装できると良いかも知れませんね。
ここまで読んで頂きありがとうございます。
ぜひ、いいねとブックマークしていただけると嬉しいです。