教師なし学習
- 教師となるラベル(もしくは目標値)なしで何らか(データの特性や確率分布等)の学習をするアルゴリズム
- タスクとしてはクラスタリングや次元削減など
k平均法(k-means)
- 教師なし学習
- クラスタリングの手法
- 与えられたデータをk個のクラスタに分類する
- 手順
- 各クラスタの中心の初期値を設定
- 各データ点に対し、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割り当てる
- 各クラスタの平均ベクトル(中心)を計算する
- クラスタの最割り当てと中心の更新を繰り返す
- kの値を変えるとクラスタリング結果も変わる
- 初期値が近いとうまくクラスタリングできない
- 改良版であるk-means++は最初の中心点を距離が遠いほど確率的に選ばれやすくするアルゴリズムを採用する
主成分分析(Principal Component Analysis)
- 教師なし学習
- 主成分(複数の変量を、相関のない少数で全体のばらつきを最も表すもの)を組み合わせて次元削減を行う
- 類似する(=相関性の高い)複数の説明変数を合成し、主成分とすることで次元削減を行う
- 特徴量を組み合わせて新たな特徴量を生成するのであり、既にある特徴量から一部を選択するという訳ではない
- 分散が最大になる(データの散らばりが残っている)ような次元圧縮を行う
- 分散が大きい順から第1主成分、第2主成分、…となる
- 主成分はノルム(長さ)が1になるように正規化する
- 主成分は互いに直交する
- 計算例: TBF
- ちなみに、因子分析も次元削減に利用される
- 因子分析とは、変数の背後にある潜在的な要因を発見する分析手法
- 変量間に存在する潜在要因を探し出して次元削減する
その他の教師なし学習
ウォード法
- k-meansと異なるクラスタリング手法としてウォード法がある
- k-meansと異なり、クラスタの階層構造を求めるまで行う
- 結果は樹形図(デンドログラム)として表される
協調フィルタリング
- リコメンデーションに用いられる手法
- ユーザー間の類似度を定義することで、類似度が高いユーザーが購入済みの商品を推薦する
- ただし、事前にある程度データがないと機能しないというコールドスタート問題がある
- 逆に商品側に特徴量を付与し、特徴が似ている商品を推薦するのはコンテンツベースフィルタリング
トピックモデル
- クラスタリングを行うが、トピックモデルでは複数のクラスタにデータを分類する
- 代表的なのが、潜在的ディリクレ配分法(LDA, Latent Dirichlet Allocation)