読書
機械学習
パターン認識
パターン認識と機械学習

「パターン認識と機械学習」の読書メモ(1.1)

More than 1 year has passed since last update.


はじめに


第1章 序論


はじめに


  • パターン認識


    • 学問分野として、計算機アルゴリズムを通じてデータの中の規則性を自動的に見つけ出し、さらにその規則性を使ってデータを異なるカテゴリに分類する、というようなデータ処理を行うことに関連している。
         



  • 機械学習


    • 基礎


      • 訓練集合


        • モデルのパラメータを適応的に調節するための集合。ラベル付けされている。



      • 目標ベクトル


        • 1つ1つのカテゴリを表現する





    • 流れ


      • 訓練段階・学習段階


        • 入力を入れると、目標ベクトルと符号化の等しい出力ベクトルが出力される

        • テスト集合を入れるとカテゴリを決められる。

        • 汎化:カテゴリを決められる能力。パターン認識における中心的な課題。



      • 前処理(特徴抽出)


        • 問題を解きやすくするために、入力変数を新しい変数に変換すること。

        • 精度の向上、計算の高速化を目的とする。





    • 種類


      • 教師あり学習


        • 入力ベクトルとそれに対応する目標ベクトルの事例で構成される問題



      • 教師なし学習


        • 訓練データが入力ベクトルのみで対応する目標値が存在しないパターン認識の問題


          • クラスタリング

          • 密度推定

          • 視覚化





      • 強化学習


        • ある与えられた状況下で、報酬を最大にするような適当な行動を見つけるという問題。

        • 最適な出力は試行錯誤を通じて学習アルゴリズム自らそれを発見しなければならない。

        • 信頼割り当ての問題


          • 報酬に結びついた全ての行動に対し、報酬を適切に割り当てる問題





      • 探査と知識利用のトレードオフ


        • 探査


          • 新しい種類の行動がどれくらい有効であるかを試す



        • 知識利用


          • 高い報酬が得られることが分かっている行動をとる



        • 探査と知識利用のどちらかに偏りすぎると性能が落ちる








1.1 例:多項式曲線フィッティング


  • 目標


    • 訓練集合を利用して、新たな入力変数の値 x^ に対して目標変数 t^の値を予測すること

    • 難い理由


      • 有限個のデータ集合から汎化しなければならない

      • 観測データはノイズが乗っており、与えられたx^に対するt^の値には不確実性あり

      • 確率論を用いて不確実性を厳密かつ定量的に表現する





  • 曲線フィッティングに基づく単純なアプローチ


    • 多項式 y(x,W)


      • xの非線形関数

      • 係数Wの線形関数

      • 未知のパラメータに関して線形であるような関数は重要



    • 訓練データに多項式を当てはめて係数を求める


      • 誤差関数の最小化で達成できる

      • 誤差関数

      • 関数y(x,W)の値と訓練集合のデータ点との間のズレを図るもの

      • 広く用いられるのは二乗和誤差


        • 非負。0になるのはy(x,W)が全訓練データ点をちょうど通るときのみ。



      • 誤差関数を微分することで最小を求められる。

      • 誤差関数は係数Wの二次関数のため、微分はWの要素に関して線形。



    • 多項式の次数Mを選ぶ問題



      • 次数が小さすぎると予測としては不適当

      • 次数が大きすぎると、訓練データには非常によく当てはまるものの予測としては不適当(過学習)

      • モデル比較・モデル選択

      • 汎化性能がMにどう依存するかを定量的に評価する

      • 独立したテスト集合を、訓練集合と同じやり方で生成

      • 平均二乗平方根誤差 ERMS


        • Nで割ることでサイズの異なるデータ集合を比較することができる

        • 平方根をとることで、ERMSは目的変数tと同じ尺度であることが保証される





    • モデルの次数を固定しデータ集合のサイズを変えた時の振る舞い


      • データ集合のサイズが大きくなるにつれて過学習の問題は深刻でなくなる

      • データ集合を大きくすればするほど、より複雑で柔軟なモデルをデータに当てはめられる



    • 入手できる訓練集合のサイズに応じてモデルのパラメータの数を制限するのは納得できない、モデルの複雑さはむしろ解くべき問題の複雑さに応じて選ぶのが最も


      • 最尤推定

      • ベイズ的アプローチ



    • 正則化


      • 過学習の現象を制御するために使われるテクニック

      • 誤差関数に罰金項を付加することで、係数が大きな値になることを防ぐ

      • 単純なものは係数を二乗して和をとったもの

      • 呼び方

      • 統計学では縮小推定と呼ぶ

      • 二次の正則化をリッジ回帰

      • ニューラルネットワークの文脈では荷重減衰



    • 誤差関数を最小にするようなアプローチで実際の応用問題を解こうとする最には、モデルの複雑さを適切に決める方法を見つけなければならない