画像認識屋がキャリアを広げていくうえでおすすめなのが、機械学習全般もできるエンジニアになることだ。
そのためにおすすめする技術分野
- 主成分分析
- サポートベクターマシン
- クラスタリング
それぞれを勧める理由
- 主成分分析
主成分分析は、多数の変数がある分野で、線形の関係性から何らかの規則性を発見するためのものだ。
人は、多次元の空間で物事を考えることが苦手だ。
少ない次元で少ない変数で考えたほうが圧倒的に理解しやすい。
多次元の変数の分布の多くは、少ない数の主成分の累積寄与率で説明がつく。
そうすることで、物事を単純化することができる。
多くのパラメータのままモデルを作ると、学習データに対して過学習したモデルができやすい。
Scikit-learn の主成分分析
- サポートベクターマシン
2値判定、他値分類などの分類問題に対して、有効な手法だ。
サポートベクトルマシンでは、分類のマージンを十分に広くとろうとする性質があることも好まれる点だ。
主成分分析で、入力データの次元を減らしておいてから、それをサポートベクターマシンにで学習・推論するのは機械学習の常套手段だ。
分類の際に、その分類の確からしさの値を出力させることもできる。
サポートベクターマシンの利点:
分類問題で、少ない数の学習データでも良好な結果を得やすい。
ポジティブサンプル・ネガティブサンプルの境界付近のデータが学習に寄与するので、簡単すぎるデータを学習に加えすぎて、逆に性能がでなくなるという生じにくい。そのため、分類問題には使いやすい。
さらに、サポートベクターマシンには、回帰推定を行うバージョンもある。
Support Vector Machines
1.4.2. Regression - クラスタリング
サポートベクターマシンでは正解データを予め人が与えていた。教師あり学習ですね。
それに対して、クラスタリングでは、データそれ自体の中にある関係性によってクラスターを作る。そのため予め人が正解データを与えることがありません。教師なし学習
付記:対象とする分野が違えば、分析のしかたも変わる
ナイーブベイズ(単純ベイズ)
決定木
random forest
などがのぞましい場合もある。
付記:対象とする分野が違えば、分析のしかたも変わる(時系列データ)
時系列データには、時系列データに特徴的なアプローチがある。
- リカレントニューラルネットワーク
- 時系列データの季節変動・曜日による変動の除去をするよく使われるノウハウもあるだろう。
物理現象であって、線形の遅れ系を仮定できることがわかっているのならば、
なにも機械学習というアプローチをとらずに、通常の計測分野でのモデル化の手法をとればいい。