More than 3 years have passed since last update.

機械学習向けのデータ分割法４種

Last updated at 2021-07-04Posted at 2021-07-04

はじめに

機械学習のモデルを生成する際は、所持するデータを以下の２種（または３種）にきちんと分割して訓練及びテストを行う必要があります。

・訓練データ（Training data）
（・検証用データ（Validation data））
・テストデータ（Test data）

訓練データにテストデータが混じっていると、生成したモデルの性能を正しく評価することができなくなる可能性があります。そのため、あらかじめどのようにデータの分割を行うかを決めておく必要があります。
機械学習を行うための基礎知識として、データの分割によく使用する手法を４つ紹介します。

項番	項目
1	ホールドアウト法（Hold-out）
2	ランダムサブサンプリング（Random Subsampling）
3	交差検証（Cross-validation）
4	層化抽出法（Stratified Sampling）

最も初歩的な分割方法。
テストのためのデータを一定量確保しておき、残りのデータを訓練に使用する。

ランダムにデータを抽出して訓練データセットを構築し、抽出されなかったサンプルをテストに使用する方法。
データセットの構築とテストを複数回行い、全試行の平均を最終的な評価結果として採用する。
Hold-outよりも評価結果の信頼性を高めることができる。

① k分割交差検証（K-fold Cross-validation）

全てのデータがテストに使用されるため、ランダムサブサンプリングよりも評価結果の信頼性を高めることができる。

② 一個抜き交差検証（Leave-one-out Cross-validation）

サンプル数と同じだけデータをサブセットに分割をする交差検証。（k分割交差検証のkをデータ数とした場合と同じ。）
計算コストはかかるが、データを最大限活用することで評価結果の信頼性を高めることができる。

データを分割する際に、各クラスの比率を変えずに訓練及びテスト用データセットを構築する方法。
クラス間のデータの偏りを考慮してデータセットを構築することができる。

備忘録として、よく使用するデータ分割法を簡潔にまとめました。
また知識がアップデートされたら追記・更新します！