More than 5 years have passed since last update.

機械学習のデータ（テキストor画像）前処理手法一覧 - 備忘録

Last updated at 2019-12-22Posted at 2019-12-10

テキストデータ

特徴量選択
- 手動
  - 類似する列項目の削除
  - 関連性の低い列項目の削除
- 統計量ベース
  - データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
- モデルベース
  - RFE
日付データの処理
- 日付データをある時点からの経過時間のデータに変更する
- 例：2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
カテゴリ変数のフラグ化
- one-hotエンコーディング
次元圧縮
- 多次元配列構造のデータの次元削減
データの分散の変換(http://ailaby.com/scaler/)
- 標準化
  - 列方向を基準に「平均が0、標準偏差が1」になるように変換
- 正規化
  - 列方向を基準に「最低が0、最高が1」になるように変換
欠損値処理
- 欠損値補完
  - 平均値で補完
  - 中央値で補完
- 欠損値を含む行の削除
不均衡データへの対応
- オーバーサンプリング
- アンダーサンプリング
- SMOTE

画像選択
- 画像全体に対して被写体の占める割合が低い画像の排除
- 被写体の分類ごとの全体に占める割合の調整（Weightの調整で対応することも可能だが、極端に差が出ないように調整する）
  - 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
  - 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
ヒストグラム平坦化
次元圧縮
- 二値化
枚数の増幅
- 反転画像の作成
- 回転画像の作成
- 色相変換画像の作成
- 縮尺変換画像の作成
平滑化