LoginSignup
1
2

More than 3 years have passed since last update.

機械学習のデータ(テキストor画像)前処理手法一覧 - 備忘録

Last updated at Posted at 2019-12-10

テキストデータ

  • 特徴量選択
    • 手動
      • 類似する列項目の削除
      • 関連性の低い列項目の削除
    • 統計量ベース
      • データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
    • モデルベース
      • RFE
  • 日付データの処理
    • 日付データをある時点からの経過時間のデータに変更する
    • 例:2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
  • カテゴリ変数のフラグ化
    • one-hotエンコーディング
  • 次元圧縮
    • 多次元配列構造のデータの次元削減
  • データの分散の変換(http://ailaby.com/scaler/)
    • 標準化
      • 列方向を基準に「平均が0、標準偏差が1」になるように変換
    • 正規化
      • 列方向を基準に「最低が0、最高が1」になるように変換
  • 欠損値処理
    • 欠損値補完
      • 平均値で補完
      • 中央値で補完
    • 欠損値を含む行の削除
  • 不均衡データへの対応
    • オーバーサンプリング
    • アンダーサンプリング
    • SMOTE

画像データ

  • 画像選択
    • 画像全体に対して被写体の占める割合が低い画像の排除
    • 被写体の分類ごとの全体に占める割合の調整(Weightの調整で対応することも可能だが、極端に差が出ないように調整する)
      • 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
      • 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
  • ヒストグラム平坦化
  • 次元圧縮
    • 二値化
  • 枚数の増幅
    • 反転画像の作成
    • 回転画像の作成
    • 色相変換画像の作成
    • 縮尺変換画像の作成
  • 平滑化
1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2