infoMore than 3 years have passed since last update.
機械学習のデータ(テキストor画像)前処理手法一覧 - 備忘録
Last updated at Posted at 2019-12-10
テキストデータ
- 特徴量選択
- 手動
- 統計量ベース
- データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
- モデルベース
- 日付データの処理
- 日付データをある時点からの経過時間のデータに変更する
- 例:2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
- カテゴリ変数のフラグ化
- 次元圧縮
- データの分散の変換(http://ailaby.com/scaler/)
- 標準化
- 列方向を基準に「平均が0、標準偏差が1」になるように変換
- 正規化
- 列方向を基準に「最低が0、最高が1」になるように変換
- 欠損値処理
- 不均衡データへの対応
- オーバーサンプリング
- アンダーサンプリング
- SMOTE
画像データ
- 画像選択
- 画像全体に対して被写体の占める割合が低い画像の排除
- 被写体の分類ごとの全体に占める割合の調整(Weightの調整で対応することも可能だが、極端に差が出ないように調整する)
- 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
- 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
- ヒストグラム平坦化
- 次元圧縮
- 枚数の増幅
- 反転画像の作成
- 回転画像の作成
- 色相変換画像の作成
- 縮尺変換画像の作成
- 平滑化
Register as a new user and use Qiita more conveniently
- You get articles that match your needs
- You can efficiently read back useful information
- You can use dark theme
What you can do with signing up