Albumentationsとは
- https://github.com/albumentations-team/albumentations
- 機械学習用データ拡張用Pythonライブラリ
- Data augmentationでよく使われる機能が豊富に揃っている
pip install albumentations
この記事
- 50程のAugmentationをひたすらパラメータとかを変えながら動作を確認した
- version 0.4.6
-
テスト用に書いたノードブック(Jupyter, Colab)
- 画像を用意すれば全部同じように確認できます
ボカす系 (Blur)
Blur
- ランダムサイズのカーネルでボカす
- blur_limit (int) – ブラーの最大カーネルサイズ。 Default: (3, 7)
MotionBlur
- ランダムなカーネルサイズでモーションブラー(ボックスフィルタ)をかける
- blur_limit (int) – ブラーの最大カーネルサイズ。Default: (3, 7).
GaussianBlur
- ランダムなカーネルサイズでガウシアンフィルタをかける
- blur_limit (int) – ブラーをかけるカーネルサイズの最大値、奇数である必要がある。Default: (3, 7).
GlassBlur
- グラスノイズ(曇りガラスのような効果)を付加
- sigma (float) – ガウシアンカーネルの標準偏差。 Defalt: 0.7.
- max_delta (int) – スワップされる画素間の最大距離。. Defalt: 4.
- iterations (int) – リピート回数。Default: (2).
- mode (str) – 計算モード。Fastかexact。Default: “fast”.
ノイズ系 (Noise, Compression)
GaussNoise
- ガウスノイズを付加
- var_limit ((float, float) or float) – ノイズ分散。Default: (10.0, 50.0).
- mean (float) – ノイズ平均。 Default: 0
JpegCompression
- Jpegの圧縮ノイズを適用
- quality_lower (float) – 品質の下限値。
- quality_upper (float) – 品質の上限値。
ImageCompression
- Jpeg/WebPの圧縮ノイズを適用
- quality_lower (float) – 品質の下限値。
- quality_upper (float) – 品質の上限値。
- compression_type (ImageCompressionType) – 圧縮タイプ(JPEG/WEBP)。should be ImageCompressionType.JPEG or ImageCompressionType.WEBP. Default: ImageCompressionType.JPEG
ISONoise
- カメラセンサーのノイズを付加する
- color_shift (float, float) – 色相変化量。
- intensity ((float, float) – 色・輝度ノイズの強さ。
MultiplicativeNoise
- 乱数配列と乗算する
- multiplier (float or tuple of floats) – 乗算する数値の範囲。 Default: (0.9, 1.1).
- per_channel (bool) – False:すべてのチャンネルで同じ、True:各チャンネルのサンプル値を使用。 Default False.
- elementwise (bool) – False:画像内のすべての画素に乗算、True:画素単位でランダムにサンプリングして乗算。 Defaule: False.
Downscale
- ダウンスケールした後にアップスケールして画質を低下させる
- scale_min (float) – スケールの下限値。 Should be < 1. Default: 0.25.
- scale_max (float) – スケールの上限値。 Default: 0.25.
単純幾何変化系 (Flip, Crop, Rotate, Scale, Transpose)
Flip
- 水平、垂直、または水平と垂直の両方のどれかにランダムに反転
VerticalFlip
- x軸を中心に垂直に反転
HorizontalFlip
- y軸を中心に水平に反転
Crop
- 領域を切り取る
- x_min (int) – 左上x座標の最小値。
- y_min (int) – 左上y座標の最小値。
- x_max (int) – 右下x座標の最大値。
- y_max (int) – 右下y座標の最大値。
RandomCrop
- ランダムに切り取る
- height (int) – 切り取る高さ。
- width (int) – 切り取る幅。
CenterCrop
- 中心部分をクロップする
- height (int) – クロップする高さ。
- width (int) – クロップスする幅。
RandomSizedCrop
- ランダムに切り取り、特定の大きさにリスケールする
- min_max_height ((int, int)) – クロップサイズの範囲。
- height (int) – リサイズ後の高さ。
- width (int) – リサイズ後の幅。
- w2h_ratio (float) – クロップのアスペクト比。 Default: 1.0.
RandomResizedCrop
- ランダムに切り取り、特定の大きさにリスケールする(Torchvisionのバリアント)
- height (int) – リサイズ後の高さ。
- width (int) – リサイズ後の幅。
- scale ((float, float)) – クロップする領域のサイズの範囲。 Default: (0.08, 1.0).
- ratio ((float, float)) – クロップする領域のアスペクト比の範囲。 Default: (0.75, 1.3333333333333333).
Rotate
- ランダムな角度で回転させる
- limit: 角度の範囲、単一数値の場合は(-limit, limit)。 Default: (-90, 90)
RandomScale
- 画像サイズをランダムに変更する
- scale_limit ((float, float) or float) – 拡大縮小率の範囲 (0が変化なしなので注意). Default: (0.9, 1.1).
※同じサイズでプレビューされているので見た目にはわからないが元の画像サイズが変わっている
RandomRotate90
- ランダムに90°単位で回転させる
Transpose
- 行と列を入れ替えて転置
高度幾何変換系 (Affine, Distortion)
ShiftScaleRotate
- ランダムにアフィン変換を適用する(平行移動、拡大縮小、回転)
- shift_limit: 平行移動の範囲。Default: (-0.0625, 0.0625)。
- scale_limit: 拡大縮小率の範囲 (0が変化なしなので注意)。Default: (-0.1, 0.1).
- rotate_limit: rotation range. 回転の範囲。 Default: (-45, 45).
OpticalDistortion
- 光学的な歪みを再現する
- distort_limit (float, (float, float)) – 歪みの範囲。Default: (-0.05, 0.05).
- shift_limit (float, (float, float))) – シフトする範囲。Default: (-0.05, 0.05).
- Bounding BoxとKeypointsには適用できない
GridDistortion
- Grid歪みを再現する
- num_steps (int) – 各辺のグリッドセルの数を指定。Default: 5.
- distort_limit (float, (float, float)) – 歪みの範囲。Default: (-0.03, 0.03).
- Bounding BoxとKeypointsには適用できない
ElasticTransform
- 弾性変形
- alpha (float) – 変形パラメータ. Default: 1.
- sigma (float) – ガウシアンフィルタパラメータ。 Default: 50.
- alpha_affine (float) – alpha_affineの範囲。 Default: 50.
- Bounding BoxとKeypointsには適用できない
RandomGridShuffle
- ランダムにグリッドのセルをシャッフルする
- grid ((int, int)) – 画像を分割するグリッドのサイズ。Default: (3,3).
- Bounding BoxとKeypointsには適用できない
色いじる系
HueSaturationValue
- ランダムに色相、彩度、輝度を変える
- hue_shift_limit ((int, int) or int) – 色相の範囲。Default: (-20, 20).
- sat_shift_limit ((int, int) or int) – 彩度の範囲。Default: (-30, 30).
- val_shift_limit ((int, int) or int) – 輝度の範囲。Default: (-20, 20).
RGBShift
- ランダムにRGBの各チャンネルの値を変える
- r_shift_limit ((int, int) or int) – Redチャネルの変化範囲。Default: (-20, 20).
- g_shift_limit ((int, int) or int) – Greenチャネルの変化範囲。Default: (-20, 20).
- b_shift_limit ((int, int) or int) – Blueチャネルの変化範囲。Default: (-20, 20).
ChannelShuffle
- RGBのチャンネルをランダムに並べ替える
ChannelDropout
- ランダムにチャンネルをドロップする
- channel_drop_range (int, int) – ドロップするチャンネル数の範囲。
- fill_value (int, float) – ドロップされたチャンネルを代わりに埋める画素値.
Posterize
- 各色チャンネルのビット数を減らす
- num_bits ((int, int) – ビット数の範囲。Default: 4.
ToGray
- RGB画像をグレースケールに変換する
ToSepia
- セピアフィルタを適用する
輝度やコントラストいじる系
InvertImg
- 画素値を反転させる
Normalize
- 画素値を255で除算→チャンネルごとの平均値を減算→チャンネルごとの標準偏差で除算
- 平均値と標準偏差は単なるパラメータに過ぎず内部で暗黙に計算されない
- mean (float, list of float) – 平均値。Dafault: (0.485, 0.456, 0.406).
- std (float, list of float) – 標準偏差。Dafault: (0.229, 0.224, 0.225).
- max_pixel_value (float) – 画素値の最大値。Dafault: 255.0
RandomGamma
- ランダムにガンマ変換をかける
- gamma_limit (float or (float, float)) – ガンマの上限値。Default: (80, 120).
RandomBrightness
- ランダムに明るさを変える
- limit ((float, float) or float) – 明るさの変化範囲。Default: (-0.2, 0.2).
RandomContrast
- ランダムにコントラストを変える
- limit ((float, float) or float) – コントラストの変化範囲。Default: (-0.2, 0.2).
RandomBrightnessContrast
- ランダムに明るさとコントラストを変える
- brightness_limit ((float, float) or float) – 明るさの変化範囲。Default: (-0.2, 0.2).
- contrast_limit ((float, float) or float) – コントラストの変化範囲。Default: (-0.2, 0.2).
- brightness_by_max (Boolean) – コントラストの調整方法。Default: True.
CLAHE
- コントラスト制限適応型ヒストグラム均等化
- clip_limit (float or (float, float)) – コントラスト制限の上限閾値。Default: (1, 4).
- tile_grid_size ((int, int)) – ヒストグラム均等化のためのグリッドサイズ。Default: (8, 8).
Solarize
- 閾値以上の画素値を反転させる(ソラリ)
- threshold ((int, int) or int, or (float, float) or float) – 反転の閾値。Default: 128.
Dropout系
Cutout
- 矩形領域の粗いDropout
- num_holes (int) – ゼロに落とす領域数。Defalt: 8.
- max_h_size (int) – 領域の最大高さ。Defalt: 8.
- max_w_size (int) – 領域の最大幅。Defalt: 8.
- fill_value (int, float, lisf of int, list of float). 落とした領域の画素値。Defalt: 0.
CoarseDropout
- 矩形領域の粗いDropout(最小値も指定可能)
- max_holes (int) – ゼロに落とす領域数の最大数。
- max_height (int) – 領域の最大高さ。Defalt: 8.
- max_width (int) – 領域の最大幅。Defalt: 8.
- min_holes (int) – ゼロに落とす領域数の最小数。Default: None.
- min_height (int) – 領域の最小高さ。Default: None.
- min_width – 領域の最小幅。Default: None.
- fill_value (int, float, lisf of int, list of float). 落とした領域の画素値。Defalt: 0.
天候変化・環境・光学再現系
RandomSnow
- 雪をシミュレートする
- snow_point_lower (float) – 雪の下限値。Default: 0.1.
- snow_point_upper (float) – 雪の上限値。Default: 0.3.
- brightness_coeff (float) – 値が大きいと雪が多くなる。Should be >= 0. Default: 2.5.
RandomRain
- 雨のエフェクト
- slant_lower – 斜め下具合。Default: -10.
- slant_upper – 斜め上具合。Default: 10.
- drop_length – 雨の長さ。Default: 20.
- drop_width – 雨の幅。Default: 1.
- drop_color (list of (r, g, b)) – 雨線の色。Default: (200, 200, 200).
- blur_value (int) – 雨粒のブラー。Default: 7.
- brightness_coefficient (float) – 明るさ。Default: 0.7.
- rain_type – 雨のタイプ。[None, “drizzle”, “heavy”, “torrestial”]. Default: None.
RandomFog
- 霧をシミュレートする
- fog_coef_lower (float) – 霧の強度の下限。
- fog_coef_upper (float) – 霧の強度の上限。
RandomSunFlare
- 太陽フレアをシミュレートする
- flare_roi (float, float, float, float) – フレアが現れる領域 (x_min, y_min, x_max, y_max)。
- angle_lower (float) – 角度の下限値.
- angle_upper (float) – 角度の上限値.
- num_flare_circles_lower (int) – フレアの数の下限。
- num_flare_circles_upper (int) – フレアの数の上限。
- src_radius (int) – フレアの半径。
- src_color ((int, int, int)) – フレアの色。
RandomShadow
- 影をシミュレートする
- shadow_roi (float, float, float, float) – 影が現れる領域 (x_min, y_min, x_max, y_max)。
- num_shadows_lower (int) – 影の数の下限。
- num_shadows_upper (int) – 影の数の上限。
- shadow_dimension (int) – 影ポリゴンの辺の数。
他
FancyPCA
- FancyPCAでの拡張
- alpha (float) – 固有ベクトルと固有値をどの程度スケールするか。
PadIfNeeded
- 所望の解像度にするために画像端をパディングする
- min_height (int) – 画像高さの最小値。Default: 1024.
- min_width (int) – 画像幅の最小値。Default: 1024.