ホールドアウト法におけるデータオーギュメンテーションの仕方
解決したいこと
機械学習におけるデータ生成についてです。
0~24までのクラスがあり、各クラス
[67, 7, 13, 3, 42, 9, 34, 26, 18, 2, 32, 2, 14, 9, 54, 10, 2, 4, 3, 2, 4, 2, 5, 1, 2] (総数 367枚)
枚の画像(物体の輪郭内を白塗りした白黒画像)が含まれているとします。
今のところはこのうち
[54, 5, 9, 2, 34, 7, 27, 21, 15, 1, 26, 2, 12, 7, 44, 8, 2, 3, 2, 2, 3, 2, 4, 1, 2] (総数 295枚)
枚を訓練データとして手作業で分けて使用しています。
これを不均衡データとして、オーギュメンテーション(ぼかし)による水増しを行う場合、一般的にはどのように水増しを行うのでしょうか。
発生している問題
現在は訓練データを
[54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54] (総数 1350枚)
として、全クラスで同じデータ数になるようにクラス内で水増しを行っています。
しかしこの場合、訓練データの総数は1350枚であるのに対しテストデータは水増ししないので、367 - 295 = 72枚 となり、テストデータが極端に少なくなってしまい、正当に評価できないという心配があります。
実際、現在はこちらにデータを使用し学習を行うと、2エポック目からしばらくずっとlossとval_lossが0.000e-00になり、accとval_accに関しても100%になります。
訓練データだけをオーギュメンテーションするため、テストデータが極端に少なくなるのはしょうがない現象だと思うのですが、精度が良すぎてデータの生成方法に不備があるのではないか(この水増しの仕方で本当に大丈夫なのか)と思い、質問させていただきました。