以下は、ある機械学習屋のボヤキである。
だれか、解決してくれる人がでてきてほしい。
サンプリング定理とは
標本化定理ともいう。
「標本化定理は、元の信号をその最大周波数の2倍を超えた周波数で標本化すれば完全に元の波形に再構成されることを示す。」
最大周波数の2倍を超えた周波数で標本化で十分であり、最大周波数の4倍の周波数で標本化(サンプリング)しても、追加で得られる情報はないことを意味する。
このことは、どこまでサンプリング頻度を高めれば十分なのかを言い切ってくれている。この定理があるからこそ、CDや時系列データの圧縮技術、DVD,Blu-ray, 動画配信が可能になっている。
機械学習に欠けているもの
その1: サンプリング定理に相当するものが不足している。
そのため、ポジティブサンプルをどれだけ密にサンプリングしなければならないのかを評価することができていない。
不足していること1:ポジティブサンプルのサンプリングの密度を計量する指標
不足していること2:その指標がどれくらいを上回っている(もしくは下回っていれば)、ポジティブサンプルの密度は十分なのかを判断する不等式。
その結果
- 学習結果の特徴量空間での連続性がどの程度確保されているのかがわからない。
- 敵対的なノイズを加えることで、推論を間違えさせることができるのは、そのような分類・検出の学習結果の連続性を確保できていないことを示している。
その2: サンプリングの空間の定義域の可視化
サンプリング定理の場合、関数の定義域がある。
しかし、機械学習の問題において、明確な定義域の存在するものは稀である。
学習のポジティブサンプルの定義域がどのようになっているのかがわからない。
例:自動車の検出
- 前方、側面、後方車両の自動車検出
- ドローンから検出する自動車検出
この2つの場合は、自動車の姿勢が異なる。すなわち、カバーする姿勢の定義域が異なっている。
しかし、現状の機械学習においては、個別のポジティブサンプルが与えられているだけで、どのようは範囲の定義域になっているかを知ることができない。
例:人検出の場合
- 人の目線の高さでの撮影画像での人検出
- 監視カメラなどの高い視点からの人検出
- エレベータなどの更に角度のある視点からの人検出
これらは、人検出としての定義域が異なる。
そのため、一方の用途の検出器は他方の用途には適さない。
検出器のモデルの比較をする際には、それがどのようなデータセットで訓練されているかを知ることだ。
(オープンのモデルの場合には、訓練データセットが公開されていることがある。
商用のモデルの場合だと、基本どのようなデータで訓練されているのかを知りようがない。
)
結果
ポジティブサンプルの定義域と、そのサンプリング密度がわからないため、ポジティブサンプルが十分な分布になっていることを確認できない。
お願い
- 機械学習の学習できている範囲を検証するポジティブサンプルの定義域を可視化できるような指標を見つけること。
- また、そのデータがどの程度の連続性を持っているのか、機械学習で十分な学習結果の再現性を満たすためには、どの程度を連続性を与えればいいのかを示す指標がほしい。
- 理論的な考察に腕の覚えがある人は、ぜひそのような理論を作ってほしい。
現状でのヒント
データの分布の可視化の取り組みには、t-SNE(=t分布型確率的近傍埋め込み法)
解説記事 t-SNEによる次元削減
パラメータの分布の連続性の確認
- 対象物によっては一部のパラメータが連続的に分布したり、離散的なパラメータがあったりする。
- 例:顔の見え方に対するパラメータ
- 回転角(roll, pitch, yaw)
- メガネの有無
- マスクの有無
- 学習データに対して、これらの分布を確認する。
CGデータによるパラメータ分布域の拡大
- CGデータを用いると、対象物の見え方の網羅性を改善できる。
- 例:顔の見え方に対するパラメータ
- 上記のパラメータの他に、以下のようなパラメータを増やすことができる。
− 光源の種類 - 光源の位置
- 顔の表情(口の開け具合など)
- 帽子の有無
- 髪型
こういったパラメータの組み合わせに対してCG画像をレンダリングしてデータを作ることで
実写だけではカバーしきれていない領域に対するデータを増やすことができる。
GANによるデータの分布域の拡大
- 実データに対するautoencoderは、実データをパラメータによって記述できるようにする。
- そのパラメータを元に逆に画像を生成させることができる。
- 単純に任意のパラメータで画像を生成させると、対象物らしくない画像を生成してしまう。
- そこで、対象物らしいものと対象物らしくないとを区別する。
- それがGANである。
- GANを使うと、学習させるデータの分布域を広げることができる。
このようにデータの分布域を広げることができる。
これらのようにデータの分布域の網羅性が重要なことがわかっている。
ただ、現状では、どのようにしたら、データの分布域・データの密度とを満たしているのかを確認するための
一般的な方法をまだ知らない。
追記(2023)
どうやら、期待する内容に近いのが、次のスライドの内容そうだ。
ある半径rでのサブセットで学習した場合の損失関数と
データセット全体を使って学習した場合の損失関数との差の絶対値が
右辺の値よりも小さくなるときに、
同等の性能が得られる。
Data-Centric AI - 関連する学術分野と実践例 のスライドから引用。
追記 2024.8.2
数式から自動生成した大規模画像データセットを用いて人工知能(AI)の画像認識モデル(学習済みモデル)を構築する手法
が発表されている。
このような手法によって、学習用のデータの分布が偏りが解消されるのではないか。
Replacing Labeled Real-image Datasets with Auto-generated Contours
https://hirokatsukataoka16.github.io/Replacing-Labeled-Real-Image-Datasets/
github