TLDR: 不確実性をモデリングする重要性は医療などのモデルの正確性が重大な影響を及ぼす際に重要になる。その不確実性は(i)おおまかに知識の欠如に由来するが、適切な知識の追加により減らすことのできるEpistemic Uncertaintyと、(ii)ノイズに由来する減らすことのできないAleatoric uncertaintyに分けられる。このモデリングの方法は頻度論者やベイジアンなど学派によって多岐にわたり、問題設定によっても多岐にわたる。ガウス過程での例を挙げると、クエリ点のConfidence Boundが不確実性の総和の目安としてみれるので、ノイズの大きさ(Aleatoric Uncertainty)を考えることで、残りの不確実性はEpistemic Uncertaintyと見られる。この点で言えば、Aleatoric Uncertainty自体は減らせなくとも、減らせるEpistemic Uncertaintyを定量化するのに役立ち、結果的にそれを減らすことにリソースを割り当てることができそうだ。
以下のメモは、以下のサーベイ論文を読みながら、自分の質問に対する答えを学習の過程で書いてみたものです。
Aleatoric and epistemic uncertainty in machine learning: an introduction to concepts and methods (Eyke Hüllermeier & Willem Waegeman)
前提
- Epistemic Uncertainty (Systematic Uncertaintyとも呼ばれる)
- 意思決定をするエージェントの知識の欠如
- この不確実性は適切な知識を足すことで減らすことができる
- Aleatoric Uncertainty (Intrinsic Uncertainty, Statistical Uncertaintyとも呼ばれる)
- ランダム性に由来する不確実性
- この不確実性を減らすことは難しい
Epistemic Uncertaintyはreducibleな不確実性の部分である一方、Aleatoric Uncertaintyはirreducibleな不確実性であると述べられている。
自分の持っている疑問とそれに対するおおまかな回答
-
Q1 - 定量化するとはどういうことか?
- 実は機械学習でこれらの不確実性をモデリングするのには様々なやり方がある。Figure 11にまとめられているように、たとえば、frequentist vs Bayesianの人々でモデリングのやり方は違うことがわかる
- 数多くの例の中でもガウス過程(GP)の例がSection 4.4に述べられている。GPでPredicative UncertaintyがConfidence Boundで定量化される。GPでの任意のクエリ点のpredicative uncertaintyが、そこでの不確実性の総和であると考えられるらしい。このBoundの$\sigma$はノイズとして寄与するので、Aleatoric Uncertaintyとして考えられ、前述の不確実性から$\sigma$を除いたものが、Epistemic Uncertaintyとなるようだ。
- ここで思ったのは、Epistemic Uncertaintyを定量化することは、Aleatoric Uncertaintyを計算する、つまりノイズの大きさを計算することが必要になるようだ。
-
Q2 - Aleatoric Uncertaintyを減らすのが難しい場合、なんでわざわざ定量化するのか?
- 上のサーベイ論文では、この不確実性はirreducibleであると述べられている
- ただ、上述のようにGPの不確実性の定量化の際に、Aleatoric Uncertaintyを推定することで、Predictive Uncertaintyの総和から、Epistemic Uncertaintyがわかるので、少なくとも知識を与えることにより減らせうる、おおまかな期待がわかるので、そこから精度を上げる努力にどれくらいのリソースを割くべきか、などが分かるかもしれない
あくまで部分的にサーベイ論文を読んで、自分の質問に対するおおまかな回答をしてみたので、私の書いたメモ書きの正確性は保証できません。上でまとめた例もガウス過程の部分なので、Uncertainty Quantificationという広いトピックをカバーはしていません。間違い等ありましたら、コメントでフィードバックお願いいたします :)
また気が向いたらメモを書きます。
次に読んでみたい論文
上記のサーベイ論文で言及されていた、医療分野でEpistemic/Aleatoricを区別することの有用性について書かれた次の論文に興味が湧きました。また時間があれば読んでみたいです。