この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
Deep Evidential Regression
Author: Alexander Amini, Wilko Schwarting, Ava Soleimany, Daniela Rus
前: 【2 Modelling uncertainties from data】
次: 【4 Experiments】
3 Evidential uncertainty for regression
訳文
3.1 Problem setup
我々は, 標準的な MLE (Sec. 2.2) のように, 観測されたターゲット $y _i$ がガウス分布から i.i.d.で描かれているが, 現在は未知の平均と分散 $(\mu, \sigma^2 )$ を持ち, それを確率的に推定しようとしている問題を考える. 我々は, $(\mu, \sigma^2 )$ に事前分布を置くことによって, これをモデル化する. 仮定 Sec. 2.2 に沿って, 観測がガウシアンから描画されると仮定すると, これは, 未知の平均にガウシアンの事前分布を置き, 未知の分散に逆ガンマの事前分布を置くことにつながる:
$$(y _1 , \ldots y _N) \sim \mathcal{N} (\mu, \sigma^2) $$
$$ \mu \sim \mathcal{N} (\gamma, \sigma^2, \upsilon^{-1}) \qquad \sigma^2 \sim \Gamma^{-1} (\alpha, \beta) \tag{3}$$
ここで, $ \Gamma (\cdot) $ はガンマ関数, $m = (\gamma, \upsilon, \alpha, \beta)$, $\gamma \in \mathbb{R}, \upsilon > 0, \alpha > 1, \beta > 0$ である.
我々の目的は, 事後分布 $q(\mu, \sigma ^2) = p(\mu, \sigma ^2 |y _1, \ldots , y _N )$ を推定することである. 真の事後分布の近似を得るために, 推定された分布が $q(\mu, \sigma ^2) = q(\mu) q(\sigma ^2)$ となるように分解できる [39] と仮定する. したがって, 我々の近似は, ガウス共役事前分布, 正規逆ガンマ (NIG) 分布の形をとる:
$$p(\underbrace{\mu , \sigma^2} _{\theta} | \underbrace{\gamma, \upsilon, \alpha, \beta} _{m}) = \frac{\beta^{\alpha} \sqrt{\upsilon}}{\Gamma (\alpha) \sqrt{2 \pi \sigma^2}} \left
( \frac{1}{\sigma^2} \right ) ^{\alpha+1} \exp \left \{ - \frac{2 \beta + \upsilon(\gamma - \mu)}{2 \sigma^2} \right \} \tag{4}$$
この共役事前分布のパラメータの一般的な解釈は, 与えられた性質を支持する "仮想観測" の観点からのものである [23]. 例えば, NIG 分布の平均は, その分散がサンプル平均 $\gamma$ と二乗偏差 $2 \upsilon$ の和を持つ $\alpha$ の仮想観測から推定されている間, サンプル平均 $\gamma$ を持つ $\upsilon$ の仮想観測から推定されているように直感的に解釈することができる. この解釈に続いて, 我々は, すべての推論された仮想観測のカウントの合計として我々の証拠分布の全ての証拠, $\Phi$ を定義する: $\Phi = 2 \upsilon + \alpha.$
NIG 分布からサンプル $\theta _j$ を引くと, 我々の尤度関数の 1 つのインスタンス, すなわち $\mathcal{N} (\mu_j , \sigma^2 _j )$ が得られる. このように, NIG のハイパーパラメータ $(\gamma, \upsilon, \alpha, \beta)$ は, 位置だけでなく, 推定された尤度関数に関連する分散濃度, または不確かさも決定する.
例えば, 図 2A では, モデルパラメータを変化させた異なるエビデンス NIG 分布を可視化している. この分布の証拠パラメータ (すなわち $\upsilon$, $\alpha$) を増加させることで, p.d.f. がその推定尤度関数について緊密に集中することを示している. この高次分布の 1 つのパラメータ実現を考えると (図 2B), 図 2C に示されているように, その後, 我々の尤度関数の多くの低次実現をサンプリングすることができる.
図 2: 正規逆ガンマ分布. 我々の証拠分布 (A) の異なる実現度は, パラメータの異なるレベルの信頼度 (例えば, $\mu$, $\sigma^2$) に対応する. 高次の証拠分布 (B) の 1 つの実現からサンプリングすると, データに対する低次の尤度 (C) が得られる (例: $p(y|\mu, \sigma^2)$. 暗い網掛けは, より高い確率の塊を示す. 我々は, 不確実性の推定を可能にするために, 我々の尤度に課された証拠的事前分布で, 入力 $x$ から目標 $y$ を予測するモデルを学習することを目的としている.
この研究では, ニューラルネットワークを用いて, 入力が与えられたときに, この高次の証拠分布のハイパーパラメタ $m$ を推論する. このアプローチは, 先行研究と比較して, いくつかの明確な利点がある. 第一に, 我々の方法は, 証拠的な事前分布を強制することで, 訓練中に分布外のデータを利用することなく, 学習中の分布外のデータを利用することなく, 学習したい回帰タスクの同時学習が可能であり, また, aleatoric uncertainty, epistemic uncertainty の推定も可能である. 第二に, 証拠的事前分布は高次の NIG 分布であるため, 最尤ガウス分布はサンプリングを必要とせずに, $(\mu, \sigma^2)$ パラメータの期待値から分析的に計算することができる. 第三に, 推定された証拠分布の分散を単純に評価することで, ネットワークの予測に関連する epistemic uncertainty または model uncertainty を効果的に推定することができる.
3.2 Prediction and uncertainty estimation
統計的不確かさやデータの不確かさとも呼ばれる aleatoric uncertainty は, 同じ実験を実行するたびに異なる未知数を代表するものである. epistemic (または model) uncertainty は, 予測の推定不確かさを記述する. NIG 分布が与えられると, prediction uncertainty, aleatoric uncertainty, および epistemic uncertainty を次のように計算できる
$$\underbrace{\mathbb{E}[\mu] = \gamma} _{\rm{prediction}}, \qquad \underbrace{\mathbb{E}[\sigma^2]=\frac{\beta}{\alpha - 1}} _{\rm{aleatoric}}, \qquad \underbrace{\rm{Var}[\mu] = \frac{\beta}{\upsilon (\alpha - 1)}} _{\rm{epistemic}}. \tag{5}$$
これらのモーメントの完全な導出は, S1.1.1 項を参照. $\upsilon$ として期待される $\rm{Var}[\mu] = E[\sigma^2]/υ$ は, 我々の 2 つの仮想観測カウントのうちの 1 つであることに注意する必要がある.
3.3 Learning the evidential distribution
aleatoric uncertainty と epistemic uncertainty の両方を捕捉するための証拠分布の使用を形式化したので, 次に, この分布のハイパーパラメタを出力するモデルを学習するためのアプローチについて説明する. 明確にするために, 我々は学習プロセスを 2 つの異なる部分を持つマルチタスク学習問題として構造化する. (1) 観測を支持するモデルの証拠を獲得するか最大化すること, および (2) 予測が間違っているときに証拠を最小化するか不確実性を増大させることである. 高レベルでは, (1) はデータを証拠モデルに適合させる方法として考えることができ, (2) は不正確な証拠を除去し, 不確実性を増大させるための事前の設定を強制する.
(1) Maximizing the model fit. ベイズ確率論から, "モデル証拠", または限界尤度は, 証拠分布パラメータ $m$ を与えられた観測の尤度 $y _i$ として定義され, 尤度パラメータ $\theta$ を限界化することによって計算される.
原文
3.1 Problem setup
We consider the problem where the observed targets, $y _i$ , are drawn i.i.d. from a Gaussian distribution, as in standard MLE (Sec. 2.2), but now with unknown mean and variance $(\mu, \sigma^2 )$, which we seek to also probabilistically estimate. We model this by placing a prior distribution on $(\mu, \sigma^2 )$. If we assume observations are drawn from a Gaussian, in line with assumptions Sec. 2.2, this leads to placing a Gaussian prior on the unknown mean and an Inverse-Gamma prior on the unknown variance:
$$(y _1 , \ldots y _N) \sim \mathcal{N} (\mu, \sigma^2) $$
$$ \mu \sim \mathcal{N} (\gamma, \sigma^2, \upsilon^{-1}) \qquad \sigma^2 \sim \Gamma^{-1} (\alpha, \beta) \tag{3}$$
where $ \Gamma (\cdot) $ is the gamma function, $m = (\gamma, \upsilon, \alpha, \beta)$ and $\gamma \in \mathbb{R}, v > 0, \alpha > 1, \beta > 0.$
Our aim is to estimate a posterior distribution $q(\mu, \sigma ^2) = p(\mu, \sigma ^2 |y _1, \ldots , y _N ).$ To obtain an approximation for the true posterior, we assume that the estimated distribution can be factorized [39] such that $q(\mu, \sigma ^2) = q(\mu) q(\sigma ^2).$ Thus, our approximation takes the form of the Gaussian conjugate prior, the Normal Inverse-Gamma (NIG) distribution:
$$p(\underbrace{\mu , \sigma^2} _{\theta} | \underbrace{\gamma, \upsilon, \alpha, \beta} _{m}) = \frac{\beta^{\alpha} \sqrt{\upsilon}}{\Gamma (\alpha) \sqrt{2 \pi \sigma^2}} \left
( \frac{1}{\sigma^2} \right ) ^{\alpha+1} \exp \left \{ - \frac{2 \beta + \upsilon(\gamma - \mu)}{2 \sigma^2} \right \} \tag{4}$$
A popular interpretation of the parameters of this conjugate prior distribution is in terms of "virtualobservations" in support of a given property [23]. For example, the mean of a NIG distribution can be intuitively interpreted as being estimated from $\upsilon$ virtual-observations with sample mean $\gamma$, while its variance is estimated from $\alpha$ virtual-observations with sample mean $\gamma$ and sum of squared deviations $2 \upsilon$. Following from this interpretation, we define the total evidence, $\Phi$, of our evidential distributions as the sum of all inferred virtual-observations counts: $\Phi = 2 \upsilon + \alpha.$
Drawing a sample $\theta _j$ from the NIG distribution yields a single instance of our likelihood function, namely $\mathcal{N} (\mu_j , \sigma^2 _j ).$ Thus, the NIG hyperparameters, $(\gamma, \upsilon, \alpha, \beta)$, determine not only the location but also the dispersion concentrations, or uncertainty, associated with our inferred likelihood function. Therefore, we can interpret the NIG distribution as the higher-order, evidential distribution on top of the unknown lower-order likelihood distribution from which observations are drawn.
For example, in Fig. 2A we visualize different evidential NIG distributions with varying model parameters. We illustrate that by increasing the evidential parameters (i.e. $\upsilon$, $\alpha$) of this distribution, the p.d.f. becomes tightly concentrated about its inferred likelihood function. Considering a single parameter realization of this higher-order distribution (Fig. 2B), we can subsequently sample many lower-order realizations of our likelihood function, as shown in Fig. 2C.
Figure 2: Normal Inverse-Gamma distribution. Different realizations of our evidential distribution (A) correspond to different levels of confidences in the parameters (e.g. µ, σ2 ). Sampling from a single realization of a higher-order evidential distribution (B), yields lower-order likelihoods (C) over the data (e.g. p(y|µ, σ2 )). Darker shading indicates higher probability mass. We aim to learn a model that predicts the target, y, from an input, x, with an evidential prior imposed on our likelihood to enable uncertainty estimation.
In this work, we use neural networks to infer, given an input, the hyperparameters, $m$, of this higher-order, evidential distribution. This approach presents several distinct advantages compared to prior work. First, our method enables simultaneous learning of the desired regression task, along with aleatoric and epistemic uncertainty estimation, by enforcing evidential priors and without leveraging any out-of-distribution data during training. Second, since the evidential prior is a higher-order NIG distribution, the maximum likelihood Gaussian can be computed analytically from the expected values of the $(\mu, \sigma^2)$ parameters, without the need for sampling. Third, we can effectively estimate the epistemic or model uncertainty associated with the network’s prediction by simply evaluating the variance of our inferred evidential distribution.
3.2 Prediction and uncertainty estimation
The aleatoric uncertainty, also referred to as statistical or data uncertainty, is representative of unknowns that differ each time we run the same experiment. The epistemic (or model) uncertainty, describes the estimated uncertainty in the prediction. Given a NIG distribution, we can compute the prediction, aleatoric, and epistemic uncertainty as
$$\underbrace{\mathbb{E}[\mu] = \gamma} _{\rm{prediction}}, \qquad \underbrace{\mathbb{E}[\sigma^2]=\frac{\beta}{\alpha - 1}} _{\rm{aleatoric}}, \qquad \underbrace{\rm{Var}[\mu] = \frac{\beta}{\upsilon (\alpha - 1)}} _{\rm{epistemic}}. \tag{5}$$
Complete derivations for these moments are available in Sec. S1.1. Note that $\rm{Var}[\mu] = E[\sigma^2]/υ$, which is expected as $\upsilon$ is one of our two evidential virtual-observation counts.
3.3 Learning the evidential distribution
Having formalized the use of an evidential distribution to capture both aleatoric and epistemic uncertainty, we next describe our approach for learning a model to output the hyperparameters of this distribution. For clarity, we structure the learning process as a multi-task learning problem, with two distinct parts: (1) acquiring or maximizing model evidence in support of our observations and (2) minimizing evidence or inflating uncertainty when the prediction is wrong. At a high level, we can think of (1) as a way of fitting our data to the evidential model while (2) enforces a prior to remove incorrect evidence and inflate uncertainty.
(1) Maximizing the model fit. From Bayesian probability theory, the "model evidence", or marginal likelihood, is defined as the likelihood of an observation, $y _i$, given the evidential distribution parameters m and is computed by marginalizing over the likelihood parameters $\theta$: