LoginSignup
0
0

More than 3 years have passed since last update.

Deep Evidential Regression【2 Modelling uncertainties from data】【論文 DeepL 翻訳】

Last updated at Posted at 2020-12-22

この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
Deep Evidential Regression
Author: Alexander Amini, Wilko Schwarting, Ava Soleimany, Daniela Rus

前: 【1 Introduction】
次: 【3 Evidential uncertainty for regression】

2 Modelling uncertainties from data

訳文

2.1 Preliminaries

次の教師付き最適化問題を考える: $N$ 個のペアの訓練例からなるデータセット $\mathcal{D}$ が与えられる. ここで $\mathcal{D} = \{ x_i , y_i \} ^N_{i=1}$ である. 以下の最適化問題を近似的に解く重みの集合 $w$ でパラメータ化された関数写像 $f$ を学習することを目標とする.

$$\min_w J(w); \ J(w)= \frac{1}{N} \sum^N_{i=1} L_{i}(w), \tag{1}$$

ここで, $\mathcal{L}_i(\cdot)$ は損失関数を記述する. 本研究では, 決定論的回帰問題を考慮し, 一般的に二乗誤差の総和 $\mathcal{L}_i(w) = \frac{1}{2} || y_i − f(x_i ; w) || ^2$ を最適化する. そうすることで, モデルは与えられた入力に対する平均的な正解を学習するように促されるが, 推定を行う際には, データの基礎となるノイズや不確実性を明示的にモデル化しない.

2.2 Maximum likelihood estimation

この問題は最尤の観点からアプローチすることができ, ここでは訓練データの特定のセットを観測する尤度を最大にするモデルパラメータを学習する. 決定論的回帰の文脈では, 我々のターゲット $y_i$ が, 平均と分散パラメータ $\theta = ( \mu, \sigma^2 )$ を持つガウス分布のような分布から i.i.d.で描かれていると仮定する. 最尤推定 (MLE) では, $p(y _i |\theta)$ で与えられた目標 $y$ の観測尤度を最大化する $\theta$ を推論するモデルを学習することを目的としている. これは, 負の対数尤度損失関数を最小化することによって達成される.

$$ \mathcal{L}_i(w) = - \log p ( y _i | \underbrace{\mu , \sigma^2} _{\theta}) = \frac{1}{2} \log(2\pi \sigma ^2) + \frac{(y _i - \mu)^2}{2 \sigma^2}. \tag{2}$$

$\theta$ の学習では, この尤度関数はデータの不確実性をモデル化することに成功しており, aleatoric uncertainty としても知られている. しかし, 我々のモデルは, その予測的な認識論的不確かさに気づかない [25].

この論文では, モデルの基礎となる epistemic uncertainty と同様に, データに存在する aleatoric uncertainty の両方を直接学習することによって, 回帰におけるネットワーク予測を支持する証拠を推定するための新しいアプローチを提示する. これは, 観測値の抽出元の分布を支配する学習済みパラメーターの上に高次の事前分布を配置することで実現する.

原文

2.1 Preliminaries

Consider the following supervised optimization problem: given a dataset, $\mathcal{D}$, of $N$ paired training examples, $\mathcal{D} = \{ x_i , y_i \} ^N_{i=1}$, we aim to learn a functional mapping $f$, parameterized by a set of weights, $w$, which approximately solves the following optimization problem:

$$\min_w J(w); \ J(w)= \frac{1}{N} \sum^N_{i=1} L_{i}(w), \tag{1}$$

where $\mathcal{L}_i(\cdot)$ describes a loss function. In this work, we consider deterministic regression problems, which commonly optimize the sum of squared errors, $\mathcal{L}_i(w) = \frac{1}{2} || y_i − f(x_i ; w) || ^2$. In doing so, the model is encouraged to learn the average correct answer for a given input, but does not explicitly model any underlying noise or uncertainty in the data when making its estimation.

2.2 Maximum likelihood estimation

One can approach this problem from a maximum likelihood perspective, where we learn model parameters that maximize the likelihood of observing a particular set of training data. In the context of deterministic regression, we assume our targets, $y _i$ , were drawn i.i.d. from a distribution such as a Gaussian with mean and variance parameters $\theta = ( \mu, \sigma^2 )$. In maximum likelihood estimation (MLE), we aim to learn a model to infer $\theta$ that maximize the likelihood of observing our targets, $y$, given by $p(y _i |\theta)$. This is achieved by minimizing the negative log likelihood loss function:

$$ \mathcal{L}_i(w) = - \log p ( y _i | \underbrace{\mu , \sigma^2} _{\theta}) = \frac{1}{2} \log(2\pi \sigma ^2) + \frac{(y _i - \mu)^2}{2 \sigma^2}. \tag{2}$$

In learning $\theta$, this likelihood function successfully models the uncertainty in the data, also known as the aleatoric uncertainty. However, our model is oblivious to its predictive epistemic uncertainty [25].

In this paper, we present a novel approach for estimating the evidence supporting network predictions in regression by directly learning both the aleatoric uncertainty present in the data as well as the model’s underlying epistemic uncertainty. We achieve this by placing higher-order prior distributions over the learned parameters governing the distribution from which our observations are drawn.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0