この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
Deep Evidential Regression
Author: Alexander Amini, Wilko Schwarting, Ava Soleimany, Daniela Rus
前: 【Abstract】
次: 【2 Modelling uncertainties from data】
1 Introduction
訳文
回帰ベースのニューラルネットワーク (NNs) は, コンピュータビジョン [15] やロボット工学や制御 [1, 6] などの安全上重要な領域で展開されており, モデルの不確実性を推論する能力は, 最終的に大規模に採用されるために非常に重要である. さらに, 正確で較正された不確かさの推定値は, 信頼性の解釈, 分布外 (OOD) テストサンプルのドメインシフトの捕捉, モデルが失敗する可能性がある場合の認識に役立つ.
モデル化できる NN の不確実性には 2 つの軸がある: (1) aleatoric uncertainty と呼ばれるデータの不確実性, および(2) epistemic uncertainty と呼ばれる予測の不確実性である. aleatoric uncertainty の表現はデータから直接学習することができるが, epistemic uncertainty を推定するためのいくつかのアプローチが存在する. 例えば, ネットワーク重みの上に確率的な優先順位を置き, 出力分散を近似するためにサンプリングを使用する Bayesian NNs [25]などである. しかし, Bayesian NNs は, 与えられたデータから重みの事後分布を直接推論することの難しさ, 推論中のサンプリングの必要性と計算コスト, 重みの事前選択の仕方の問題など, いくつかの制限に直面している.
対照的に, 証拠的深層学習は, 学習を証拠獲得プロセスとして定式化する [42, 32]. すべての訓練例は, 学習された高次の証拠分布にサポートを追加する. この分布からサンプリングすると, データが引き出された低次の尤度関数のインスタンスが得られる. Bayesian NNs で行われているように, ネットワーク重みに priors を置くのではなく, 証拠的アプローチは尤度関数に直接 priors を置く. 高次の証拠分布のハイパーパラメタを出力するためにニューラルネットワークを訓練することで, epistemic uncertainty と aleatoric uncertainty の両方の根拠のある表現を, サンプリングを必要とせずに学習することができる.
これまでのところ, 証拠深層学習は離散的な分類問題 [42, 32, 22] を対象としており, 最大の不確実性を持つ先行事例 [42] に対する十分に定義された距離尺度を必要とするか, モデルの不確実性を増大させるために OOD データを用いた学習に依存していた [32, 31]. 対照的に, 連続回帰問題では, 推定された証拠分布を正則化するための十分に定義された距離尺度がないという複雑さがある. さらに、合理的な OOD データセットを事前に定義することは, 大多数のアプリケーションでは困難である. したがって, 分布内の訓練セットのみから OOD データの校正済み不確かさを得る方法が必要である.
我々は, 学習された証拠分布を介して回帰ネットワークの不確実性をモデル化する新しいアプローチを提示する (図1). 具体的には, 以下のような貢献をしている.
- 推論中のサンプリングや分布外のデータを用いた訓練を行わずに, 回帰問題の epistemic uncertainty と aleatoric uncertainty を学習するための新規かつスケーラブルな手法;
- 連続回帰問題のための証拠的正則化器の定式化, エラーや OOD の例で不正確な証拠をペナルティを与えるために必要なもの;
- ベンチマークおよび複雑な視覚回帰タスクにおける認識論的不確実性の評価と最新の NN 不確実性推定技術との比較;および
- OOD と逆方向に摂動された試験入力データのロバスト性と校正評価.
図 1: 証拠的回帰は, 連続的なターゲットを, aleatoric (データ) uncertainty と epistemic な(モデル)uncertainty とともに同時に学習する. 入力が与えられると, ネットワークは, 個々の尤度パラメータ, ($\mu$, $\sigma_2$) の上の高次の確率分布をモデル化した証拠分布のパラメータを予測するように訓練される.
原文
Regression-based neural networks (NNs) are being deployed in safety critical domains in computer vision [15] as well as in robotics and control [1, 6], where the ability to infer model uncertainty is crucial for eventual wide-scale adoption. Furthermore, precise and calibrated uncertainty estimates are useful for interpreting confidence, capturing domain shift of out-of-distribution (OOD) test samples, and recognizing when the model is likely to fail.
There are two axes of NN uncertainty that can be modeled: (1) uncertainty in the data, called aleatoric uncertainty, and (2) uncertainty in the prediction, called epistemic uncertainty. While representations of aleatoric uncertainty can be learned directly from data, there exist several approaches for estimating epistemic uncertainty, such as Bayesian NNs, which place probabilistic priors over network weights and use sampling to approximate output variance [25]. However, Bayesian NNs face several limitations, including the intractability of directly inferring the posterior distribution of the weights given data, the requirement and computational expense of sampling during inference, and the question of how to choose a weight prior.
In contrast, evidential deep learning formulates learning as an evidence acquisition process [42, 32]. Every training example adds support to a learned higher-order, evidential distribution. Sampling from this distribution yields instances of lower-order likelihood functions from which the data was drawn. Instead of placing priors on network weights, as is done in Bayesian NNs, evidential approaches place priors directly over the likelihood function. By training a neural network to output the hyperparameters of the higher-order evidential distribution, a grounded representation of both epistemic and aleatoric uncertainty can then be learned without the need for sampling.
To date, evidential deep learning has been targeted towards discrete classification problems [42, 32, 22] and has required either a well-defined distance measure to a maximally uncertain prior [42] or relied on training with OOD data to inflate model uncertainty [32, 31]. In contrast, continuous regression problems present the complexity of lacking a well-defined distance measure to regularize the inferred evidential distribution. Further, pre-defining a reasonable OOD dataset is non-trivial in the majority of applications; thus, methods to obtain calibrated uncertainty on OOD data from only an in-distribution training set are required.
We present a novel approach that models the uncertainty of regression networks via learned evidential distributions (Fig. 1). Specifically, this work makes the following contributions:
- A novel and scalable method for learning epistemic and aleatoric uncertainty on regression problems, without sampling during inference or training with out-of-distribution data;
- Formulation of an evidential regularizer for continuous regression problems, necessary for penalizing incorrect evidence on errors and OOD examples;
- Evaluation of epistemic uncertainty on benchmark and complex vision regression tasks along with comparisons to state-of-the-art NN uncertainty estimation techniques; and
- Robustness and calibration evaluation on OOD and adversarially perturbed test input data.
Figure 1: Evidential regression simultaneously learns a continuous target along with aleatoric (data) and epistemic (model) uncertainty. Given an input, the network is trained to predict the parameters of an evidential distribution, which models a higher-order probability distribution over the individual likelihood parameters, (µ, σ2 ).