はじめに
ねこみみです。今回は、量子仮説検定の第二種誤り率に関する計算についての備忘録となります。
というのも、正攻法では、「Helstrom-Holevo Theorem」および、「Quantum Chernoff Bound論文内での無名定理」の2つの式変形により計算を行うのですが、最初それが分からず、ごり押しの証明に行き着いたので、そちらについて説明をしたいと思います。
量子仮説検定とは
その前に、量子仮説検定がどういう問題なのか簡単に記していこうと思います。
受信者がある情報源から、純粋状態を受け取ったとします。受信者は、この情報源が2つの混合状態$\rho$と$\sigma$のどちらかに従って状態を発信していることが分かっています。では、今受け取った状態は、$\rho$から来た状態でしょうか?それとも$\sigma$から来た状態でしょうか?受信者がこの判定を最も高精度で行うことができるような測定方法を考えるのが今回の問題となります。
ここで受信者は、測定$T$(ただし$0<T<I$)を用いて状態$\rho$を検出することを考えます。2択の問題に対する測定であることから、測定はPOVM $\{T, I-T \}$であり、$\sigma$の検出を$I-T$により行うことになります。
演算子の不等式
ここでいう不等式$A<B$は、任意の二次形式に対する不等式関係が成立することを指しています。つまり:
$$A<B \Longleftrightarrow \forall\ket{\psi}, \bra{\psi}A\ket{\psi}<\bra{\psi}B\ket{\psi}$$
今回の場合は、任意の状態$\ket{\psi}$に対する測定確率が$0\leq \bra{\psi}T\ket{\psi} \leq1$を満たす必要があるため、$0<T<I$という制約条件が課されているというわけです。
高精度の測定は、ここでは、「有意水準を$\alpha(T)\leq\eta$内で設定し、その範囲内で第2種過誤$\beta(T)$を最小にするような測定」を考えます (Asymmetric Case)。(もう一つの方法として、「第一種誤り率と第二種誤り率の平均を最小化する測定」を考えるパターンもあります (symmetric Case))、また、その時の第2種過誤の確率$\beta(T)$についても評価したいとします。
誤りの種類
誤りには第1種過誤と第2種過誤の2種類が存在します。
本問題では、次のような意味で用いられます。
- 第1種過誤:検定$T$による$\rho$から来た純粋状態の見落とし (確率$\alpha(T)=\mathrm{Tr}[(I-T) \rho]$)
- 第2種過誤:検定$T$による$\sigma$から来た純粋状態の誤判定 (確率$\beta(T)=\mathrm{Tr}[T \sigma]$
また、有意水準は、第一種過誤に対する許容量です。
そのため、今回考える最小化問題を式にすると次のようになります:
\begin{array}{ll}
\mathrm{minimize}&\beta(T)\\
\mathrm{subject\ to}&\mathrm{Tr}[(I-T)\rho]\leq\eta,\\
&0\leq T\leq I
\end{array}
最適な検定
無難にラグランジュの未定乗数法を用いて最適な検定$\hat{T}$を導出してみます。
最小化する関数は$f(T)=\beta(T)$, 制約条件は$g(T)=\alpha(T)-\eta\leq0$であるため,
任意の$\lambda>0$に対して, 最小化する目的関数$\mathcal{L}(\lambda, T)$を次のように設定します。
$$
\begin{array}{ll}
\mathcal{L}(\lambda, T)&=f(T)+\lambda g(T)\\
&=\beta(T)+\lambda(\alpha(T)-\eta)\\
&=\mathrm{Tr}[T \sigma]+\lambda(\mathrm{Tr}[(I-T) \rho]-\eta)\\
&=\mathrm{Tr}[T \sigma]+\lambda(1-\mathrm{Tr}[T\rho]-\eta)\\
&=\mathrm{Tr}[T \sigma]-\lambda\mathrm{Tr}[T\rho]+\lambda(1-\eta)\\
&=\mathrm{Tr}[T (\sigma-\lambda\rho)]+\lambda(1-\eta)\\
&=\mathrm{Tr}[T (\sigma-\lambda\rho)]+\lambda(1-\eta)\\
\end{array}
$$
ここで、$\rho, \sigma$はともにエルミート演算子なので、$\sigma-\lambda\rho$もエルミート演算子になります。したがって、直交する固有ベクトルの集合によるスペクトル分解をすることが可能で、$\sigma-\lambda\rho$の固有値を$\{a_i\}_i$, 固有ベクトルを$\{\ket{\phi_i}\}_i$とすれば次のようにスペクトル分解で表現することができます。
$$(\sigma-\lambda\rho)=\sum_ia_i\ket{\phi_i}\bra{\phi_i}$$
したがって、$\mathrm{Tr}[T (\sigma-\lambda\rho)]$は次のように変形することができます。
$$\mathrm{Tr}[T (\sigma-\lambda\rho)]=\sum_ia_i\bra{\phi_i}T\ket{\phi_i}$$
$0\leq T\leq1$のため、$0\leq \bra{\phi_i}T\ket{\phi_i} \leq1$の範囲で、各項の値を最小化するためには、次のように最適な検定$\hat{T}$を決定すればよいでしょう。
\hat{T}:\bra{\phi_i}T\ket{\phi_i}=\left\{
\begin{array}{ll}
0 &\mathrm{if}\ \ a_i>0\\
1 &\mathrm{if}\ \ a_i<0\\
c:0\leq c\leq 1 &\mathrm{if}\ \ a_i=0\\
\end{array}
\right.
この演算子$\hat{T}$は、$\sigma-\lambda\rho$の固有値が負の部分のみを残す射影という見方ができます。ところで、$\sigma-\lambda\rho$固有ベクトルが直交基底をなしていたことを思い出すと、任意の純粋状態$\ket{\psi}$は固有ベクトル$\{\ket{\phi_i}\}_i$により次のような分解表現が可能です。
$$\ket{\psi}=\sum_i\braket{\phi_i|\psi}\ket{\phi_i}$$
そのため、次式が成立します:
$$\forall\ket{\psi}, \bra{\psi}(\rho-\lambda\sigma)\ket{\psi}=\sum_i\|\braket{\phi_i|\psi}\|_2^2\bra{\phi_i}(\rho-\lambda\sigma)\ket{\phi_i}=\sum_ia_i\|\braket{\phi_i|\psi}\|_2^2$$
$\|\braket{\phi_i|\psi}\|_2^2>0$のため、固有値が負の部分のみを抜き出した後の演算子は、自動的に$\sigma-\lambda\rho<0$も成立することになります。$\{\sigma-\lambda\rho<0\}$を、$\sigma-\lambda\rho<0$を満たす空間への射影として表記すると、$\hat{T}=\{\sigma-\lambda\rho<0\}$と言えそうです。
しかし厳密には$a_i=0$の場合についてまだ考えていません。これについて考えてみましょう。$a_i=0$ではどのように係数をとっても最適化に寄与しないので自由に取ってよいです。すなわち、$\sigma-\lambda\rho=0$への射影$\{\sigma-\lambda\rho=0\}$は固有値が0になる部分に係数1を掛ける(つまりその部分を残す)射影ですので、その係数を自由に選んでよいということは、$0\leq\Lambda\leq\{\sigma-\lambda\rho=0\}$を満たす任意の$\Lambda$ということができます。これを加えることで、最終的に$\hat{T}$は次のように表記することができます。
$$\forall \lambda>0, \forall\Lambda:0\leq\Lambda\leq\{\sigma-\lambda\rho=0\}, \ \ \hat{T}=\{\sigma-\lambda\rho<0\}+\Lambda$$
最適な検定における第二種過誤の確率評価
はじめに、第一種過誤の確率評価から$\lambda$の算出を行います。
最適な検定$\hat{T}$における第一種過誤の確率は、次のようになります。
$$
\begin{array}{ll}
\alpha(\hat{T}) &= \mathrm{Tr}[(I-\hat{T}) \rho]\\
&=\mathrm{Tr}[\{\sigma-\lambda\rho>0\} \rho]+\mathrm{Tr}[(\{\sigma-\lambda\rho=0\}-\Lambda) \rho]\\
&=\mathrm{Tr}[\{\sigma>\lambda\rho\} \rho]+0
\end{array}
$$
ここで、$\{\sigma>\lambda\rho\}$の移す空間で$\sigma>\lambda\rho$が成立することから、$\rho'=(I-T)\rho$について、
$$\forall\ket{\psi}, \bra{\psi}\sigma\ket{\psi}>\bra{\psi}\lambda\rho'\ket{\psi}$$
さらに、ここから任意の$s\in[0, 1]$について$x\mapsto x^s$の単調性から次のことが成り立ちます。
$$\forall\ket{\psi}, \bra{\psi}\sigma^s\ket{\psi}>\bra{\psi}(\lambda\rho')^s\ket{\psi}$$
これを変形して
$$
\begin{array}{rrl}
\forall\ket{\psi},& \bra{\psi}\sigma^s\ket{\psi}&>\lambda^{s}\bra{\psi}\rho'^s\ket{\psi}\\
\forall\ket{\psi},& \lambda^{-s}\bra{\psi}\sigma^s\ket{\psi}&>\bra{\psi}\rho'^s\ket{\psi}
\end{array}
$$
ここで、トレース演算の各対角成分の計算は二次形式の形であることを思い出すと、
$$\mathrm{Tr}[\rho']=\mathrm{Tr}[\rho'^{s}\rho'^{1-s}]<\lambda^{-(1-s)}\mathrm{Tr}[ \rho'^{s}\sigma^{1-s}]<\lambda^{-(1-s)}\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]$$
ここで、一番右の不等式は$\rho'<\rho$であることを利用しています。これは、$\\{\sigma>\lambda\rho\}$$が移す空間によって、固有値の大きい部分が切りとられてしまった状態であることから来ています。
したがって、第一種過誤の確率は次のようになります。
$$
\alpha(\hat{T}) < \lambda^{-(1-s)}\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]=\lambda^{s-1}\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]
$$
$\alpha\leq\eta$でもあったので次の等式を考えます。
$$
\lambda^{s-1}\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]=\eta
$$
したがって、ここから$\lambda$を求めることができます。
$$
\lambda=\left(\frac{\eta}{\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]}\right)^{\frac{1}{s-1}}
$$
続いて、第二種過誤に対する確率評価を行います。
最適な検定$\hat{T}$における第二種過誤の確率は、次のようになります。
$$
\begin{array}{ll}
\beta(\hat{T}) &= \mathrm{Tr}[\hat{T} \sigma]\\
&=\mathrm{Tr}[\{\sigma-\lambda\rho<0\} \sigma]+\mathrm{Tr}[(\{\sigma-\lambda\rho=0\}-\Lambda) \sigma]\\
&=\mathrm{Tr}[\{\sigma<\lambda\rho\} \sigma]+0
\end{array}
$$
$\sigma'=\{\sigma<\lambda\rho\} \sigma$とし、不等号の向きが逆になっていることに気を付けると、第一種過誤の時と同様に、次の不等式が成立します。
$$
\begin{array}{rrl}
\forall\ket{\psi},& \bra{\psi}\sigma'^s\ket{\psi}&<\lambda^{s}\bra{\psi}\rho^s\ket{\psi}\\
\end{array}
$$
また、第一種過誤の時と同様に、対角成分和が二次形式の和であることと、$\sigma'>\sigma$を用いることで、
$$\mathrm{Tr}[\sigma']=\mathrm{Tr}[\sigma'^{s}\sigma'^{1-s}]<\lambda^{s}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]<\lambda^{s}\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]$$
したがって、第二種過誤の確率は次のようになります。
$$
\beta(\hat{T}) < \lambda^{s}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]
$$
ここで、第一種過誤の確率評価により得られた$\lambda$を代入することで、第二種過誤の確率は次のように評価できます。
$$
\begin{array}{ll}
\beta(\hat{T}) &< \lambda^{s}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]\\
&=\left(\frac{\eta}{\mathrm{Tr}[ \rho^{s}\sigma^{1-s}]}\right)^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]\\
&=\eta^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]^{-\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]\\
&=\eta^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]^{(1-\frac{s}{s-1})}\\
&=\eta^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]^{\frac{-1}{s-1}}
\end{array}
$$
したがって、第二種過誤の上界は次のように評価できました。
$$
\begin{array}{ll}
\beta(\hat{T})<\eta^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]^{\frac{-1}{s-1}}
\end{array}
$$
最後に、第二種過誤のエントロピーについても評価します。両辺に$-\log_2$を取って、
$$
\begin{array}{ll}
-log_2\beta(\hat{T})&>-\frac{s}{s-1}\log_2\eta-\left(-\frac{1}{s-1}\right)\log_2\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]\\
&=\frac{s}{s-1}\log_2\frac{1}{\eta}+\frac{1}{s-1}\log_2\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]\\
&=\frac{s}{s-1}\log_2\frac{1}{\eta}+D_s(\rho\|\sigma)
\end{array}
$$
ここで、$D_s(\rho\|\sigma)=\frac{1}{s-1}\log_2\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]$を$s$-Petz-Rèyni相対エントロピーと呼びます。
一般には、$s$ではなく、$\alpha$をパラメータとし、$\alpha$-Petz-Rèyni相対エントロピーと呼ばれますが、今回は第一種過誤の確率を$\alpha$としたため、混乱を避けるために$s$としています。正直パラメータ名の話なので気にしなくても大丈夫です。
したがって、右辺の第一項と第二項を交換して
$$-log_2\beta(\hat{T})>D_s(\rho\|\sigma)+\frac{s}{s-1}\log_2\frac{1}{\eta}$$
まとめ
$\alpha(T)\leq\eta$の制約下で、量子仮説検定における最適な検定$\hat{T}$は、次のとおりです。
$$\forall \lambda>0, \forall\Lambda:0\leq\Lambda\leq\{\sigma-\lambda\rho=0\}, \ \ \hat{T}=\{\sigma-\lambda\rho<0\}+\Lambda$$
また、その時の第二種過誤の確率の上界評価は次のとおりです。
$$
\beta(\hat{T})<\eta^{\frac{s}{s-1}}\mathrm{Tr}[ \rho^{s}\sigma'^{1-s}]^{\frac{-1}{s-1}}
$$
最後に、第二種過誤のエントロピーの下界評価は$s$-Petz-Rèyni相対エントロピー$D_s(\rho\|\sigma)$を用いて、次のとおりです。
$$
-log_2\beta(\hat{T})>D_s(\rho\|\sigma)+\frac{s}{s-1}\log_2\frac{1}{\eta}
$$
おわりに
今回は、量子仮説検定を勉強した備忘録として、少し強引な証明方法?についてまとめてみました。
再度言いますが、正攻法はおそらく「Helstrom-Holevo Theorem」および、「Quantum Chernoff Bound論文内の無名定理」による変形を行う方法になると思います。ただ、この方法の場合、ラグランジュの未定乗数法から最適な検定を求め、その検定の性質を用いて式変形を行うという手順なので、流れは複雑にならないのかなといった形です。
最後までありがとうございました。