Maximum Likelihood Estimate (最尤推定)では negative loglikelihoodを最大化することを通じて、結局以下のexponential termの中にある項を最小とするようなパラメータを選ぶことがある。
$\underbrace{\arg \min_{\mathbf{w}, \sigma_y^2} \frac{n}{2} \log(\sigma_y^2) + \frac{1}{2\sigma_y^2} |\mathbf{y} - \mathbf{X}^\top \mathbf{w}|^2}_{=: L(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma_y^2)}$
行列の偏微分の混乱
この$L$の中身を後ほど、Maximum Likelihood Estimate (MLE)のために$w$に関して一回partial derivativeをとるときに次が得られる。
$\nabla_{\mathbf{w}} L(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma_y^2) = \frac{1}{\sigma_y^2} (\mathbf{X}\mathbf{X}^\top \mathbf{w} - \mathbf{X}\mathbf{y})$
基本的に、ノルムの計算ルールに従うだけなのだが、とりわけ以下の項が途中でやってくるが、次の変形はぱっとみよくわからない。もちろん、直感的には、$x^2w^2$を $w$についてpartial derivativeをとったケースの結果の$2x^2w$に近しいものを感じるが、テストで出るときにこれを忘れずに再現するのは難しい。
$\nabla_{\mathbf{w}} (\mathbf{w}^\top \mathbf{X}\mathbf{X}^\top \mathbf{w}) = 2\mathbf{X}\mathbf{X}^\top \mathbf{w}$
そこで、次のような考え方で腑に落とすことができる。
- X: dxn (縦ベクトルのサンプルがn列並べられている状態)
- w: dx1 (縦ベクトルのサンプルの一つ分に対応する形なので dx1)
$x^2w^2$のケースでのpartial derivativeの結果が$2x^2w$なので、行列のケースでも(いったん行列の転置を無視して)以下の3つが考えられる。
- [1] XXw
- [2] XwX
- [3] wXX
次に、$\nabla_{\mathbf{w}} (\mathbf{w}^\top \mathbf{X}\mathbf{X}^\top \mathbf{w})$のwに囲まれたXの形を見ると、$\mathbf{X}\mathbf{X}^\top$の形をしているので、形としては[1] XXw または [2] xWW が考えられる。これに転置のケースを考えてみると
- [A] $XX^\top w$
- [B] $wXX^\top$
いま、行列の形を思い出すと、
$XX^\top$は (dxn) x (nxd) -> (dxd) matrix
- [A]では (dxd) x (dx1) -> (dx1)
- [B]では (dx1) x (dxd) -> この形では行列の積は行えない。
となることにより、$XX^\top w$がでてくることがわかる。
定数の2をつけくわえて、以下のようになる:
$\nabla_{\mathbf{w}} (\mathbf{w}^\top \mathbf{X}\mathbf{X}^\top \mathbf{w}) = 2\mathbf{X}\mathbf{X}^\top \mathbf{w}$
さいごに:記事を書くことで理解が深まったので、来年のテストでも素早く再現できますように。