{}_nP_k = \frac{n!}{(n-k)!} = n(n-1)(n-2)...(n-k+1) ①\\
\begin{align}
P(X=k)&={}_nC_k \left( \frac{ \lambda }{n} \right)^k \left( 1-\frac{\lambda}{n} \right)^{n-k}\\
&=\frac{n!}{(n-k)!k!}\frac{ \lambda^k}{n^k}\left( 1-\frac{\lambda}{n} \right)^{n-k}\\
順列の公式① により\\
&=\frac{n(n-1)(n-2)...(n-k+1)}{k!}\frac{ \lambda^k}{n^k}\left( 1-\frac{\lambda}{n} \right)^{n-k}\\
&=\frac{ \lambda^k}{k!}\frac{n(n-1)(n-2)...(n-k+1)}{n^k}\left( 1-\frac{\lambda}{n} \right)^{n-k}\\
&=\frac{ \lambda^k}{k!}\left(1 - \frac{1}{n}\right)\left(1 - \frac{2}{n}\right)...\left(1 - \frac{k-1}{n}\right) \left( 1-\frac{\lambda}{n} \right)^{n-k}\\
&=\frac{ \lambda^k}{k!}\left( 1-\frac{\lambda}{n} \right)^{n-k}\left(1 - \frac{1}{n}\right)\left(1 - \frac{2}{n}\right)...\left(1 - \frac{k-1}{n}\right) \\
&=\frac{ \lambda^k}{k!}\frac{\left( 1-\frac{\lambda}{n} \right)^{n}}{\left( 1-\frac{\lambda}{n} \right)^{k}}\left(1 - \frac{1}{n}\right)\left(1 - \frac{2}{n}\right)...\left(1 - \frac{k-1}{n}\right) \\
nが限りなく\inftyへ近づく際(n→\infty)\\
\left( 1-\frac{\lambda}{n} \right)^{n} &→ e^{-\lambda}\\
\left(1 - \frac{1}{n}\right) &→ (1 - 0) = 1\\
\left(1 - \frac{2}{n}\right) &→ (1 - 0) = 1\\
... \\
\left(1 - \frac{k - 1}{n}\right) &→ (1 - 0) = 1\\
\left( 1-\frac{\lambda}{n} \right)^{k} &→ (1 - 0) = 1\\
よって\\
P(X=k)&=\frac{ \lambda^k}{k!}e^{-\lambda}
\end{align}
\\
ある事象Aに対して、その原因として排反なn個の事象H_1, H_2, ... H_nがあるとし\\
その際、事象Aが起きた時に、事象H_iが原因である確率は以下のように\\
P(H_i|A) = \frac{P(H_i)P(A|H_i)}{\sum_{j=1}^{n}P(H_j)P(A|H_j)}\\
\\
P(H_i):事前確率(prior probability)\\
P(H_i|A):事後確率(posterior probability)\\
P(B|A) = \frac{P(B)P(A|B)}{P(B)P(A|B) + P(\bar{B})P(A|\bar{B})}\\
\\
P(B_1|A) = \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
P(B_2|A) = \frac{P(B_2)P(A|B_2)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
x_{k+1} = x_k - \alpha g'(x) \\
f(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{n}e^{x_k}}\\
w^{(t)}:ステップtの重み\\
w^{(t+1)}:ステップt+1の重み\\
\Delta E:重みの誤差(重みの更新量)\\
\epsilon:学習率\\
f(x_i) = \frac{e^{x_i}}{\sum_{k=1}^{n}e^{x_k}}\\
f(x) =\begin{cases} x & x \geq 0 \\
0 & x < 0
\end{cases}\\
f(x) = \frac{1}{1 + e^{-x}}\\
f(x) =\begin{cases} 1 & x \geq 0 \\
0 & x < 0
\end{cases}\\
ステップ① :y = ax_1 + bx_2 + cx_3 + ...\\
ステップ② :z = {\sigma}(y)\\
f(x) = x\\
y = ax + c\\
y = ax + bx^2 + cx^3 + ...\\
x_{new}^i = \frac{x^i - x_{min}}{x_{max} - x_{min}}\\
x_{new}^i = \frac{x^i - \mu}{\sigma}\\
\mu = \frac{1}{n}\sum_{i=1}^{n}x^i\\
\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x^i - \mu)^2}\\
1: \theta_{ML} = \underset{\theta}{argmax}\:P(Y|X; \theta)\\
2: \theta_{ML} = \underset{\theta}{argmax}\:P(X|Y; \theta)\\
3: \theta_{ML} = \underset{\theta}{argmin}\:P(Y|X; \theta)\\
4: \theta_{ML} = \underset{\theta}{argmin}\:P(X|Y; \theta)\\
k次元ワンホットベクトルが従う確率分布p(x)を、\\
マルチヌーイ分布q(x;\mu)=\prod_{j=1}^{k}\mu_j^{x_j}\\
によって推定することを考える。ただし、x,\muと書くことにする。\\
このとき、p(x)とq(x;\mu)の交差エントロピーは、\\
H(p,q)=(ア)\\
である。ここで、確率分布p(x)の観測として\\
k次元ワンホットベクトルのデータ\\
D={x_1,...x_n}が与えられたとする。ただし、x_iの第j成分をx_ij\\
と書くことにする。この時、\\
H(p,q)\backsimeq(イ)\\
によって近似可能である。
\\
1: \sum_{x}p(x)\prod_{j=1}^{k}\mu_j^{x_j}\\
2: -\sum_{x}p(x)\prod_{j=1}^{k}\mu_j^{x_j}\\
3: \sum_{x}p(x)\sum_{j=1}^{k}x_jlog\mu_j^{x_j}\\
4: -\sum_{x}p(x)\sum_{j=1}^{k}x_jlog\mu_j^{x_j}\\
\\
1: -\frac{1}{n}\sum_{i=1}^{n}\prod_{j=1}^{k}\mu_j^{x_{ij}}\\
2: -\frac{1}{n}\sum_{i=1}^{n}p(x_i)\prod_{j=1}^{k}\mu_j^{x_{ij}}\\
3: -\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{k}x_{ij}log\mu_j\\
4: -\frac{1}{n}\sum_{i=1}^{n}p(x_i)\sum_{j=1}^{k}x_{ij}log\mu_j\\
\\
(ア)4、(イ)3
L_D(\theta)=\prod_{i=1}q(x_i;\theta)\\
1: \int_{X}p(x)log(x;\theta)dx\\
2: -\int_{X}p(x)log(x;\theta)dx\\
3: \int_{X}p(x)log(\frac{q(x;\theta)}{p(x)})dx\\
4: -\int_{X}p(x)log(\frac{q(x;\theta)}{p(x)})dx\\
\\
1: -\frac{1}{n}\sum_{i=1}^{n}log(x_i;\theta)\\
2: -\frac{1}{n}\sum_{i=1}^{n}p(x_i)log(x_i;\theta)dx\\
3: -\frac{1}{n}\sum_{i=1}^{n}p(x_i)log(\frac{q(x_i;\theta)}{p(x_i)})dx\\
4: -\frac{1}{n}\sum_{i=1}^{n}p(x_i)log(\frac{q(x_i;\theta)}{p(x_i)})dx\\
1: logL_D(\theta)\\
2: -logL_D(\theta)\\
3: \frac{1}{n}logL_D(\theta)\\
4: -\frac{1}{n}logL_D(\theta)\\
\\
D(p||q)=\sum_{x}p(x)log_2\frac{p(x)}{q(x)}\\
\\
1: \sum_{x}log_2p(x)\\
2: \sum_{x}p(x)log_2p(x)\\
3: -\sum_{x}log_2p(x)\\
4: -\sum_{x}p(x)log_2p(x)\\
1: P(A)P(B)\\
2: \frac{P(A,B)}{P(A)}\\
3: \frac{P(A,B)}{P(B)}\\
4: \frac{P(A,B)}{P(A)P(B)}\\
5: \frac{TP + TN }{FP + TP + TN + FN} = \frac{90 + 0 }{10 + 90 + 0 + 0} = 0.9 = 90\% \\
6: Recall = \frac{TP}{TP + FN} = \frac{90}{90 + 0} = 1 = 100\% \\
7: Precision = \frac{TP}{TP + FP} = \frac{90}{10 + 90} = 0.9 = 90\% \\
1: \frac{P(B|A)}{P(A)P(B)}\\
2: \frac{P(B|A)P(A)}{P(B)}\\
3: \frac{P(B|A)P(B)}{P(A)}\\
4: \frac{P(B|A)}{P(A,B)}\\
{0,1}をとりうる2値データD=\{x_1,...x_n\}が\\
ベルヌーイ分布f(x;p)=p^x(1-p)^{1-x}に独立に従うと仮定する。\\
このとき、最尤法によってパラメータpを決定することを考える。\\
このとき、尤度関数はL_D(p)=(ア)であり、\\負の対数尤度は-logL_D(p)=(イ)である。\\(イ)の最小化問題を解くことによって得られるp\\の最尤推定量は\hat{p}=(ウ)である。\\
(ア)の選択肢\\
1: \sum_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\
2: \prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\
3: \underset{i}{max}\:p^{x_i}(1-p)^{1-x_i}\\
4: \underset{i}{argmax}\:p^{x_i}(1-p)^{1-x_i}\\
(イ)の選択肢\\
1: -\sum_{i=1}^{n}(x_i logp + (1 -x_i)log(1-p))\\
2: -\prod_{i=1}^{n}(x_i logp + (1 -x_i)log(1-p))\\
3: -\sum_{i=1}^{n}(p logx_i + (1 -p)log(1-x_i))\\
4: -\prod_{i=1}^{n}(p logx_i + (1 -p)log(1-x_i))\\
(ウ)の選択肢\\
1: \frac{1}{n}\sum_{i=1}^{n}x_i\\
2: \frac{1}{n}\prod_{i=1}^{n}x_i\\
3: 1-\frac{1}{n}\sum_{i=1}^{n}x_i\\
4: 1-\frac{1}{n}\prod_{i=1}^{n}x_i\\
(ア)2、(イ)1、(ウ)1
確率pで表が出て、確率1‐pで裏が出るコイン投げを考える。確率変数Xは、表が出たときに
X=1をとり、裏が出たときにX=0をとるとする。このとき、X=x(ただし、x=0,1)となる確率は(ア)と×。これをベルヌーイ分布と呼ぶ。ベルヌーイ分布に従う確率変数の期待値は(イ)であり、分布は(ウ)である
(ア)の選択肢
1: 1\\
2: p\\
3: 1-p\\
4: p(1-p)\\
(ア)3、(イ)2、(ウ)4
ベクトルx=(x_1, x_2, ...,x_n)^Tに対して、\\
L_1ノルムは||x||_1=(ア)、\\
L_2ノルマは||x||_2=(イ)、\\
L_\inftyノルマは||x||_\infty=(ウ)\\
で与えられる。\\
1.\sum_{i=1}^{n}x_i\\
\\
2.\sum_{i=1}^{n}|x_i|\\
\\
3.\sum_{i=1}^{n}x_i^2\\
\\
4.\sqrt{\sum_{i=1}^{n}x_i^2}\\
\\
5.\underset{i}{max}|x_i|\\
(ア)2、(イ)4、(ウ)5