概要
統計や機械学習について学んでいて、出くわした未知の英単語をまとめたもの。
そのため、
- 日本語だったら実はよく知っていた
- 別に統計とか機械学習とは関係ない
という単語も混じっています。
対象者
統計や機械学習などの初心者向け。
この記事を作成した人が結構まだまだ学びたてのため。
いずれは、中級者向け、上級者向け、と言えるような内容にしたい(`・ω・´)キリッ
作成経緯
- 1回調べただけでは覚えられない。
⇒ 前に見た記事をもう1回見たい。 - Googleなどで検索すると画面読み込みが発生する、、、
⇒ 画面読み込みの時間すら省略したい。
と思ったので作成(´^ω^`)
使い方 ~How to use~
このページを開いておいて、
Ctrl + Fでページ内検索する。
上から下まで全部読むような記事ではないです。
必要なとこだけ見る。
Library
では、さっそく!(^ワ^*)
affinity
- 類似性、関係があること、親近感
aka
- also known as ~
- 別名は~、~としても知られている
alternately
- かわるがわる、交代交代に
amenable
- (adj) ~に従う、~を受け入れやすい
anisotropic
- 異方的な、異方性
BERTなどの自然言語の事前学習モデルの論文で問題に上がる性質
以下の論文で詳しく言及されていた
apparently
- 見たところ~らしい、一見すると、明らかに
applicable
- 適用できる、適切な、該当する、当てはまる
approximation
- 近似
arbitrary
- 任意の
arguably
- ほぼ間違いなく、恐らく間違いなく
asymptotical
- 漸近的
augment
- 増加させる、増大させる
auxiliary
- 予備の
Bayes’ rule
- ベイズの法則
joint probability(条件付き確率)
の式から導くことができる
\begin{align}
P(y|x) &= \frac {P(x|y) * P(y)}{P(x)} \\
&= \frac {P(x|y) * P(y)}{\int P(x, y)dy} \\
&= \frac {P(x|y) * P(y)}{\int P(x|y) * P(y)dy} \\
\end{align}
-
ベイズの法則の式を、各要素に分解
- $P(y|x)$ : posterior probability(事後確率)
- $P(x|y)$ : likelyhood(尤度)
- $P(y)$ : prior probability(事前確率)
尤度に対してconjugate(共役)な分布を選ぶとよい。
そうすると、事後分布は事前分布と同じ形になる。 - $P(x)$ : Evidence と呼ばれ、定数値をとる
上記の通り、事後分布と事前分布が同じ形になるなら、Evidenceは定数値でなければならないことがわかる。
-
機械学習の文脈で出てくるかもしれない表現
\begin{align}
p(θ|D) &= \frac {p(D|θ) * p(θ)}{p(D)} \\
\log p(θ|D) &= \log p(D|θ) + \log p(θ) − \log p(D)\\
\end{align}
Bayesian inference
-
ベイズ推定
最尤推定(ML)やMAP推定とは違い、一つのパラメータ $\theta$ だけでなく、取りうるパラメータ $\boldsymbol\theta$ すべてを求める。 -
学習
P(\boldsymbol\theta|\textbf x_{1...I}) = \frac { \prod^I_{i=1} P(\textbf x_i|\boldsymbol\theta) P(\boldsymbol\theta)}{P(\textbf x_{1...I})} \\
- 推論
$\textbf x_{1...I}$というデータが与えられたときに、$\textbf x^*$というデータが現れる確率を計算する。
計算の際は、それぞれの $\boldsymbol\theta$ ごとの重みを乗算して求めた確率を足し合わせ(積分し)ている。
\begin{align}
P(\textbf x^*|\textbf x_{1...I}) &= \int P(\textbf x^*|\boldsymbol\theta) P(\boldsymbol\theta|\textbf x_{1...I}) d\boldsymbol\theta \\
(&= \int P(\textbf x^*, \boldsymbol\theta|\textbf x_{1...I}) d\boldsymbol\theta
) \\
\end{align}
ベイズ推定についてはこの記事がわかりやすい
Bernoulli Distribution
- ベルヌーイ分布
\begin{align}
P(x=0) &= 1-\lambda \\
P(x=1) &= \lambda \\
\end{align}
ただし、場合分けを省略するため、以下のように書くことが多い
P(x) = \lambda^x(1-\lambda)^{1-x}\\
Beta Distribution
- ベータ分布、$\beta$分布
ベータ分布における $\lambda$ は、Bernoulli Distribution
のパラメータ(期待値)として説明されることがある。
\lambda \in [1, 0] \\
- ベータ分布の確率密度関数
ベータ分布は、パラメータとして $\alpha, \beta$ という2つの値を持つ。
$\alpha, \beta$ は、ともに正の値(> 0)をとる。
\begin{align}
P(\lambda) &= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\
\\
P(\lambda) &= \frac{1}{B(\alpha, \beta)}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\[25pt]
ただし、ベータ関数(B(\alpha, \beta))は、以下の式で表される \\
B(\alpha, \beta) &= \int^{1}_{0}x^{\alpha-1}(1-x)^{\beta-1}dx \\
\end{align}
- ベータ分布の値 $\lambda$ の期待値
E[\lambda] = \frac {\alpha}{\alpha + \beta}
この辺とかわかりやすい
ベータ分布の分散の式はこっちのサイトで説明されている(ただし、分散は覚えなくていいらしい)
binning
- ビニング、ビン分割
連続値を任意の境界値で区切り、カテゴリ分けして離散値に変換する処理
この記事の説明を借りました。
pythonのpandasによる実装方法の解説もありがたいです。
bipartite
- 2部構成の、2部からなる
boundary
- 境界(線)、限界
calibration (対不均衡データ)
- キャリブレーション
校正、較正などと訳されることもある
「不均衡データに対する分類の予測確率を調整する方法」などとして説明される
以下の記事は結構わかりやすい。
この記事だけじゃわからないかもしれないけど、他の記事よりわかりやすいのは間違いないと感じる。
ちなみに、calibrationについて本格的に論じられている記事はこちら。
calibration (対カメラ)
- 校正、キャリブレーション
カメラなどの文脈ではまた違う意味を持つ
カメラ画像内における位置と現実世界における位置を紐づけるために、以下の二つを取得する- 画像中の座標からカメラ座標系への変換行列
- カメラ座標系から世界座標系への変換行列
callous
- 冷淡な、無慈悲な
candidly
- 率直に
cardinality
- 濃度
- カーディナリティ - データベースの分野においては、ある特定のカラムに含まれる値の種類数のことをいう
categorical distribution
- カテゴリカル分布
あんまりよく理解できてない
多項分布とは違うらしい
Simon Princeの"Computer vision: models, learning and inference"には、多項分布との違いが記載されているとのこと
Udemyの「ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎1」 第15項のCategorival and Dirichlet distributionsに出てきた用語
CDF (cumulative distribution function)
- 累積分布関数
circumvent
- 迂回する、回避する、取り囲む
clearance
- 隙間、余裕、ゆとり
clip
- 切り抜く、切り出す、刈り込む
英単語としてはもっと色々な意味があるけど、機械学習分野においては、大体がこの意味
coarse
- 粗い、下品な
<=> fine
coefficient
- 係数
Cohen’s kappa
- コーエンのカッパ値
ある評価を2人の人が行った場合に、その二人の評価結果の一致度を表す指標。
複数人でデータのアノテーションをした際などに測定する。
0-1のスケールの値であり、値が大きいほど一致度が高いことになる。
complement
- (verb) 補足する、補う
concave
- 凹面の、凹形の
- <=> convex: 凸型の
conditional probability
- 条件付き確率
joint probability(同時確率)
をmarginal probability(周辺確率)
で除算したもの。
P(x|y) = \frac{P(x, y)}{P(y)}\\
P(y|x) = \frac{P(x, y)}{P(x)}\\
conjecture
- 推測する
conjugate
- 共役(きょうやく)な
- complex conjugate
複素共役
$a+bi$ と $a-bi$ は互いに共役 - conjugate distributions
共役分布- Beta分布は、Bernoulli分布に対して共役
- Dirichlet分布は、categorical分布に対して共役
- Normal inverse gamma分布はnormal distributionに対して共役
- Normal inverse Wishart分布はmultivariate normal distributionに対して共役
- 共役分布の特徴
ある分布とそれに対して共役な分布の積は、共役な分布と同様な形になる
\begin{align}
共役分布同士の積の例 \\
P(x|\lambda) &= Bern_x[\lambda] \\
P(\lambda) &= Beta_{\lambda}[\alpha, \beta] \\[20pt]
という分布がある時、 \\
P(x|\lambda)P(\lambda) &= \kappa(x, \alpha, \beta) * Beta_{\lambda}[\tilde\alpha, \tilde\beta] \\
(ただし、\kappa(x, \alpha, \beta)&は定数)
\end{align}
- 証明
\begin{align}
P(x|\lambda)P(\lambda) &= Bern_x[\lambda] * Beta_{\lambda}[\alpha, \beta] \\
&= \lambda^x(1-\lambda)^{1-x} * \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\
&= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{x+\alpha-1}(1-\lambda)^{1-x+\beta-1} \\
&= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]} \frac{\Gamma[x + \alpha] \Gamma[1 -x + \beta]}{\Gamma[x + \alpha + 1 -x \beta]} Beta_{\lambda}[x+\alpha, 1-x+\beta] \\
&= \kappa(x, \alpha, \beta) * Beta_{\lambda}[\tilde\alpha, \tilde\beta] \\
(ただし、&Beta_{\lambda}の手前は全て定数\kappa)
\end{align}
constraint
- 制約
convergence
- 収束、収斂
convolve(convolute)
- 畳み込む
coordinate
-
座標
-
coordinate system / system of coordinates
座標系
correlation
-
相関、相関関係
-
correlation coefficient
相関係数
cosine distance / cosine similarity
コサイン類似度
コサイン距離を求めるのに、1を引いている理由がわからない
counterintuitive
直感に反する
covariance
- 共分散
Cov = \frac {1}{n} \sum (x_i - \bar x)(y_i - \bar y)\\
deceptive reinforcement learning / deceptive reward function
- ちょうどいい日本語訳は見つかっていない...(;˘ω˘)
- 悪意のある攻撃者の手によって、「エージェントが攻撃者にとって都合のいい行動をとるように、作意的に報酬をコントロールする」という形でのセキュリティに対する攻撃が有り得るが、そうした攻撃を防ぐための手法として研究されているようだ
declarative knowledge
- 宣言的知識
- <=> procedural knowledge / imperative knowledge
decomposition
- 分解、解体
deformation
- 形の崩れ、奇形
degradation
(性能)劣化、降職、低下、退化、分解
denominator
- 分母
対義語: numerator
density
- 密度
確率密度関数などの「密度」を表している可能性がある
determinant
- 行列式
- determinantal: 行列式の
- Determinantal Point Processes (DPP): 行列式点過程
detour
- 迂回路、回り道
deviate (from ~)
- それる、逸脱する
deviation
- 偏差
diagonal
- 対角線の
- Diagonal matrix
例えば以下のように、対角成分以外が0になっている行列のことをDiagonal matrix(対角行列)と呼ぶ
\begin{pmatrix}
\sigma^2 & 0 \\
0 & \sigma^2 \\
\end{pmatrix}
例として出したけれども、別に各要素の値が$\sigma^2$である必要はなく、以下の行列もDiagonal matrixである。
\begin{pmatrix}
1 & 0 \\
0 & 2 \\
\end{pmatrix}
differentiable
- 微分可能な
differential coefficient
- 微分係数
ある関数を特定の点で微分したときの、接線の傾き
directed
- 有向の、有向~
Dirichlet Distribution
-
ディリクレ分布
パラメータを $k$ 個持つ。
分布の期待値 $\lambda$ が、全ての $k$ について
$\lambda_k \in [0, 1]$ where $\sum_k \lambda_k = 1$
(各 $\lambda$ は全て0~1 の間の値で、かつ全ての $\lambda$ の和が1)
という条件を満たす分布。 -
確率密度関数
以下の式中のパラメータ $\alpha_k$ は全て、0よりも大きい値をとる
P(\lambda_1 ... \lambda_K) = \frac{\Gamma[\sum^K_{k=1}\alpha_k]}{\prod^K_{k=1} \Gamma[\alpha_k]} \prod^K_{k=1} \lambda^{\alpha_{k-1}}_k
定義は複雑そうだけど、チャート図表で表されると全然大したことなかった(´^ω^`)ブフォ
余裕あったらmatplotlibで可視化して載せたい。
discounting coefficient
- 割引係数
discrete
-
離散的な
-
discrete random variables
離散確率変数
discretize
- 離散化する
discriminative
- 判別可能な、程度に差をつける
discriminative model (<=> generative model)
- 識別モデル / 判別モデル
得られた観測データ / 計測データ$\boldsymbol{x}$から、知りたい対象$\boldsymbol{w}$がどんな状態を取りやすいか、という確率分布$P(\boldsymbol{w}|\boldsymbol{x})$をモデル化したもの
distract
- 気をそらす、散らす、混乱させる
divergence
- 分岐、逸脱、相違
divide
- (ある数を別の数で)割る
DPP
dread
- (verb) 怖がる
- (noun) 恐怖、恐ろしいもの
efficacy
- 効能
e.g.
- たとえば (for example)
- ラテン語の exempli gratia の略
eigenvalue / eigenvector
- 固有値 / 固有ベクトル
数学のうち、線形代数の分野で登場する用語
elasticity
-
弾力、弾性、順応性
-
elastic
弾力的な
elicit
- 引き出す
EM algorithm (Expectation Maximization Algorithm)
- 期待値最大化アルゴリズム
- パラメータ$\theta$の尤度を最大化することでパラメータを求めたいが、それが計算上難しい場合に採用されることがあるアルゴリズム
- パラメータ$\theta$の尤度よりも常に小さな値をとる
lower bound
(下界)を定義して用いる - EステップとMステップと呼ばれる手順を交互に繰り返すことでlower boundの最大化を目指し、結果的に尤度を最大化するパラメータ$\theta$を求める
EMアルゴリズムにおけるlower bound(下界)は、jensenの不等式を利用して以下のように定義される。
\begin{align}
B[\{q_i(\boldsymbol{h}_{i}) \}, \boldsymbol\theta ] &= \sum_{i=1}^I \int q_i (\boldsymbol h_i) \log \left[ \frac{P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta)}{q_i(\boldsymbol{h})_i} \right] d \boldsymbol{h}_i (下界) \\
&\leq \sum_{i=1}^I \log \left[ \int q_i (\boldsymbol h_i)
\frac{P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta)}{q_i(\boldsymbol{h})_i} d \boldsymbol{h}_i \right] \\
&= \sum_{i=1}^I \log \left[ \int P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta) d \boldsymbol{h}_i \right] \\
\end{align}
Empirical Results
- 実証結果
element-wise
- 要素毎の
encompass
- ~を網羅する、~を包含する
enumerate
- 列挙する、数え上げる
equation
- 方程式、等式
equidistant
- 等距離の、等距離な
ETL
- 「Extract ・抽出」
- 「Transform ・変換、加工」
- 「Load ・書き出し」
Euclidean space
- ユークリッド空間
expectation
-
期待値
-
xが離散値をとるとき
E[f(x)] = \sum_x f(x)P(x) \\
- xが連続値をとるとき
E[f(x)] = \int f(x)P(x) dx \\
- 公式
$k$ を定数とすると、
- $E[k] = k $
- $E[kf(x)] = kE[f(x)] $
- $E[f(x) + g(x)] = E[f(x)] + E[g(x)] $
- $E[f(x) * g(x)] = E[f(x)] * E[g(x)] $ (ただし、xとyが独立な場合)
expedite
- 促進する
factorial
- 階上の、要因の、因子の
family
- 属
特定のパラメータに従う、モデルや分布の集合をfamily(属)と呼んだりする
feasible
- 実行できる、あり得る
finer
- 微細な、素晴らしい
finite
- 有限の、限定された
Finite Difference
- 有限差分
偏微分方程式で登場する用語らしい
Fisher information matrix
- フィッシャー情報行列
この記事が超絶簡潔にまとめてくれている
fo, F0 (fundamental frequency)
- 基本周波数
信号を正弦波の合成によって表す場合の、最も低い周波数成分の周波数。
音声認識の分野において重要な値らしい!
formerly
- 昔は、以前は
formulate
- 考案する、公式化する
fraction
- 分数
- 端数、ほんの僅か
Gamma Function
-
ガンマ関数
-
$z$ が整数の時
\Gamma(z) = (z-1)!
- $z$ が実数値の時
\Gamma(z) = {\int}^{\infty}_{0} t^{z-1} e^{-t} dt \\
Gaussian Distribution / Normal Distribution
- ガウス分布 / 正規分布
- 確率密度関数
パラメータは、平均($\mu$)と分散($\sigma^2$)の2つ。
P(x) = \frac {1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
Gaussian filter, Gaussian Blur
- ガウシアンフィルター、ガウスフィルター
画像をぼかす際や、画像内のノイズを除去したいときに用いられる
使用する際は、パラメータとして標準偏差(σ)の指定によって、ぼかしの強さを調節する
generic
- 一般的な、包括的な
generative model (<=> discriminative model)
- 生成モデル
知りたい対象がある状態$\boldsymbol{w}$のときに、どんな観測データ$\boldsymbol{x}$が得られやすいか、という確率分布$P(\boldsymbol{x}|\boldsymbol{w})$をモデル化したもの
geometric
- 幾何学の、幾何学的な
Global Average Pooling (GAP)
この記事はかなりわかりやすかったです。
この記事を何回も読めばバッチリ理解できそう。
halve
- 2等分する、半減する
hamper
- ~を妨げる、妨害する
i.e.
- 言い換えると (in other words)
- ラテン語のid estの略
- Internet Explore(死語)ではないはず(´^ω^`)ブフォwww
IID, i.i.d., iid
- independent and identically distributed
独立同分布、独立同一分布
次の資料の3ページ目の説明はわかりやすい。
詳しいのはWikipedia (わかりにくいけど)。
immense (adj)
- 測れないほど大きな
huge < enormous < immense の順でより大きいことを表現しているという。
詳細は以下の記事を参照。
impatient
- 気短な、我慢できない、待ち遠しがる
imperative knowledge
- 手続き的知識
- <=> declarative knowledge
-
Procedural knowledge
と同義
impute
- impute A to B
A を B のせいにする、 A を B に負わせる
incur
- ~を負う、受ける、招く、被る
inductive
- 帰納的な、帰納法的な
initiate
- ~を始める、創始する、伝授する
initiative
- a new plan or process
in person
- 直接に、直に
instability
- 不安定さ、変わりやすさ
interchangeably
- 交換可能な形で、交互に
interpolate
- 補完する、差し込む
intractable (<=> tractable)
- 手に負えない、扱いにくい
intricate
- 複雑な、難解な
intrusion
- 侵入、推し付け
Iverson bracket
- アイバーソンの記法
[P] \\
のように書くと \\
PがTrueのとき、値は1に、 \\
PがFalseのとき、値は0になる
isotropic
- 等方的な、等方性の
- 対義語は anisotropic (異方的な、異方性の)
BERTなどの自然言語の事前学習モデルの論文で問題に上がる性質
以下の論文で詳しく言及されていた
Jensen's inequality
- イェンゼンの不等式
$f(x$)が凸関数で下に凸のとき、
\sum_{i=1}^n\lambda_{i} f(x_i) \geq f(\sum_{i=1}^n \lambda_i x_i)
-
EMアルゴリズムにおいて下界を定義するときは、これを利用して、以下の式を導出する。
$f(x) = \log{x}$とすると、$\log{x}$は上に凸な関数なので、不等号の向きが逆になり、
E[log[y]] \leq log[E[y]] \\
離散値の時 \\
\sum_y q(y) \log [y] \leq \log \left[ \sum_y q(y) y \right] \\
連続値の時 \\
\int q(y) \log [y]dy \leq \log \left[ \int q(y) y dy \right] \\
joint probability (simultaneous probability)
-
同時確率
-
xとyが互いに独立な場合
P(x,y) = P(x) * P(y)\\
jointly
- 共同で、一緒に
Laplace approximation
- ラプラス近似(値・式・法)
latent variable
- 潜在変数
lexical
- 辞書的な
likelihood
- 尤度
あんまりわかりやすい説明じゃないけど、まぁわかるかな?
という解説のある説明(´^ω^`)
localization
- 局在、局在化
local optima / local optimum
- 局所最適
logarithmically
- 対数的に
Logarithmic transformation (Logarithmic conversion)
- 対数変換
look over
- ざっと目を通す、見渡す
lower bound
- 下限
magnitude
- 大きさ、大小、重要さ
※あんまり上手い訳ではない気がするので、より良い訳を求む
magnitude
は以下で出てきました。
mode – either 'fan_in' (default) or 'fan_out'. Choosing 'fan_in' preserves the magnitude of the variance of the weights in the forward pass. Choosing 'fan_out' preserves the magnitudes in the backwards pass.
MAP (maximum a posterior / maximum a posteriori)
- 最大事後確率
pythonコードとともに解説している記事
- MAP推定(事後確率最大推定)
事後確率…$P(\boldsymbol {\theta}|x_{1...I})$
求めたいパラメータは $\boldsymbol {\theta}$
\begin{align}
\newcommand{\argmax}{\mathop{\rm argmax}\limits} \\
\boldsymbol {\hat\theta} &= \argmax_{\boldsymbol {\theta}}[P(\boldsymbol {\theta}|x_{1...I})] \\
ベイズの&定理より \\
&= \argmax_{\boldsymbol {\theta}} \left[\frac{P(x_{1...I}|\boldsymbol {\theta})P(\boldsymbol {\theta})}{P(x_{1...I})} \right] \\
&= \argmax_{\boldsymbol {\theta}} \left[\frac{\prod^I_{i=1} P(x_{i}|\boldsymbol {\theta})P(\boldsymbol {\theta})}{P(x_{1...I})} \right] \\
ここで、&分子には \boldsymbol {\theta} がなく、\\
[] 内を最&大化するにあたって関係ないので、分子を無視する \\
&= \argmax_{\boldsymbol {\theta}} \left[\prod^I_{i=1} P(x_{i}|\boldsymbol {\theta})P(\boldsymbol {\theta}) \right] \\
\end{align}
最尤推定とMAP推定に関する、超絶分かりやすい記事
marginal distribution
- 周辺分布
- marginalization: 周辺化
x, yの同時分布が与えられたとき、x, yそれぞれの分布(周辺分布)を求めること
x, yの同時分布に対してyで積分すると、xの分布が求まる
x, yの同時分布に対してxで積分すると、yの分布が求まる
連続値の場合 \\
P(x) = \int P(x, y) dy\\
P(y) = \int P(x, y) dx\\
離散値の場合 \\
P(x) = \sum_y P(x, y) \\
P(y) = \sum_x P(x, y) \\
- marginalizationにconjugateな分布を利用する
これにより、計算が楽になる。
右辺は、 $\int 定数a * 確率分布 d\theta = 定数a \int 確率分布 = 定数a $ となる。
marginalize
- ~を軽視する、重要視しない
matrix
- 行列
Mel Frequency Cepstral Coefficients (MFCC)
- メル周波数ケプストラム係数
音声認識処理に使われることがある音響分析手法。
人(動物)が声を出すときに声道を震わせるのですが、その振動に関する情報を声道特性と呼び、その声道特性を、振動の周波数を元にして表現したものをMFCCと呼ぶようです。
厳密には、人や動物の音声だけでなく、物体の振動に対しても分析可能な模様。
以下の記事が評判も良いようなので参考に
metric
- 計量、計測、何らかの対象を測るシステム
mitigate
- 軽減する、やわらげる、静める
MLE (maximum likelihood estimation)
- 最尤推定
観測値/サンプル($x_1 ~ x_I$)が与えられたときに、その観測値が観測される可能性が最も高い(尤もらしい)分布のパラメータ($\theta$)を推定する。
\begin{align}
\newcommand{\argmax}{\mathop{\rm argmax}\limits} \\
\hat \theta = \argmax_{\theta}[P(x_{1...I}|\theta)] \\
同時確率は、各確率の積なので \\
= \argmax_{\theta} \left[\prod^I_{i=1} P(x_i|\theta) \right]
\end{align}
機械学習の文脈で言うと、
- $x$が学習データ
- データの学習によって$\hat\theta$というパラメータを求める
- 評価は、別のデータ $x^*$ を用いて、 $\hat\theta$ というパラメータが与えられたときに $x^*$ が得られる確率 $P(x^*|\hat\theta)$ を求めることによって行われる。
最尤推定とMAP推定に関する、超絶分かりやすい記事
moment
- モーメント、積率
- moment generating function
モーメント母関数
以下の記事がわかりやすかった
momentous
- 重大な
monotonic (monotone)
- 単調な
- e.g. monotonically non-decreasing function
単調増加関数
monotony
- 単調さ、変化のなさ
morphological
- 形態的な、形態学上の
- morphological analysis
形態素解析
日本語の形態素解析ツールのMeCab
とか有名だね。
multinomial
- (noun) 多項式
- (adj) 多項の
- multinomial logistic regression
多項ロジスティック回帰
multitude (noun)
- 多数
"multitude of ~" と書いて、「多数の~」の意味で用いられることが多い
multivariate normal distribution
-
多変量正規分布
-
確率密度関数
nは変量の数
パラメータは$\boldsymbol{\mu}$(平均ベクトル) と $\boldsymbol{\sum}$ (共分散行列: variance-covariance-matrix)
P(\textbf{x}) = \frac {1}{\sqrt {(2\pi)^n |\boldsymbol{\sum}|}} e^{- \frac{1}{2}(\textbf{x} - \boldsymbol{\mu} )^T \boldsymbol{\sum}^{-1} (\textbf{x} - \boldsymbol{\mu})}
negative sampling
Word2Vec のニューラルネットワーク学習過程を理解する
ニューラルネットワークを構築し、重みの更新式も手に入れたのであとは実装するのみになりました。さて、実装できたので学習するぞー、と意気込んで学習を始めてみたところ 1 つの問題にぶち当たります。それは計算量が爆発しすぎて学習がなかなか終わらない問題です。
そこで使われる高速化のテクニックが Negative Sampling です。
学習に k 個程度のサンプルを不正解データとして混ぜ込むことから Negative Sampling という名前がついています。この k という値は、論文によると通常 5 〜 20 程度で十分であり、またデータセットが十分に大きければ 2 〜 5 個程度でも良い性能を発揮してくれるとのことです。
negligible
- 無視できる(程度の)
N-gram, unigram
null hypothesis
- 帰無仮説
numerator
- 分子
対義語: denominator
observations / observation values
- 観測値
on the fly
- 臨機応変に、その時々の状況に応じて
- 急いで
OOV
- out of vocabulary
自然言語処理の分野において、学習データに含まれていない単語のことを指す言葉
たとえば、単語をベクトル化するアルゴリズムにおいて、OOVな単語は無視されたりする
operand / operator
- 被演算子 / 演算子
以下のような数式があるとき、
a + b = c
a
、b
がoperandで、+
がoperator
operationalize
- ~を操作(operation)可能にする
Ordinary Least Squares (OLS)
- 最小二乗法、最小二乗回帰
outlier
- 外れ値
parametric / non-parametric
- パラメトリック
母集団の分布が、ある特定の分布に従うことがわかっているデータを扱う場合。
たとえば、母集団が正規分布に従うことを仮定して統計的な手法を用いることは多々あるが、これは「パラメトリックな」手法と呼べる。 - ノンパラメトリック
母集団の分布が従う分布を、一切仮定できないデータを扱う場合。
ただし、母集団の分布がわかっている場合でも、サンプルデータ数が少ない場合は敢えてノンパラメトリックな手法が有効とされるケースがある。
この記事とかわかりやすい
- probability density functions (かもしれない...)
- Portable Document Format の可能性も十分あり得る
perceptible
-
知覚できる、かなりの
-
perception
知覚、認識、理解
permutation
- 順列
perturbation
- 摂動
摂動(せつどう、 英語: perturbation)とは、一般に力学系において、主要な力の寄与(主要項)による運動が、他の副次的な力の寄与(摂動項)によって乱される現象である。
Wikipedia: 摂動
plateau
- 台地、グラフの平坦域
plausible
- 尤もらしい
plausibility
- 尤度
あんまりわかりやすい説明じゃないけど、まぁわかるかな?
という解説のある説明(´^ω^`)
polarity
- 極性、対立
polynominal
- 多項式
PoS (part of speech / parts of speech)
- 品詞
posterior probability
- 事後確率
posterior probability
は、数式上はconditional probabilty(条件付き確率)
と同じ式である $P(x|y)$ で表される
ここの説明が、素人にもわかりやすかった
prior probability
- 事前確率
ここの説明が、素人にもわかりやすかった
probabilistic
- 確率論的な
probability distribution
- 確率分布
- 確率分布の積分
端から端まで積分したら必ず1になる
$\int P(x) dx = 1$
product
- 積
proportional to A
- Aに比例する
prose
- 散文
put together
- まとめる、構成する、~を一緒にする
quadratic
-
二次の
-
a quadratic equation : 2次方程式
quantize
- 数値化する
quartile
- 四分位、四分位数
random walk
株価の値動きは、どの時点においても長期的にも短期的にも「上昇と下降の可能性」がほぼ同じであり独立した事象であるから、過去のトレンドやデータによって将来の値動きを予測することは不可能である、とする理論である。日経平均の終値を例にとれば、今日の終値が前日の終値より高くなる確率は1/2、明日の終値が今日の終値より高くなる確率は1/2(安くなる確率が1/2、高くなる確率も1/2)と考える。
数学的に厳密なランダム・ウォークであれば長期的にも上昇と下降の可能性は同じになり、株式投資は値上がり益が期待できないことになるが、株価におけるランダム・ウォーク理論は、(著名なランダム・ウォーク論者である:バートン・マルキール(英語版)の論を含めて)長期的には株価は上昇する可能性の方が高いことを前提としており、インデックスファンド投資への理論武装として語られるのが一般的である。
Residual
- 残余、剰余
resolution
- 分解能、解像度
- 決意、決議、解決、解答
RHS (Right Hand Side)
- 右辺
saturate
- 飽和させる、満たす、過剰に供給する、浸す
segregation
- 分離
semantically
- 意味上は、意味的には、意味の上では
skew, skewed
-
斜めの、歪んだ、曲がった
-
skewness
歪度
slew of ~
- たくさんの~
span
- ~を繋ぐ、~にかかる
- ~を補う
sparsity
- 希薄さ、まばらさ
具体的には、空の値や0
ばかりであること
spatial
- 空間の、空間的な
spontaneous (adj)
- 自然に発生する、現れる
- 天然の
stall
- ~を動かなくする、失速させる、立ち往生させる
step size
- 学習率のこと
learning rateなどと同じ意味で用いられることがある
紛らわしい(´^ω^`)
stochastic
- 確率的
sub-optiomal
- (adj)(否定的な意味で)最適以下の、最適ではない〜
subsampling
画像処理の Chroma subsampling
という意味でこの単語が用いられることもある。
ただし、単なる Undersampling
(入力データのレコード数などを削減する)の意味で使われることもある。
substantially
- 実質上、実質的に、十分に
subtract
- (ある数を別の数から)引く
surreptitious
- (不正であるなどの理由で)内密の、こそこそとした
surrogate
- 代理の、代用の
susceptible
- 敏感な、影響を受けやすい、~が可能な
syntactically
- 構文的に
tangent
- (adj) ~に接する、~に接して
- (noun) 接線、タンジェント、正接
tantamount
- (…に)同等で
term
- 項、単項式
tractable
- 素直な、従順な、扱いやすい
underpin
- 土台を補強する、支持する、実証する
- underpinning
支柱、支え、土台
uniformly
- 一様に、均等に、一律に
variation
- 変動、変化
- 変分
variational method
(変分法) を参照
variational method, variational approach
- 変分法
ある関数$y = f(x)$の積分などによって定義される汎関数$I(y)$というものがあると考え、関数$y = f(x)$に変化を加えた時に、汎関数$I(y)$の変分(形状変化や微小な変化)$\delta I$を0にするような関数$y = f(x)$を求める方法。
ごくごく概要なら、以下のはてなブログの記事の説明がわかりやすい
動画でのわかりやすい解説はこちら
もう少しだけ詳しく、しかし素人にも限りなくわかりやすく書かれているのは以下の記事
式展開もある(ただし、部分積分は自力で出来る必要がある)
variance-covariance-matrix
- 分散共分散行列
- 変数が2個(xとy)の場合
\sum = \begin{pmatrix}
\sigma_x^2 & \sigma_{xy} \\
\sigma_{xy} & \sigma_y^2 \\
\end{pmatrix}
- 変数が3個(x, y, z)の場合
\sum = \begin{pmatrix}
\sigma_x^2 & \sigma_{xy} & \sigma_{xz} \\
\sigma_{xy} & \sigma_y^2 & \sigma_{yz} \\
\sigma_{xz} & \sigma_{yz} & \sigma_z^2 \\
\end{pmatrix}
veer
- 方向を変える、急に気持ちを変える
w.r.t.
-
with regard to, with respect to, with reference to
-
~に関して
ひとこと
あんまりよく理解できてない用語については、ただリンクを貼るだけだったり、リンク先の説明を引用しているだけだったりします。
あしからず(o_ _)o))
参考資料
たまに見てる。
TeX
argmaxの直下に$\theta$を表示させる方法は、この記事で知りました。
略語検索サイト
他ではなかなか見つからない専門的(学術的)な略語が、このサイトでヒットすることがある
数学用語資料集
大阪大学 柏木研究室様の資料
以下のページの
「PDF file of Fundamental Mathematical Expressions. At any rate, memorize!」と書かれているところからアクセスできました。