数学 / 統計 / 機械学習用語英和辞書を作ってみる

Last updated at 2025-03-22Posted at 2022-05-28

概要

統計や機械学習について学んでいて、出くわした未知の英単語をまとめたもの。
そのため、

日本語だったら実はよく知っていた
別に統計とか機械学習とは関係ない

という単語も混じっています。

対象者

統計や機械学習などの初心者向け。
この記事を作成した人が結構まだまだ学びたてのため。

いずれは、中級者向け、上級者向け、と言えるような内容にしたい(｀･ω･´)ｷﾘｯ

作成経緯

1回調べただけでは覚えられない。
⇒　前に見た記事をもう1回見たい。
Googleなどで検索すると画面読み込みが発生する、、、
⇒　画面読み込みの時間すら省略したい。

と思ったので作成(´^ω^｀)

使い方 ~How to use~

このページを開いておいて、
Ctrl + Fでページ内検索する。

上から下まで全部読むような記事ではないです。
必要なとこだけ見る。

Library

では、さっそく！(^ワ^*)

affinity

類似性、関係があること、親近感

aka

also known as ~
別名は~、~としても知られている

alternately

かわるがわる、交代交代に

amenable

(adj) ～に従う、～を受け入れやすい

anisotropic

異方的な、異方性
BERTなどの自然言語の事前学習モデルの論文で問題に上がる性質
以下の論文で詳しく言及されていた

apparently

見たところ～らしい、一見すると、明らかに

applicable

適用できる、適切な、該当する、当てはまる

approximation

近似

arbitrary

任意の

arguably

ほぼ間違いなく、恐らく間違いなく

asymptotical

漸近的

augment

増加させる、増大させる

auxiliary

予備の

Bayes’ rule

ベイズの法則
joint probability（条件付き確率）の式から導くことができる

\begin{align}
P(y|x) &= \frac {P(x|y) * P(y)}{P(x)} \\
&= \frac {P(x|y) * P(y)}{\int P(x, y)dy} \\
&= \frac {P(x|y) * P(y)}{\int P(x|y) * P(y)dy} \\
\end{align}

ベイズの法則の式を、各要素に分解
- $P(y|x)$ ： posterior probability（事後確率）
- $P(x|y)$ ： likelyhood（尤度）
- $P(y)$ ： prior probability（事前確率）
  尤度に対してconjugate（共役）な分布を選ぶとよい。
  そうすると、事後分布は事前分布と同じ形になる。
- $P(x)$ ： Evidence と呼ばれ、定数値をとる
  上記の通り、事後分布と事前分布が同じ形になるなら、Evidenceは定数値でなければならないことがわかる。
機械学習の文脈で出てくるかもしれない表現

\begin{align}
p(θ|D) &= \frac {p(D|θ) * p(θ)}{p(D)} \\
\log p(θ|D) &= \log p(D|θ) + \log p(θ) − \log p(D)\\
\end{align}

Bayesian inference

ベイズ推定
最尤推定(ML)やMAP推定とは違い、一つのパラメータ $\theta$ だけでなく、取りうるパラメータ $\boldsymbol\theta$ すべてを求める。
学習

P(\boldsymbol\theta|\textbf x_{1...I}) = \frac { \prod^I_{i=1} P(\textbf x_i|\boldsymbol\theta) P(\boldsymbol\theta)}{P(\textbf x_{1...I})} \\

推論
$\textbf x_{1...I}$というデータが与えられたときに、$\textbf x^*$というデータが現れる確率を計算する。
計算の際は、それぞれの $\boldsymbol\theta$ ごとの重みを乗算して求めた確率を足し合わせ（積分し）ている。

\begin{align}
P(\textbf x^*|\textbf x_{1...I}) &= \int P(\textbf x^*|\boldsymbol\theta) P(\boldsymbol\theta|\textbf x_{1...I}) d\boldsymbol\theta \\
(&= \int P(\textbf x^*, \boldsymbol\theta|\textbf x_{1...I}) d\boldsymbol\theta 
) \\
\end{align}

ベイズ推定についてはこの記事がわかりやすい

Bernoulli Distribution

ベルヌーイ分布

\begin{align}
P(x=0) &= 1-\lambda \\
P(x=1) &= \lambda \\
\end{align}

ただし、場合分けを省略するため、以下のように書くことが多い

P(x) = \lambda^x(1-\lambda)^{1-x}\\

Beta Distribution

ベータ分布、$\beta$分布
ベータ分布における $\lambda$ は、Bernoulli Distributionのパラメータ（期待値）として説明されることがある。

\lambda \in [1, 0] \\

ベータ分布の確率密度関数
ベータ分布は、パラメータとして $\alpha, \beta$ という2つの値を持つ。
$\alpha, \beta$ は、ともに正の値(> 0)をとる。

\begin{align}
P(\lambda) &= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\
\\
P(\lambda) &= \frac{1}{B(\alpha, \beta)}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\[25pt]
ただし、ベータ関数（B(\alpha, \beta)）は、以下の式で表される \\
B(\alpha, \beta) &= \int^{1}_{0}x^{\alpha-1}(1-x)^{\beta-1}dx \\
\end{align}

ベータ分布の値 $\lambda$ の期待値

E[\lambda] = \frac {\alpha}{\alpha + \beta}

この辺とかわかりやすい

ベータ分布の分散の式はこっちのサイトで説明されている（ただし、分散は覚えなくていいらしい）

binning

ビニング、ビン分割
連続値を任意の境界値で区切り、カテゴリ分けして離散値に変換する処理

この記事の説明を借りました。
pythonのpandasによる実装方法の解説もありがたいです。

bipartite

2部構成の、2部からなる

boundary

境界（線）、限界

calibration (対不均衡データ)

キャリブレーション
校正、較正などと訳されることもある
「不均衡データに対する分類の予測確率を調整する方法」などとして説明される

以下の記事は結構わかりやすい。

この記事だけじゃわからないかもしれないけど、他の記事よりわかりやすいのは間違いないと感じる。

ちなみに、calibrationについて本格的に論じられている記事はこちら。

calibration (対カメラ)

校正、キャリブレーション
カメラなどの文脈ではまた違う意味を持つ
カメラ画像内における位置と現実世界における位置を紐づけるために、以下の二つを取得する
- 画像中の座標からカメラ座標系への変換行列
- カメラ座標系から世界座標系への変換行列

callous

冷淡な、無慈悲な

candidly

率直に

cardinality

濃度
カーディナリティ - データベースの分野においては、ある特定のカラムに含まれる値の種類数のことをいう

categorical distribution

カテゴリカル分布
あんまりよく理解できてない
多項分布とは違うらしい
Simon Princeの"Computer vision: models, learning and inference"には、多項分布との違いが記載されているとのこと

Udemyの「ベイズ推定とグラフィカルモデル：コンピュータビジョン基礎1」第15項のCategorival and Dirichlet distributionsに出てきた用語

CDF (cumulative distribution function)

累積分布関数

circumvent

迂回する、回避する、取り囲む

clearance

隙間、余裕、ゆとり

clip

切り抜く、切り出す、刈り込む
英単語としてはもっと色々な意味があるけど、機械学習分野においては、大体がこの意味
画像処理分野の用語として crop も参照

coarse

粗い、下品な
<=> fine

coefficient

係数

Cohen’s kappa

コーエンのカッパ値
ある評価を2人の人が行った場合に、その二人の評価結果の一致度を表す指標。
複数人でデータのアノテーションをした際などに測定する。
0-1のスケールの値であり、値が大きいほど一致度が高いことになる。

complement

(verb) 補足する、補う

concave

凹面の、凹形の
<=> convex: 凸型の

conditional probability

条件付き確率
joint probability（同時確率）をmarginal probability（周辺確率）で除算したもの。

P(x|y) = \frac{P(x, y)}{P(y)}\\
P(y|x) = \frac{P(x, y)}{P(x)}\\

conductance

電気抵抗の逆数

conjecture

推測する

conjugate

共役(きょうやく)な
complex conjugate
複素共役
$a+bi$ と $a-bi$ は互いに共役
conjugate distributions
共役分布
- Beta分布は、Bernoulli分布に対して共役
- Dirichlet分布は、categorical分布に対して共役
- Normal inverse gamma分布はnormal distributionに対して共役
- Normal inverse Wishart分布はmultivariate normal distributionに対して共役
共役分布の特徴
ある分布とそれに対して共役な分布の積は、共役な分布と同様な形になる

\begin{align}
共役分布同士の積の例 \\
P(x|\lambda) &= Bern_x[\lambda] \\
P(\lambda) &= Beta_{\lambda}[\alpha, \beta] \\[20pt]
という分布がある時、 \\
P(x|\lambda)P(\lambda) &= \kappa(x, \alpha, \beta) * Beta_{\lambda}[\tilde\alpha, \tilde\beta] \\
(ただし、\kappa(x, \alpha, \beta)&は定数)
\end{align}

証明

\begin{align}
P(x|\lambda)P(\lambda) &= Bern_x[\lambda] * Beta_{\lambda}[\alpha, \beta] \\
&= \lambda^x(1-\lambda)^{1-x} * \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{\alpha-1}(1-\lambda)^{\beta-1} \\
&= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]}\lambda^{x+\alpha-1}(1-\lambda)^{1-x+\beta-1} \\
&= \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha]\Gamma[\beta]} \frac{\Gamma[x + \alpha] \Gamma[1 -x + \beta]}{\Gamma[x + \alpha + 1 -x \beta]} Beta_{\lambda}[x+\alpha, 1-x+\beta] \\
&= \kappa(x, \alpha, \beta) * Beta_{\lambda}[\tilde\alpha, \tilde\beta]　　　　　　\\
（ただし、&Beta_{\lambda}の手前は全て定数\kappa）
\end{align}

constraint

制約

convergence

収束、収斂

convolve(convolute)

畳み込む

coordinate

座標
coordinate system / system of coordinates
座標系

correlation

相関、相関関係
correlation coefficient
相関係数

correspond to O

O と一致する、O に相当する

cosine distance / cosine similarity

コサイン類似度
 コサイン距離を求めるのに、１を引いている理由がわからない

counterintuitive

直感に反する

covariance

共分散

Cov = \frac {1}{n} \sum (x_i - \bar x)(y_i - \bar y)\\

crop

(画像から)矩形領域(くけいりょういき)を切り出す

deceptive reinforcement learning / deceptive reward function

ちょうどいい日本語訳は見つかっていない...(；˘ω˘)
悪意のある攻撃者の手によって、「エージェントが攻撃者にとって都合のいい行動をとるように、作意的に報酬をコントロールする」という形でのセキュリティに対する攻撃が有り得るが、そうした攻撃を防ぐための手法として研究されているようだ

declarative knowledge

宣言的知識
<=> procedural knowledge / imperative knowledge

decomposition

分解、解体

deformation

形の崩れ、奇形

degradation

（性能）劣化、降職、低下、退化、分解

denominator

分母
対義語: numerator

density

密度
確率密度関数などの「密度」を表している可能性がある

determinant

行列式
determinantal: 行列式の
Determinantal Point Processes (DPP): 行列式点過程

detour

迂回路、回り道

deviate (from ~)

それる、逸脱する

deviation

偏差

diagonal

対角線の
Diagonal matrix
例えば以下のように、対角成分以外が0になっている行列のことをDiagonal matrix（対角行列）と呼ぶ

\begin{pmatrix}
\sigma^2 & 0 \\
0 & \sigma^2 \\
\end{pmatrix}

例として出したけれども、別に各要素の値が$\sigma^2$である必要はなく、以下の行列もDiagonal matrixである。

\begin{pmatrix}
1 & 0 \\
0 & 2 \\
\end{pmatrix}

differentiable

微分可能な

differential coefficient

微分係数
ある関数を特定の点で微分したときの、接線の傾き

directed

有向の、有向~

Dirichlet Distribution

ディリクレ分布
パラメータを $k$ 個持つ。
分布の期待値 $\lambda$ が、全ての $k$ について
　　$\lambda_k \in [0, 1]$ where $\sum_k \lambda_k = 1$
　　（各 $\lambda$ は全て0～1 の間の値で、かつ全ての $\lambda$ の和が1）
という条件を満たす分布。
確率密度関数
以下の式中のパラメータ $\alpha_k$ は全て、0よりも大きい値をとる

P(\lambda_1 ... \lambda_K) = \frac{\Gamma[\sum^K_{k=1}\alpha_k]}{\prod^K_{k=1} \Gamma[\alpha_k]} \prod^K_{k=1} \lambda^{\alpha_{k-1}}_k

定義は複雑そうだけど、チャート図表で表されると全然大したことなかった(´^ω^｀)ﾌﾞﾌｫ
余裕あったらmatplotlibで可視化して載せたい。

discounting coefficient

割引係数

discrete

離散的な
discrete random variables
離散確率変数

discretize

離散化する

discriminative

判別可能な、程度に差をつける

discriminative model (<=> generative model)

識別モデル / 判別モデル
得られた観測データ / 計測データ$\boldsymbol{x}$から、知りたい対象$\boldsymbol{w}$がどんな状態を取りやすいか、という確率分布$P(\boldsymbol{w}|\boldsymbol{x})$をモデル化したもの

distract

気をそらす、散らす、混乱させる

divergence

分岐、逸脱、相違

divide

（ある数を別の数で）割る

DPP

Determinantal Point Processes

dread

(verb) 怖がる
(noun) 恐怖、恐ろしいもの

efficacy

効能

e.g.

たとえば (for example)
ラテン語の exempli gratia の略

eigenvalue / eigenvector

固有値 / 固有ベクトル
数学のうち、線形代数の分野で登場する用語

elasticity

弾力、弾性、順応性
elastic
弾力的な

elicit

引き出す

EM algorithm (Expectation Maximization Algorithm)

期待値最大化アルゴリズム
- パラメータ$\theta$の尤度を最大化することでパラメータを求めたいが、それが計算上難しい場合に採用されることがあるアルゴリズム
- パラメータ$\theta$の尤度よりも常に小さな値をとるlower bound（下界）を定義して用いる
- EステップとMステップと呼ばれる手順を交互に繰り返すことでlower boundの最大化を目指し、結果的に尤度を最大化するパラメータ$\theta$を求める

EMアルゴリズムにおけるlower bound（下界）は、jensenの不等式を利用して以下のように定義される。

\begin{align}
B[\{q_i(\boldsymbol{h}_{i}) \}, \boldsymbol\theta ] &= \sum_{i=1}^I \int q_i (\boldsymbol h_i) \log \left[ \frac{P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta)}{q_i(\boldsymbol{h})_i} \right] d \boldsymbol{h}_i （下界） \\
&\leq \sum_{i=1}^I \log \left[ \int q_i (\boldsymbol h_i) 
 \frac{P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta)}{q_i(\boldsymbol{h})_i} d \boldsymbol{h}_i \right] \\
&= \sum_{i=1}^I \log \left[ \int P(\boldsymbol{x}_i, \boldsymbol{h}_i | \boldsymbol\theta) d \boldsymbol{h}_i \right] \\
\end{align}

Empirical Results

実証結果

element-wise

要素毎の

encompass

～を網羅する、～を包含する

enumerate

列挙する、数え上げる

equation

方程式、等式

equidistant

等距離の、等距離な

ETL

「Extract ・抽出」
「Transform ・変換、加工」
「Load ・書き出し」

Euclidean space

ユークリッド空間

expectation

期待値
xが離散値をとるとき

E[f(x)] = \sum_x f(x)P(x) \\

xが連続値をとるとき

E[f(x)] = \int f(x)P(x) dx \\

公式
$k$ を定数とすると、

$E[k] = k $
$E[kf(x)] = kE[f(x)] $
$E[f(x) + g(x)] = E[f(x)] + E[g(x)] $
$E[f(x) * g(x)] = E[f(x)] * E[g(x)] $ （ただし、xとyが独立な場合）

expedite

促進する

factorial

階上の、要因の、因子の

family

属
特定のパラメータに従う、モデルや分布の集合をfamily（属）と呼んだりする

feasible

実行できる、あり得る

finer

微細な、素晴らしい

finite

有限の、限定された

Finite Difference

有限差分
偏微分方程式で登場する用語らしい

Fisher information matrix

フィッシャー情報行列

この記事が超絶簡潔にまとめてくれている

fo, F0 (fundamental frequency)

基本周波数
信号を正弦波の合成によって表す場合の、最も低い周波数成分の周波数。
音声認識の分野において重要な値らしい！

formerly

昔は、以前は

formulate

考案する、公式化する

fraction

分数
端数、ほんの僅か

Gamma Function

ガンマ関数
$z$ が整数の時

\Gamma(z) = (z-1)!

$z$ が実数値の時

\Gamma(z) = {\int}^{\infty}_{0} t^{z-1} e^{-t} dt \\

Gaussian Distribution / Normal Distribution

ガウス分布 / 正規分布
確率密度関数
パラメータは、平均($\mu$)と分散($\sigma^2$)の2つ。

P(x) = \frac {1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

Gaussian filter, Gaussian Blur

ガウシアンフィルター、ガウスフィルター
画像をぼかす際や、画像内のノイズを除去したいときに用いられる
使用する際は、パラメータとして標準偏差（σ）の指定によって、ぼかしの強さを調節する

generic

一般的な、包括的な

generative model (<=> discriminative model)

生成モデル
知りたい対象がある状態$\boldsymbol{w}$のときに、どんな観測データ$\boldsymbol{x}$が得られやすいか、という確率分布$P(\boldsymbol{x}|\boldsymbol{w})$をモデル化したもの

geometric

幾何学の、幾何学的な

Global Average Pooling (GAP)

この記事はかなりわかりやすかったです。

この記事を何回も読めばバッチリ理解できそう。

halve

2等分する、半減する

hamper

~を妨げる、妨害する

i.e.

言い換えると (in other words)
ラテン語のid estの略
Internet Explore（死語）ではないはず(´^ω^｀)ﾌﾞﾌｫwww

IID, i.i.d., iid

independent and identically distributed
独立同分布、独立同一分布

次の資料の3ページ目の説明はわかりやすい。

詳しいのはWikipedia (わかりにくいけど)。

immense (adj)

測れないほど大きな

huge < enormous < immense の順でより大きいことを表現しているという。
詳細は以下の記事を参照。

impatient

気短な、我慢できない、待ち遠しがる

imperative knowledge

手続き的知識
<=> declarative knowledge
Procedural knowledgeと同義

impute

impute A to B
A を B のせいにする、 A を B に負わせる

incur

~を負う、受ける、招く、被る

inductive

帰納的な、帰納法的な

initiate

~を始める、創始する、伝授する

initiative

a new plan or process

in person

直接に、直に

instability

不安定さ、変わりやすさ

interchangeably

交換可能な形で、交互に

interpolate

補完する、差し込む

intractable (<=> tractable)

手に負えない、扱いにくい

intricate

複雑な、難解な

intrusion

侵入、推し付け

Iverson bracket

アイバーソンの記法

[P] \\
のように書くと \\
PがTrueのとき、値は1に、 \\
PがFalseのとき、値は0になる

isotropic

等方的な、等方性の
対義語は anisotropic (異方的な、異方性の)
BERTなどの自然言語の事前学習モデルの論文で問題に上がる性質
以下の論文で詳しく言及されていた

Jensen's inequality

イェンゼンの不等式
$f(x$)が凸関数で下に凸のとき、

\sum_{i=1}^n\lambda_{i} f(x_i) \geq f(\sum_{i=1}^n \lambda_i x_i)

EMアルゴリズムにおいて下界を定義するときは、これを利用して、以下の式を導出する。
$f(x) = \log{x}$とすると、$\log{x}$は上に凸な関数なので、不等号の向きが逆になり、

E[log[y]] \leq log[E[y]] \\
離散値の時 \\
\sum_y q(y) \log [y] \leq \log \left[ \sum_y q(y) y \right] \\
連続値の時 \\
\int q(y) \log [y]dy \leq \log \left[ \int q(y) y dy \right] \\

joint probability (simultaneous probability)

同時確率
xとyが互いに独立な場合

P(x,y) = P(x) * P(y)\\

jointly

共同で、一緒に

label flipping

ラベルフリッピング
- 「ラベルの誤りを故意に加える」ことを指すことがある。これは、AIモデル開発者が研究目的達成のためのデータセット作成で行うことだけでなく、悪意のある者がモデルの精度を低下させることを企図して行うことを表すこともある。
- ※ただし、「attack」などの故意性を明確に表現する単語とともに現れていない場合もあり、この場合に、必ず故意で誤ったラベルを付けたかどうかは文脈によりそうである。たとえば、アノテーターが誤って異なるラベルを付けた場合も含みそうである。

Laplace approximation

ラプラス近似（値・式・法）

latent variable

潜在変数

lexical

辞書的な

likelihood

尤度
≒ plausibility

あんまりわかりやすい説明じゃないけど、まぁわかるかな？
という解説のある説明(´^ω^｀)

localization

局在、局在化

local optima / local optimum

局所最適

logarithmically

対数的に

Logarithmic transformation (Logarithmic conversion)

対数変換

look over

ざっと目を通す、見渡す

lower bound

下限

magnitude

大きさ、大小、重要さ

※あんまり上手い訳ではない気がするので、より良い訳を求む

magnitude は以下で出てきました。

mode – either 'fan_in' (default) or 'fan_out'. Choosing 'fan_in' preserves the magnitude of the variance of the weights in the forward pass. Choosing 'fan_out' preserves the magnitudes in the backwards pass.

該当箇所: pytorch公式ドキュメント - kaiming_normal_

MAP (maximum a posterior / maximum a posteriori)

最大事後確率

pythonコードとともに解説している記事

MAP推定（事後確率最大推定）
事後確率…$P(\boldsymbol {\theta}|x_{1...I})$
求めたいパラメータは $\boldsymbol {\theta}$

\begin{align}

\newcommand{\argmax}{\mathop{\rm argmax}\limits} \\

\boldsymbol {\hat\theta} &= \argmax_{\boldsymbol {\theta}}[P(\boldsymbol {\theta}|x_{1...I})] \\
ベイズの&定理より \\
&= \argmax_{\boldsymbol {\theta}} \left[\frac{P(x_{1...I}|\boldsymbol {\theta})P(\boldsymbol {\theta})}{P(x_{1...I})} \right] \\
&= \argmax_{\boldsymbol {\theta}} \left[\frac{\prod^I_{i=1} P(x_{i}|\boldsymbol {\theta})P(\boldsymbol {\theta})}{P(x_{1...I})} \right] \\
ここで、&分子には \boldsymbol {\theta} がなく、\\
[] 内を最&大化するにあたって関係ないので、分子を無視する \\
&= \argmax_{\boldsymbol {\theta}} \left[\prod^I_{i=1} P(x_{i}|\boldsymbol {\theta})P(\boldsymbol {\theta}) \right] \\

\end{align}

最尤推定とMAP推定に関する、超絶分かりやすい記事

marginal distribution

周辺分布
marginalization: 周辺化
x, yの同時分布が与えられたとき、x, yそれぞれの分布（周辺分布）を求めること
x, yの同時分布に対してyで積分すると、xの分布が求まる
x, yの同時分布に対してxで積分すると、yの分布が求まる

連続値の場合 \\
P(x) = \int P(x, y) dy\\
P(y) = \int P(x, y) dx\\

離散値の場合 \\
P(x) = \sum_y P(x, y) \\
P(y) = \sum_x P(x, y) \\

marginalizationにconjugateな分布を利用する
これにより、計算が楽になる。
右辺は、 $\int 定数a * 確率分布 d\theta = 定数a \int 確率分布 = 定数a $ となる。

marginalize

~を軽視する、重要視しない

matrix

行列

Mel Frequency Cepstral Coefficients (MFCC)

メル周波数ケプストラム係数
音声認識処理に使われることがある音響分析手法。
人（動物）が声を出すときに声道を震わせるのですが、その振動に関する情報を声道特性と呼び、その声道特性を、振動の周波数を元にして表現したものをMFCCと呼ぶようです。
厳密には、人や動物の音声だけでなく、物体の振動に対しても分析可能な模様。

以下の記事が評判も良いようなので参考に

metric

計量、計測、何らかの対象を測るシステム

mitigate

軽減する、やわらげる、静める

MLE (maximum likelihood estimation)

最尤推定
観測値/サンプル（$x_1 ～ x_I$）が与えられたときに、その観測値が観測される可能性が最も高い（尤もらしい）分布のパラメータ（$\theta$）を推定する。

\begin{align}

\newcommand{\argmax}{\mathop{\rm argmax}\limits} \\
\hat \theta = \argmax_{\theta}[P(x_{1...I}|\theta)] \\
同時確率は、各確率の積なので \\
　= \argmax_{\theta} \left[\prod^I_{i=1} P(x_i|\theta) \right]

\end{align}

機械学習の文脈で言うと、

$x$が学習データ
データの学習によって$\hat\theta$というパラメータを求める
評価は、別のデータ $x^*$ を用いて、 $\hat\theta$ というパラメータが与えられたときに $x^*$ が得られる確率 $P(x^*|\hat\theta)$ を求めることによって行われる。

最尤推定とMAP推定に関する、超絶分かりやすい記事

moment

モーメント、積率
moment generating function
モーメント母関数

以下の記事がわかりやすかった

momentous

重大な

monotonic (monotone)

単調な
e.g. monotonically non-decreasing function
単調増加関数

monotony

単調さ、変化のなさ

morphological

形態的な、形態学上の
morphological analysis
形態素解析
日本語の形態素解析ツールのMeCabとか有名だね。

multinomial

(noun) 多項式
(adj) 多項の
multinomial logistic regression
多項ロジスティック回帰

multitude (noun)

多数
"multitude of ~" と書いて、「多数の～」の意味で用いられることが多い

multivariate normal distribution

多変量正規分布
確率密度関数
nは変量の数
パラメータは$\boldsymbol{\mu}$（平均ベクトル）と $\boldsymbol{\sum}$ （共分散行列: variance-covariance-matrix）

P(\textbf{x}) = \frac {1}{\sqrt {(2\pi)^n |\boldsymbol{\sum}|}} e^{- \frac{1}{2}(\textbf{x} - \boldsymbol{\mu} )^T \boldsymbol{\sum}^{-1} (\textbf{x} - \boldsymbol{\mu})}

negative sampling

Word2Vec のニューラルネットワーク学習過程を理解する

ニューラルネットワークを構築し、重みの更新式も手に入れたのであとは実装するのみになりました。さて、実装できたので学習するぞー、と意気込んで学習を始めてみたところ 1 つの問題にぶち当たります。それは計算量が爆発しすぎて学習がなかなか終わらない問題です。

そこで使われる高速化のテクニックが Negative Sampling です。

学習に k 個程度のサンプルを不正解データとして混ぜ込むことから Negative Sampling という名前がついています。この k という値は、論文によると通常 5 〜 20 程度で十分であり、またデータセットが十分に大きければ 2 〜 5 個程度でも良い性能を発揮してくれるとのことです。

negligible

無視できる（程度の）

N-gram, unigram

N-gramの作り方

null hypothesis

帰無仮説

numerator

分子
対義語: denominator

observations / observation values

観測値

on the fly

臨機応変に、その時々の状況に応じて
急いで

OOV

out of vocabulary
自然言語処理の分野において、学習データに含まれていない単語のことを指す言葉
たとえば、単語をベクトル化するアルゴリズムにおいて、OOVな単語は無視されたりする

operand / operator

被演算子 / 演算子

以下のような数式があるとき、

a + b = c

a、bがoperandで、+がoperator

operationalize

~を操作(operation)可能にする

Ordinary Least Squares (OLS)

最小二乗法、最小二乗回帰

outlier

外れ値

parametric / non-parametric

パラメトリック
母集団の分布が、ある特定の分布に従うことがわかっているデータを扱う場合。
たとえば、母集団が正規分布に従うことを仮定して統計的な手法を用いることは多々あるが、これは「パラメトリックな」手法と呼べる。
ノンパラメトリック
母集団の分布が従う分布を、一切仮定できないデータを扱う場合。
ただし、母集団の分布がわかっている場合でも、サンプルデータ数が少ない場合は敢えてノンパラメトリックな手法が有効とされるケースがある。

この記事とかわかりやすい

PDF

probability density functions (かもしれない...)
Portable Document Format の可能性も十分あり得る

perceptible

知覚できる、かなりの
perception
知覚、認識、理解

permutation

順列

perturbation

摂動

摂動（せつどう、英語: perturbation）とは、一般に力学系において、主要な力の寄与（主要項）による運動が、他の副次的な力の寄与（摂動項）によって乱される現象である。
Wikipedia: 摂動

plateau

台地、グラフの平坦域

plausible

尤もらしい

plausibility

尤度
≒ likelihood

あんまりわかりやすい説明じゃないけど、まぁわかるかな？
という解説のある説明(´^ω^｀)

polarity

極性、対立

polynominal

多項式

PoS (part of speech / parts of speech)

品詞

posterior probability

事後確率

posterior probabilityは、数式上はconditional probabilty（条件付き確率）と同じ式である $P(x|y)$ で表される

ここの説明が、素人にもわかりやすかった

prior probability

事前確率

ここの説明が、素人にもわかりやすかった

probabilistic

確率論的な

probability distribution

確率分布
確率分布の積分
端から端まで積分したら必ず1になる
$\int P(x) dx = 1$

product

proportional to A

Aに比例する

prose

散文

put together

まとめる、構成する、~を一緒にする

quadratic

二次の
a quadratic equation : 2次方程式

quantize

数値化する

quartile

四分位、四分位数

random walk

wikipedia / ランダム・ウォーク理論

株価の値動きは、どの時点においても長期的にも短期的にも「上昇と下降の可能性」がほぼ同じであり独立した事象であるから、過去のトレンドやデータによって将来の値動きを予測することは不可能である、とする理論である。日経平均の終値を例にとれば、今日の終値が前日の終値より高くなる確率は1/2、明日の終値が今日の終値より高くなる確率は1/2（安くなる確率が1/2、高くなる確率も1/2）と考える。

数学的に厳密なランダム・ウォークであれば長期的にも上昇と下降の可能性は同じになり、株式投資は値上がり益が期待できないことになるが、株価におけるランダム・ウォーク理論は、（著名なランダム・ウォーク論者である：バートン・マルキール（英語版）の論を含めて）長期的には株価は上昇する可能性の方が高いことを前提としており、インデックスファンド投資への理論武装として語られるのが一般的である。

reciprocal

逆数

Residual

残余、剰余

resolution

分解能、解像度
決意、決議、解決、解答

retention

維持、保存、記憶

RHS (Right Hand Side)

右辺

saturate

飽和させる、満たす、過剰に供給する、浸す

segregation

分離

semantically

意味上は、意味的には、意味の上では

skew, skewed

斜めの、歪んだ、曲がった
skewness
歪度

slew of ~

たくさんの~

span

～を繋ぐ、～にかかる
～を補う

sparsity

希薄さ、まばらさ
具体的には、空の値や0ばかりであること

spatial

空間の、空間的な

spontaneous (adj)

自然に発生する、現れる
天然の

stall

～を動かなくする、失速させる、立ち往生させる

stationary

静止した、固定された

step size

学習率のこと
learning rateなどと同じ意味で用いられることがある
紛らわしい(´^ω^｀)

stochastic

確率的

submodularity

劣モジュラ性

以下の記事の説明がとても分かりやすい。

定義1の式は限界効用逓減性とも呼ばれます。ざっくり言うと同じもの$i$をもらうときには，裕福な人（$A+j$を持っている人）よりも貧しい人（$A$だけ持っている人）の方が幸せに感じるという性質です。

高校数学の美しい物語 - 「集合関数，劣モジュラ性とは」より引用
https://manabitimes.jp/math/1114#1

また、以下のように簡潔に説明している記事もある。（簡潔すぎて私にはわからない）

sub-optiomal

(adj)（否定的な意味で）最適以下の、最適ではない〜

subsampling

画像処理の Chroma subsampling という意味でこの単語が用いられることもある。

ただし、単なる Undersampling（入力データのレコード数などを削減する）の意味で使われることもある。

その他参考
XGBoost論文を丁寧に解説する(2): ShrinkageとSubsampling / Column subsampling

substantially

実質上、実質的に、十分に

subtract

（ある数を別の数から）引く

surreptitious

（不正であるなどの理由で）内密の、こそこそとした

surrogate

代理の、代用の

susceptible

敏感な、影響を受けやすい、~が可能な

syntactically

構文的に

tangent

(adj) ~に接する、~に接して
(noun) 接線、タンジェント、正接

tantamount

(…に)同等で

term

項、単項式

tractable

素直な、従順な、扱いやすい

transient

一時的な (≒ temporary)

underpin

土台を補強する、支持する、実証する
underpinning
支柱、支え、土台

uniformly

一様に、均等に、一律に

variation

変動、変化
変分
variational method (変分法) を参照

variational method, variational approach

変分法
ある関数$y = f(x)$の積分などによって定義される汎関数$I(y)$というものがあると考え、関数$y = f(x)$に変化を加えた時に、汎関数$I(y)$の変分（形状変化や微小な変化）$\delta I$を0にするような関数$y = f(x)$を求める方法。

ごくごく概要なら、以下のはてなブログの記事の説明がわかりやすい

動画でのわかりやすい解説はこちら

もう少しだけ詳しく、しかし素人にも限りなくわかりやすく書かれているのは以下の記事
式展開もある（ただし、部分積分は自力で出来る必要がある）

variance-covariance-matrix

分散共分散行列
変数が2個（xとy）の場合

\sum = \begin{pmatrix}
\sigma_x^2 & \sigma_{xy} \\
\sigma_{xy} & \sigma_y^2 \\
\end{pmatrix}

変数が3個（x, y, z）の場合

\sum = \begin{pmatrix}
\sigma_x^2 & \sigma_{xy} & \sigma_{xz} \\
\sigma_{xy} & \sigma_y^2 & \sigma_{yz} \\
\sigma_{xz} & \sigma_{yz} & \sigma_z^2 \\
\end{pmatrix}

veer

方向を変える、急に気持ちを変える

w.r.t.

with regard to, with respect to, with reference to
~に関して

ひとこと

あんまりよく理解できてない用語については、ただリンクを貼るだけだったり、リンク先の説明を引用しているだけだったりします。

あしからず（o_ _)ｏ））

参考資料

たまに見てる。

TeX

argmaxの直下に$\theta$を表示させる方法は、この記事で知りました。

略語検索サイト

他ではなかなか見つからない専門的（学術的）な略語が、このサイトでヒットすることがある

数学用語資料集

大阪大学柏木研究室様の資料

以下のページの

「PDF file of Fundamental Mathematical Expressions. At any rate, memorize!」と書かれているところからアクセスできました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

数学 / 統計 / 機械学習用語 英和辞書を作ってみる

概要

対象者