機械学習の難しさは、基礎知識として線形代数や確率・統計が必要であることにありますが
それ以上にこれまでに聞いたことの無い英単語がバシバシ登場することにあります。
そんな、機械学習(+ブロックチェーン)によく出る英単語をまとめました。
また、発音がよくわからない単語は近似カタカナ表記をしています。
参考:英語関係の私の投稿
コンピュータ業界でよく出る英語
リスニング、英会話を向上させる最短ルート
機械学習を英語ビデオで学ぶサイトまとめ
ニューラルネットワーク
Coursera(コーセラ)
Andrew Ng先生が始めたオンラインで大学の講義を提供する組織、サイト。
先生の機械学習の講義は無料で見ることができる。
Course and eraが語源との説あり。
Udacity, Udemy 同じようなにオンラインで講義を提供している会社、サイト。
Keras (ケーラス)
TensorFlow、CNTK,Theanoをもっと簡単に使うためのPythonライブラリ
ギリシア語で角の意味
ケーにアクセントをおく
slope, intercept
直線の傾き、切片
hypothesis(ハイポーティシス)、hypotheses(複)
仮説
hypothesis function 仮説関数
null hypothesis 帰無仮説
thesis 論文(ティーシス)
類) assumption 前提、想定
feature(フィーチャ)
特徴(量)
Data set with many features is very unwieldy. 特徴量が沢山あるデータセットは扱いにくい。
weight
重み
class
クラス、分類
クラスとはローマ時代の市民階級。人を分類することから。
label(レィボォ)
ラベル。発音に注意。
training/validation/test
学習、バリデーション、テスト
batch
バッチ、束
neural network(ニューロォ ネッワーク)
ニューラルネットワーク。発音に注意。ラルではなく、ロォ
neural 神経の
cost function, loss function
目的関数、損失関数
cross entropy
交差エントロピー
$H(p,q) = -\sum_{x}^{}p(x)\log{q(x)}$
entropy 情報量、乱雑さを表す。熱力学でのエントロピーなど。
log loss function 対数損失関数
hinge function ヒンジ関数
reduce、decrease
減らす
reduce the cost function
反) increase, inflate 増やす
converge, diverge
収束する、発散する
negative, -
負の数
マイナスではなく、ネガティブという。
positive 正の数, +
simultaneous(サイモォテーニォス)
同時の
simultaneous equation 連立方程式
intuition
直感的、勘、わかりやすい
ライブラリ、フレームワークなどの使い方がドキュメントを読まなくてもなんとなく分かる。
supervised learning
教師あり学習
supervised は、教師というよりかは、監視、管理、指揮の意味合いが正しい。
unsupervised learning 教師なし学習
semi-supervised learning 半教師あり学習
deep learning 深層学習
reinforcement learning 強化学習
transfer learning 転移学習
ensemble learning アンサンブル学習
regression
回帰
デグレのことをレグレッションという。
linear regression 線形回帰
regression test 後退テスト、回帰テスト
classification
分類
image classification 画像分類
logistic regression
ロジスティック回帰。名前に回帰と付いているが、分類目的で使用する。
logistic function, sigmoid function
ロジスティック関数、(別名)シグモイド関数
$σ(x) = \frac{1}{1 + exp(-x)}$
sigmoidとはS字カーブのこと
logistic 物流
activation function
活性化関数
シグモイド、ReLU(レルー)、Tanh(タンエイチ)、Softmax(ソフトマックス)など
ReLU Rectified Liner Unit
rectify 修正、調整する
gradient descent
勾配降下法
坂道を転げ落ちる方法(戸田奈津子風訳)
stochastic gradient descent, SGD 確率的勾配降下法
ascent 上昇
Adaptive moment estimation, Adam(アダム)
適応モーメント推定
probability, stochastic
確率論的な
stochastic スタキャースティック タは曖昧母音、キャーにアクセントをおく。
類) probability 確率
probability statistics 確率・統計
statistics, stats(スタッツ)
統計学、統計
発音する場合は、スタッツ、と省略していう。
deterministic
決定論的な
反) stochastic
backpropagation
誤差逆伝播法
propagation 伝搬
epoch(エポック)
学習を繰り返す回数
時代、出来事、紀元など、ある特定の期間をさす
glacial epoch 氷河期
accuracy, loss
精度、損失
bias-variance tradeoff
biasとvarianceはトレードオフの関係にある。
シンプルなモデルはサンプルの変化に影響されない(low-variance)が誤差が大きい(high-bias)。
逆に複雑なモデルはサンプルの変化に影響を受ける(high-variance)が誤差が小さい(low-bias)。
high biasのときは未学習、high varianceのときは過学習になる。
variance, $σ^2$ 分散
learning rate
学習率。αで表記される。
underfitting
未学習
反) overfitting 過学習
local optima, balanced, goldilock
最適値。
ちょうどいい感じ (戸田奈津子風訳)
overshoot
行き過ぎる。飛び越える。
ちょうどいいとこを飛び越える
cross-validation
交差検証
anomaly detection、diagnostics(ダイナースティクス)
異常値検知, 検査
outlier(アゥライアー)
外れ値
想定の範囲外(戸田奈津子風訳)
matrix(メイトリックス)、matrices(メイトリィシス)
行列
発音に注意。マトリックスではない。
matrix transpose 行列転置
tensor テンソル
linear algebra
線形代数
commutative
可換 a x b = b x a
predict, prediction
(学習モデルを使用して)予測する
infer, inference 推測する、推論
estimate 評価する、見積る
continuous
(値が)連続の
反) discrete 離散の
complement
補集合、補数
boundary
境界
decision boundary 決定境界
optima
最適
local optima 局所最適
infinity, infinite
無限
反) finite 有限
concave
凹んだ
convex, concave up 凸
quadratic 2次の。quadは4であるが、二次方程式は面積(4角形)の問題であったことから。
sophisticated(ソフィスティケイティッ)
より洗練された、高性能
アクセントはソフィスティケイティッ
sophisticated computer 高性能コンピュータ
lump
(複数の物を)1つにまとめる、塊
lump them all together 1つにまとめる
lump them into the same class 1つのクラスにまとめる
類) grouping, make them together、accumulator
regularization
(過学習を防ぐための)正則化、ペナルティ
penalize(ピーナライズ)
ペナルティを与える
penalty (お笑い芸人ではない方の)ペナルティ、正則化項
normalization
(単位の異なる数値などを)正規化
リレーショナルデータベースのテーブルの正規化
generalization
汎化。一般化。
過学習すると汎化性能が落ちる。
generalization performance 汎化性能。未知のデータに対しての性能。
metric(メトリック), metrics(複)
評価基準
precision, recall
適合率、再現率
true positive, TP
true negative, TN
false negative FN, 偽陰性
false positive FP, 偽陽性
sensitivity(TP)、 specificity(TN)
感度、特異度
NA, Not Available
サンプルデータで値がブランクであることを明示的に示している。
R言語のfilter関数でNAを除外してくれたりする。
skewed
歪んだ、偏りのある(学習データ)
coherent
まとまりのある
coherent subset まとまりのあるサブセット
centroids
重心
t-SNE(ティースニー)
t-Stochastic Neighbor Embedding
t 確率的近傍埋め込み
Principal Component Analysis, PCA
主成分分析
k-nearest neighbor, KNN
K近傍
Support Vector Machine, SVM
サポートベクターマシン
random forest
ランダムフォレスト
Gini coefficient
ジニ係数
multi-agent reinforcement learning, MARL
マルチエージェント強化学習
single-agent reinforcement learning, SARL シングルエージェント強化学習
mean field games, MFG
平均場ゲーム
dynamic game, 動的ゲーム
Nash equilibrium
ナッシュ均衡。ゲーム理論の1つ。
zero-sum game ゼロサムゲーム
myopic(マイオピック)
近視眼的、短絡的
long term 長期的
Natural Language Processing, NLP
lemmatization
見出し語化
cat, cats, have, hadなど、単複、自制などが異なる単語は同じ単語として扱う
inflection 語形変化
stemming
語幹化
Rubyist(Rubyプログラマー)という単語は、Rubyという語幹から派生したもの。
stop words
処理対象外とする単語
冠詞(a, the)など、重要でない単語を前処理で除去する。
tokenizer
字句解析
lexical semantics
語彙意味論
corpus
コーパス
自然言語処理で使用する言語資料データセット
salience(セィリエンス)
顕著性
embedding
埋め込み
単語や文章をベクトル表現すること
word embedding 単語のベクトル表現。ベクトルをニューラルネットの特徴量として使用する。
Bag of Word, BoW
単語の集合(順序は無視)
CBOW(Continuous Bag-of-Words)
word2vecではCBOWとSkip-gramの2種類のアルゴリズムが選択できる。
Co-occurrence
共起。単語の結びつきの度合い。
人工知能という単語と機械学習という単語はよく一緒に使用される(共起)
occurrence probability
生起確率
p(a) 事象aが起きる確率
Skip-Gram
生起確率を使用したアルゴリズム
人工知能という単語が出たら、機械学習という単語が生起する確率が高くなるようにする。
gramとはギリシャ語で文字の意味。重さの1g(グラム)はわずかな量という意味。
逆) BoW
Word Sense Discrimination, WSD
コンピュータは単語の意味を理解できないので、共起する単語のグループ分けをすることで文章の意味づけをする。
discrimination 差別、区別
racial discrimination 人種差別
negative sampling
word2vecでの高速化手法の1つ
詳細) @nishio https://qiita.com/nishio/items/3860fe198d65d173af6b
Hierarchical Softmax 階層的ソフトマックス
Named Entity Recognition, NER
固有表現抽出
リコグリションの発音は、リにアクセントがくる。リクグニシュン
coreference resolution
共参照解決
noun(ナウン)
名詞
verb 動詞
Naive Bayes
ナイーブベイズ
conditional probability
条件付き確率
prior probability 事前確率 apriori
Posterior probability 事後確率 a posteriori
frequency probability
頻度確率
occurrence probability
生起確率
independence
独立
plausible(プロージボォ)
尤もらしい
Maximum Likelihood Estimation, MLE
最尤推定法 (さいゆうすいていほう)
Hierarchical Attention Network, HAN
階層型注意ネットワーク
spam or ham
スパムかスパムではないか
sentiment
感情
ポジティブな文章 or ネガティブな文章など
Sequence to Sequence Model, Seq2Seq
系列変換モデル
encoder decoder model
符号化復号化モデル
attention mechanism
注意機構
NVIDIA (エンビディア)
エヌビディア、台湾のGPUメーカー
画像処理
Modified National Institute of Standards and Technology database, MNIST
手書き文字(数字)のデータベース
Convolutional Neural Network, CNN
畳み込みニューラルネットワーク
convolution 回旋 渦巻き
Recurrent Neural Network, RNN
再帰型ニューラルネットワーク
Generative Adversarial Networks, GAN
敵対的生成ネットワーク
generative 生殖、生成
adversarial 敵対、対立
Variational Autoencoder, VAE
変分オートエンコーダ
サクッと訓練データを作るやつ (戸田奈津子風訳)
pooling
プールする、貯める
denoise
ノイズ除去
texture
質感、肌触り、表面の凸凹
統計学
sparse, dense
(データの密度が)疎、密
sparsity 疎性
sparse matrix 疎行列
contingency table
分割表
facet(ファーセッ)
切り口、面
population, sample
母集団、標本
mean
平均値
median
中央値
variance, $σ^2$
分散
deviation
偏差
standard deviation, SD 標準偏差
distribution
分布
probability distributions 確率分布
probability density
確率密度
binomial
二項式の
homoscedasticity
等分散
unimodal
単一モードの
unimodal distribution 単峰型分布
confidence intervals
信頼区間
statistical significance
統計的有意性
practical significance 実質的優位性
stratify
階層化
residuals
残余、剰余
causation
因果関係
confounder, confounding
交絡因子
correlation
相関
Experiments vs. Observational Studies
実験研究と観察研究
実験研究は研究者が対象を恣意的に操作する手法。観察は手を加えずにありのままを観察する手法。
bivariate
二変量
bivariate correlation 二変量相関
mean squared error, MSE
平均二乗誤差
square 正方形
R-squared, coefficient of determination
決定係数、寄与率
回帰分析で求めた予測値が、実際の値とどれだけフィットしているかの指標。
一般的に1に近い(0<R<1)ほどフィットしている。(注: 必ずしもそうではない。)
R-squared is a statistical measure, which indicates the proportion of the variance in the dependent variable.
interpolation, extrapolation
内挿、外挿
analysis of variance, ANOVA
分散分析
Interquartile Range, IQR
四分位範囲
disjoint, mutually exclusive
互いに素
Markov
マルコフ(過程、連鎖、モンテカルロ)
Markov property マルコフ性
Markov process マルコフ過程
Markov chain マルコフ連鎖
Markov chain Monte Carlo methods、MCMC
マルコフ連鎖モンテカルロ法
box-and-whisker plot
箱ひげ図
株式相場のチャートのような値のばらつきを見たいとき使用するグラフ
Gaussian(Normal) distribution
ガウス分布、正規分布
数学全般
mathematical
数学の
equation
数式
polynomial
多項式
degree
(多項式の)次数
linear 1次
quadratic 2次
cubic 3次
octic 8次
square
2乗、平方
coefficient
係数
parenthesis
括弧 カッコ
fraction
分数
over
〜分の
$\frac{3}{4}$ , 3 over 4
indecies (インディシース)
指数
power
累乗
$2^4$, two to the power of four
$x^3$, x to the (power) three 話し言葉ではofなどの前置詞は曖昧母音になり聞こえない
product
積
multiplication, multiply, times 掛け算
division, divide 割り算
quotient (クォシェン)
割り算の商、割合
ratio
比率
calculus
微積
derivative, integrate
微分、積分
partial derivative 偏微分
prime
f'(x) 微分のダッシュ
f prime of x と発音
subscript, superscript
下付きの添字、上付きの添字
factorial, permutation, combination
induction, deduction
帰納法、演繹法
multivariate
多変量
multivariate analysis 多変量解析
contour
輪郭、等高線
no. of = the number of
個数
ラテン語からきている
Collaborative Filtering
協調フィルタリング
w.r.t, with respect to
〜に関して
latent
潜在的
ブロックチェーン
blockchain(ブロ-クチェィン)
チェーンと伸ばさない。
genesis block
ジェネシス・ブロック。最初のブロック
ビットコインのジェネシスブロックはサトシナカモトによって作成された。
orphan block 孤立ブロック
orphan 親の無い子
hash
ハッシュ値
ゼロが連続して続くハッシュ値がブロックに使用できる有効なハッシュ値となる。
nonce(ヌォンス)
ブロックに含まれるランダムな値。英語発音は、ナンスよりノンスに近い。
number used once もしくは number once
マイニングでは、この値を変更してゼロが連続するハッシュ値を探し当てる。
ブロックには直前のブロックのハッシュ値も含まれているので
ある特定のブロックのハッシュ値を書き換えると、後続のブロックのハッシュ値も書き換えるなければならない。
したがって、膨大な計算量が必要になり、クラックすることがとても困難になる。(戸田奈津子風解説)
avalanche effect, landslide effect
雪崩的効果
ノンスをちょこっと変更しただけで、結果となるハッシュ値が大きく変わる。
これによって、悪意ある者がハッシュ値を推測することが困難となる。
Proof-of-work
仕事(マイニング)の証明
マイナーが発見したノンスが正しい(valid)かを、他の参加者が証明すること。
reward(リウォード)
(マイナーに支払われる)報酬
memory pool, mempool
承認前のトランザクションリスト
consensus protocol
合意プロトコル
Byzantine Generals Problem(バイザンタイン)
ビザンチン将軍問題
Byzantine Failure ビザンチン故障
Segregated Witness(Segwit)
ブロックから電子署名部分を分離して別で管理すること
segregated 分離
witness 連署人
Multisignature(Multisig)
マルチシグ。複数署名
SHA256(シャー ツー フィフティシックス)
Secure Hash Algorithm
アメリカ人は、ツーハンドレッドアンドフィフティシックス、と正確に読む人はいない。
$230など、金額を読み上げるときも、ツー サーティ という。
Alternative Coin, altcoin
ビットコインの代わりとなる仮想通貨
alternative 代わり、別の
Initial Coin Offering, ICO
新規仮想通貨公開
ledger(レジャー)
元帳、台帳、データベース(トランザクションデータ)
disparate ledger 異種台帳
immutable ledger 書き換え不可な不変台帳
Distributed Ledger Technology, DLT
分散台帳技術
Hyperledger オープンソースのDLTプロジェクト
decentralized application, Dapps(ダップス)
非中央集権型アプリケーション
centralized application 中央集権型アプリケーション
distributed application 分散型アプリケーション
silo
サイロ、貯蔵庫
reconcile
照合
cryptocurrency(クリプトカレンシ)
暗号通貨、仮想通貨
Ethereum(イーサゥレアム)
イーサリアム
Gas
燃料。Ethereumでトランザクションに必要な燃料
アメリカではガソリンのことをガスという。ガスステーション。
cryptography
暗号法
Elliot Wave
エリオット波動
Elliptic Curve Cryptography, ECC
楕円曲線暗号
technical analysis
テクニカル分析
miner(マイナー)
採掘者
scarce(スケアース)
稀な、不足した
scarce token 不足したトークン
tamper
改ざんする
scam
詐欺、だます
legit
本物
類) authentic
redeem
換金する。取り戻す。
hardfork
ハードフォーク
システムの仕様変更で、新旧の2つの使用が混在する状態
ソフトフォーク 新しい使用ですべて更新する
autonomous
自律型
Decentralized Autonomous Organization, DAO
分散型自律型組織
スマートコントラクトの集合体、エコシステム
smart contract
スマートコントラクト
ブロックチェーン技術を使用した契約システム。ユーザ同士が中央のサーバを介さずに直接契約ができる。
peer to peer, P2P
ピアツーピア通信
peer 仲間
InterPlanetary File System, IPFS
インタープラネタリーファイルシステム
P2P分散ファイルシステム
Oracle(オラクル)
RDBのオラクルとは関係ない。
スマートコントラクトに置いて、正しい、信頼できる情報(ニュース)を外部から持ってくる仕組み。
ワールドカップサッカーでフランスが優勝したら、ビットコインを支払うというコントラクトがあった場合、
『フランスが優勝した』という事実を信頼できるソースから持ってくる必要がある。
ASIC(エイシックス)
Application Specific Integrated Circuit
特定用途向け集積回路