概要
インフラ屋さんがAI Practitionerを勉強してみたアウトプット
わからなかったワード -AI/ML用語-
-
学習率
- 1回の学習でどのくらいパラメータを修正するのかの値。大きいと最適解にならず、低いと学習が遅くなる。
-
エポック数
- モデルが訓練データの学習を繰り返す回数
-
サポートベクターマシン
- 学習アルゴリズム。分類問題で使う。境界線を設けて分類する。
-
埋込(エンベディング)
- 単語やカテゴリを数値ベクトルにする手法。これにおりモデルが理解できる形式になる。
-
過学習
- モデルが訓練データに適合しすぎて、訓練データ以外に対して不安定な予測をする現象。
- 類義:オーバーフィット、バリアンス
- 対義:未学習、アンダーフィット、バイアス
-
セマンティックセグメンテーション
- 画像のピクセル単位に対して意味のあるラベルをつけること
- 類義:インスタンスセグメンテーション
- 同じ画像の中でインスタンスをわけて複数の対象にラベルをつけること
-
DeepLab V3
- セマンティックセグメンテーションを行うモデル。畳み込みニューラルネットワークを使う。
-
パラメータ数
- モデルが学習する重みやバイアスの数のこと。多いと過学習のリスクがある。
-
重み
- 入力データの重要度を示す値。
-
ROC曲線下面積(AUC)
- 分類モデルの性能を評価する指標。1が良い。
-
MXNet
- 深層学習のOSSフレームワーク。Apacheシリーズ。
-
BERT
- 自然言語処理のモデル。文脈を前後方向から理解する。
-
BERTScore
- BERTを用いて評価してモデルの品質を評価する指標。
-
ハイパープレーン(境界線)
- 分類問題で異なる分類を分けるための境界線
-
XGBoost
- 回帰や分類問題で使うアルゴリズム。複数の決定木を使う。学習する事に予測が修正
-
コンテキスト
- 情報の背景のこと。自然言語処理では重要であり、判断材料に前後の文脈を考慮する。
-
平均二乗誤差(MSE)
- モデル精度を評価する値。予測値、実値の差を二乗して平均した値。
-
主成分分析(PCA)
- 少ない次元に圧縮して重要な情報を抽出する手法。
-
潜在的ディリクレ配分法
- 文書中のトピックを見つけ出すための確率的モデル
-
因数分解機
- 機械学習における行列因数分解技術を指し、特に推薦システムで利用されるモデル?
-
決定係数 R²
- 回帰においてモデルの適合度を評価する指標の一つ。
- 総平方和に対する誤差平方和の割合を使って計算され、値が1に近いほど良い
-
適合率
- 分類モデルが「陽性と予測したデータの中で実際に陽性であった割合」を示す指標
- 「偽陽性」を最小化したい場合に重要
-
ROUGE
- 生成AIにおけるテキスト生成モデルの評価指標
- 生成されたテキストと参照テキストとの類似度を計測 -
Shapley 値
- 各特徴量の貢献度を公平に評価するための指標
- 特徴量の順番をランダムに変えて予測への影響を平均化することでどれだけ貢献しているかを計算
-
平均絶対パーセント誤差(MAPE)
- 回帰分析や予測モデルの評価に広く使用される指標
- 予測値と実際の値の誤差をパーセントで表示し、その平均を求める。小さいほどいい。
-
コンテキストウィンドウ
- 自然言語処理(NLP)や時系列データの分析などで広く使用される概念
- データや単語の周囲にある情報(バックグラウンド)を考慮するための範囲を定義
-
プロンプトテンプレート
- 成AIモデルに適切な入力を提供するための「ひな型」
- 生成するコンテンツの形式や内容を効率的に管理し、安定した結果を得ることが目的