私が「G検定」を、受けた際の見直し観点を備忘としてメモする。
公平性(Fairness)
機械学習モデルが特定のグループや個人に対して偏りなく、公平に機能することを指します。モデルのバイアスを検出し、修正することで、公平性を確保します。
次元圧縮(Dimensionality Reduction)
高次元データを低次元に変換し、データの本質的な特徴を保持しつつ、計算効率を向上させる手法です。主成分分析(PCA)やt-SNEなどが代表的な手法です。
BERTの事前学習(Pre-training)
BERTは、大量のテキストデータを用いて、マスク化言語モデル(MLM : Masked Language Model)と次文予測(Next Sentence Prediction)のタスクで事前学習されます。これにより、文脈を理解する能力を獲得します。
ゼロショット学習(Zero-shot Learning)
学習時に見たことのないクラスやタスクに対しても、既存の知識を活用して対応する能力を指します。例えば、BERTのようなモデルは、事前学習で得た知識を活用して、新しいタスクにも適応できます。
IBM
Colaboratory(Colab)
Googleが提供するクラウド上のJupyterノートブック環境で、Pythonコードの実行や機械学習モデルの開発・実験が可能です。
RLHF(Reinforcement Learning from Human Feedback)
人間からのフィードバックを活用して、強化学習エージェントの行動を最適化する手法です。これにより、エージェントの意思決定が人間の期待に沿うように調整されます。
SGD(Stochastic Gradient Descent)
機械学習モデルの最適化手法の一つで、ランダムに選ばれたデータサンプルを用いて勾配を計算し、モデルのパラメータを更新します。計算効率が高く、大規模データセットにも適しています。
NeRF(Neural Radiance Fields)
ニューラルネットワークを用いて、3Dシーンの視覚的表現を生成する手法です。異なる視点からの2D画像を入力として、3D構造を再構築します。
AdaBoost(Adaptive Boosting)
複数の弱い学習器(精度の低いモデル)を組み合わせて、高精度な予測を行うアンサンブル学習手法です。各学習器の誤分類に重点を置いて次の学習器を訓練し、全体の性能を向上させます。
バッチ正規化(Batch Normalization)
ニューラルネットワークの各層において、ミニバッチごとに入力を正規化する手法です。これにより、学習の安定性が向上し、収束が速くなります。
ドメインランダマイゼーション(Domain Randomization)
シミュレーション環境で、環境のパラメータをランダムに変化させることで、モデルの汎化性能を高める手法です。これにより、実世界での予測精度が向上します。
トリプレット損失(Triplet Loss)
アンカー、ポジティブ、ネガティブの3つのサンプル間の距離関係を学習する損失関数です。アンカーとポジティブの距離を縮め、アンカーとネガティブの距離を広げることで、効果的な埋め込み空間を構築します。
F値(F-measure)
分類モデルの性能評価指標で、精度(Precision)と再現率(Recall)の調和平均を取ったものです。モデルのバランスの良さを評価する際に用いられます。
VAE(Variational Autoencoder)
生成モデルの一種で、データの潜在変数を確率的にモデル化し、新しいデータの生成やデータの圧縮に利用されます。
コントラスト損失(Contrastive Loss)
類似したサンプル間の距離を縮め、異なるサンプル間の距離を広げることで、効果的な特徴表現を学習する損失関数です。
CLIP(Contrastive Language-Image Pre-Training)
OpenAIが開発したモデルで、画像と言語のペアを用いて事前学習を行い、ゼロショットでの画像分類や画像検索など、多様なタスクに対応可能です。