数学・統計
-
サンプリング理論
- 行動サンプル収集時のバイアス・サンプリングエラー考慮
-
確率モデル
- ログデータに対するポアソン分布・指数分布モデル化(イベント間隔解析)
-
情報理論
- ログデータのエントロピー測定による情報量最適化
* 特徴量設計・モデリングフェーズ**
技術要素
-
特徴量エンジニアリング
- 年齢、趣味、居住地、行動頻度、メッセージ送信時間間隔、語彙多様性など抽出
- ベクトル化(TF-IDF、Word2Vec、BERT埋め込み)
- 次元削減(PCA, t-SNE, UMAP)
-
相性スコアリングアルゴリズム
- コサイン類似度、ユークリッド距離、マハラノビス距離
- 行列分解(SVD、NMF)による潜在特徴抽出
技術要素
-
教師あり学習
- ロジスティック回帰、SVM、XGBoost、ニューラルネットワーク
-
教師なし学習
- K-means、階層クラスタリング、DBSCAN
-
自然言語処理
- 感情分析、話題モデリング(LDA)
- LLM API(OpenAI GPT等)による会話生成
-
MLOpsパイプライン
- モデル学習・評価・デプロイ自動化(MLflow、Kubeflow)
数学・統計
-
線形代数
- ベクトル・行列計算
- 特異値分解 (SVD)、固有値分解
-
確率統計
- 共分散行列、相関係数
- ベイズ推論、最大事後確率推定(MAP)
-
最適化理論
- 勾配降下法、確率的勾配降下法(SGD)
- ラグランジュ乗数法(制約付き最適化)
** モデル開発・学習フェーズ**
数学・統計
-
機械学習理論
- 損失関数設計(クロスエントロピー、MSE)
- 過学習・汎化性能評価(交差検証、正則化)
-
情報理論
- KLダイバージェンスによる分布比較
- エントロピー最大化による多様性確保
数学・統計
-
仮説検定
- t検定、カイ二乗検定、F検定
-
効果量算出
- Cohen’s d、オッズ比、相対リスク