🔹 基礎レベル(初級)
Q1. 回帰問題とは何か、分類問題との違いは?
解答例:
回帰問題とは連続値を予測するタスクのことで、例えば住宅価格や気温予測などがあります。
分類問題はカテゴリを予測するタスクで、「犬・猫」「陽性・陰性」などの離散的な結果を予測します。
Q2. 線形回帰モデルで最も重要な前提条件は何か?
解答例:
データと目的変数の関係が線形であることです。実際は必ずしも線形でないことも多く、非線形モデルや特徴量変換が必要になります。
Q3. 回帰モデルの評価指標を挙げてください。
解答例:
- RMSE(Root Mean Squared Error)
- MAE(平均絶対誤差)
- R²(決定係数)
- RMSLE(Root Mean Squared Logarithmic Error)
🔎 中級レベル
Q4. 線形回帰モデルで注意すべき前提条件(仮定)とは?
解答例:
- 線形性(説明変数と目的変数の関係が線形)
- 誤差項の正規性(残差が正規分布に従う)
- 誤差項の等分散性(分散が一定)
- 多重共線性がないこと(説明変数間の相関が低いこと)
- 自己相関がない(データ同士が独立である)
Q4. 過学習とは何か?回避方法は?
解答例:
過学習とはモデルが訓練データに過剰に適合し、未知のデータに対して精度が悪化する現象です。
回避方法として以下が挙げられます:
- 正則化(L1/L2正則化)
- 交差検証(クロスバリデーション)
- データ量を増やす
- 特徴量の選択や削減を行う
📌 中級レベル(理論的)
Q5. 「多重共線性」とは何か、なぜ問題か、どう検出するか?
解答例:
多重共線性とは、複数の説明変数同士が高い相関を持つ現象です。
これにより係数の推定値が不安定になり、推定精度が下がります。検出方法はVariance Inflation Factor(VIF)で、一般にVIFが10を超えると多重共線性が疑われます。
Q6. 説明変数のスケーリングが回帰モデルに与える影響は?
解答例:
説明変数のスケールが大きく異なる場合、一部のアルゴリズム(リッジ回帰、Lasso回帰、勾配降下法を用いる回帰など)において収束が遅くなったり、精度が落ちることがあります。スケーリングを行うことで性能向上や安定性が向上します。
Q7. リッジ回帰とLasso回帰の違いを説明してください。
解答例:
- リッジ回帰はL2正則化(係数の2乗和を最小化)を用いて過学習を防ぎます。
- Lasso回帰はL1正則化(係数の絶対値の和を最小化)を用いて、一部の変数を完全にゼロにし、特徴選択も同時に行います。
Q7. 非線形の関係性を扱うには、どのような方法があるか?
解答例:
- 多項式回帰(Polynomial Regression)
- 非線形特徴量変換(対数変換、指数変換など)
- 非線形モデルの使用(決定木系やニューラルネットワーク)
📌 上級レベル(応用・実践的)
Q7. 残差の分析とは何か、何がわかるか?
解答例:
モデルの予測値と実際値の差を残差といい、残差を分析することでモデルがどの仮定を満たしていないか把握できます。例えば、残差にパターンがあれば非線形性の問題があり、残差の分散が一定でなければ異方分散性の問題があります。
Q7. 「バイアス-バリアンスのトレードオフ」を説明してください。
解答例:
- バイアス(偏り)が強いモデルは単純すぎて精度が低下(Underfitting)
- バリアンスが高すぎるとデータのノイズにも反応し過学習に陥る
- 最適なモデルを見つけるためには両者のバランスが重要。
Q7. 変数選択の方法をいくつか挙げて説明してください。
解答例:
- 前進選択(Forward Selection):一つずつ説明変数を追加
- 後退選択(Backward Elimination)
- Lasso回帰(L1正則化によるスパース性を利用)
- 再帰的特徴量削減(RFE: Recursive Feature Elimination)
上級レベル(実践的・高度な内容)
Q8. 不均衡データは回帰モデルにどう影響するか?
解答例:
目的変数に極端な値や外れ値が多い場合、モデルが特定の範囲に偏る可能性があります。外れ値の処理(対数変換、ロバスト回帰、Quantile Regression)を検討します。
Q9. 回帰モデルでの欠損値の扱い方を説明してください。
解答例:
- 単純削除(Listwise Deletion)
- 平均値や中央値での補完
- K最近傍法(KNN)での補完
- モデルベース(MICEなど)の補完
欠損の原因を考慮して補完法を選択することが重要です。
Q9. 一般化線形モデル(GLM)とは何か、回帰とどう関連するか?
解答例:
一般化線形モデル(GLM)は線形回帰を拡張したモデルで、目的変数の分布が正規分布以外(ポアソン分布、二項分布など)の場合でもモデル化可能です。リンク関数を用いて線形予測子と目的変数を関連付けます。
📌 まとめ・ポイント整理
面接時に特に注目されることは:
- 回帰モデルの前提条件への理解
- 多重共線性や過学習などの問題への対応力
- 実際の分析場面での適切な評価指標やモデル選択
です。上記の質問と解答を準備しておくことで、自信をもって技術面接に臨めるでしょう。