Originally published in KDnuggets: 21 Must-Know Data Science Interview Questions and Answers
KDnuggetsより正式に和訳を書くことの許可を得ました。
Gregory-san thank you for the approval
一つ目、二つ目に続き、今回はデータサイエンスの面接において答えられないといけない質問21種類の三つ目の質問です。
#3.How would you validate a model you created to generate a predictive model of a quantitative outcome variable using multiple regression.
和訳すると「値の予測モデル用に重回帰で作成したモデルをどうやって検証するか答えなさい」となります。
原文
If the values predicted by the model are far outside of the response variable range, this would immediately indicate poor estimation or model inaccuracy.
モデルの予測値が想定される値の範囲から大きく逸脱している場合、即座にまずい推定か不正確なモデルであることを明示しています。
原文
If the values seem to be reasonable, examine the parameters; any of the following would indicate poor estimation or multi-collinearity: opposite signs of expectations, unusually large or small values, or observed inconsistency when the model is fed new data.
予測値が合理的に見える場合には、パラメータを確かめます。期待と違う符号があるか、異常に大きい値または小さい値があるか、モデルに新しいデータを追加した際に矛盾が生じる場合には、まずい推定か多重共線性がある可能性があります。
原文
Use the model for prediction by feeding it new data, and use the coefficient of determination (R squared) as a model validity measure.
いくつかの新しいデータを使い、決定係数($R^2$)を使用し、モデルの妥当性判定します。
原文
Use data splitting to form a separate dataset for estimating model parameters, and another for validating predictions.
データ分割手法を使用し個別のデータセットを生成し、片方をモデル作成に使用し、もう片方を検証用に使用します。
原文
Use jackknife resampling if the dataset contains a small number of instances, and measure validity with R squared and mean squared error (MSE).
データの要素が少ない場合には、ジャックナイフ法を利用し、決定係数($R^2$)と誤差の平方和(MSe)によって、モデルの妥当性を判定します。
#まとめ
特段特殊なことを出している訳ではないが、あくまで検証の順番にそって丁寧に説明しています。つい、決定係数のようなモデルの妥当性を判定する指標をすぐに頼りたくなりますが、順序として、予測値が妥当なのか、モデルが妥当なのかと大切なワンステップが盛り込まれています。