重回帰分析において,予測が旨くいくためにはどの独立変数を選択すれば良いかというのは,喫緊の問題だ。
独立変数が数百あるということでもない限り,まずは従属変数と独立変数の相関係数を計算して,余り相関係数が低い変数はモデルに含めないようにしようと考えるのはやむを得ないかも知れない。
しかし,それは間違いだ。
単変量解析(単回帰分析)の結果を積み上げれば,多変量解析(重回帰分析)の結果に反映できる。
というは,大間違いだ。
この観点からだけいえば,まだ「機械学習」の観点の方がまともだ。
機械学習の立場は,「要するに,上手く予測できればいいんでしょ!」ということだ。全ての独立変数のあらゆる組み合わせで,もっとも正解率の良いのが良いモデルだ。
単回帰分析(あるいは,相関分析)で,有望そうな変数を抽出して,それらに基づいて重回帰分析を行っても,「決して優れた予測式は得られない」。
どころか,「不適切な予測式が得られるかも知れない」ということだ。
どすればよい?
機械学習派と理論派の中間を探って,理論的に妥当なもっとも優れた予測式を探索するしかないのだ。