はじめに
多変量解析では、共変量と呼ばれる変数を決定する必要があります。
この変数の決定方法とその数についてまとめます。
変数選択について
結論から述べると、変数選択は「データを見ずに、アウトカムが同じ先行文献や医療・福祉などデータに関する専門家の意見を元に決定する」が最も良い方法となります。
これは、データの p 値などに引きずられずに、かつ必要な変数を除いてしまうことなく因果関係のあるデータを抽出できるためです。
一部の文献などで検定結果の比較を元に p 値の小さい変数を決定したり、ステップワイズ法で p 値の小さい順に決定するということを述べているものがありますが、この方法には問題があります。
p 値だけで決定してしまった場合、決定する変数と目的変数間の因果関係などは全く考慮されません。
そのため、特に医療・福祉統計において多くある、絶対に除いてはいけない変数を除いてしまうことがあります。
また、特定の変数の p 値を小さくなるように変数を選択することは、「恣意的な選択」になってしまいます。
変数の数について
多変量解析では多くの変数を扱うことができますが、極力少ない方が良いと言われています。
これは、変数が増えるほど解析の信頼性が下がること、また結果の解釈が難しくなるためです。
また、変数に対してデータが少なすぎると統計的に正しい結果を得るのが難しくなります。
ではいくつが良いのかというと、一般に解析方法ごと以下のように言われています。
- 重回帰分析:総データ数を15で割った数まで
- ロジスティック回帰分析:イベントありとなしのうち、少ない方を10で割った数まで
- Cox 比例ハザードモデル:イベントありの数を10で割った数まで
これより変数が増えてしまった場合、上記した方法で変数選択をして数を絞ったり、似た変数を合成したり、片方を削ったりする必要があります。
特に似た変数を合成・削除するのは、多重共線性を防ぐ観点からも有効です。
まとめ
今回記載した方法で変数を選択した上で、数を絞ることで多変量解析に最適な変数を決定することが出来ると思います。
もし解釈に怪しい部分などありましたら、ご指摘いただけると幸いです。