こんにちは、(株)日立製作所 Lumada Data Science Lab. の中川です。普段は人工知能を制御に適用する研究に従事しています。近年、機械学習が注目される中、機械学習理論および機械学習を使った技術開発環境は急速に進歩すると共に、多くの方がデータサイエンスに関わるようになってきました。すでにデータサイエンスに携わっている方や、これからデータサイエンスに関わってみようと思っている方の中で、理論の大切さをあらためて知りたいあるいは感じたいという方がいらっしゃいましたら、それをできるだけわかりやすく伝えられたら、という思いから基本的な内容で記事を書きます。今回は、ロジスティック回帰に関する素朴(?)な疑問を投げかけると共にそれ対する見解をご紹介します。
1. はじめに
ロジスティック回帰は、目的変数を確率で扱う場合に適用する線形モデルです(より正確には、一般化線形モデル)。線形回帰は目的変数は、-$\infty$から$+\infty$までの値を取りえますが、ロジスティック回帰では、目的変数は0~1の値となります。 本記事では、ロジスティック回帰について、基本的ではありますが、重要な以下の2点について御説明致します。
・ロジスティック回帰がオッズを採用している理由
・ロジスティック回帰では、変数$x_k$が0と1しか取れない理由
2. ロジスティック回帰のおさらい
まず、ロジスティック回帰をおさらいしておきます。(1)式は、ロジスティック回帰の式を示しています。
$$
\hat{y}=\frac{1}{1+exp(-(\hat{a}_1x_1+\hat{a}_2x_2+・・・+\hat{a}_nx_n+\hat{b}))}\hspace{0.5cm}・・・(1)\hspace{5.3cm}\
$$
もともとロジスティック回帰は、ある疾患の発生確率 $p(=y)$ を求めるための式から得られました。(1)式における各項の意味は下記です。
$y$:ある事象(疾患)の発生確率
$\hat{b}$:ベースオッズの対数
$\hat{a}_k$:オッズ比の対数
$x_k$:ある事象(疾患)を発生させる(リスク)要因の有無、カテゴリーなど
オッズ:ある事象の起こりやすさを示す。
(ある事象が起こる確率(回数))/(ある事象が起こらない確率(回数))
オッズ比:ある条件1でのオッズに対する異なる条件2でのオッズの比
(1)式は、(2)式のリスク相乗モデルから得られています。
$$
\frac{p}{1-p}=B{\times}A_1^{x_1}{\times}A_2^{x_2}{\times}\cdots{\times}A_n^{x_n}\hspace{3.9cm}・・・\hspace{0.2cm}(2)\hspace{6.2cm}
$$
ここに、
$$
B=e^{b}\\
A_k=e^{a_k}\\
B:ベースオッズ\\A_k:オッズ比
$$
です。
オッズ、オッズ比およびロジスティック回帰の式の導出については、下記の記事でより詳しく御説明しておりますので、適宜、ご参考下さい。
3. オッズを採用している理由
3-1. 前向きの研究結果と後ろ向きの研究結果を比較しやすい
3-1-1. 前向きの研究と後ろ向きの研究
前章でロジスティック回帰が、ベースオッズ($B$)とオッズ比($A_k$)からなるリスク相乗モデルから導出されることを述べました。では、なぜオッズとオッズ比を用いるのでしょうか。本記事では、それについて考えてみたいと思います。
理由のひとつとして、前向きの研究結果と後ろ向きの研究結果を比較しやすい、ということがあります。そのために、まず、「前向きの研究」と「後ろ向きの研究」について御説明します。
・前向きの研究
ランダムに調査対象の人をサンプリングし,サンプリングされた人を将来に渡り,例えば発症の有無を追跡調査する形式を指します。
・後ろ向きの研究
すでに発症した人と発症しなかった人を,一定人数サンプリングし,その原因を過去に遡って調査する形式を指します。
3-1-2. 因子ありとなしの比較(横方向の比較)
図1に示す例について考えます。例えば、お酒が好きであることをリスク要因として、お酒が好きか?という質問に対してNoと答えた人の内、$d_0$人は病気$\gamma$は発症せず、$c_0$人は病気γが発症したとします。また、お酒が好きか?という質問に対してYesと答えた人の内、$d_1$人は病気$\gamma$は発症せず、$c_1$人は病気γが発症したとします。
このとき、条件0および条件1におけるオッズ、オッズ比、発症率、発症率比(条件0に対する)は、図2に示される値になります。
図2の結果は、前向きの研究で得られたものとしますと、まず、調査対象人数を決め、その後、相当程度時間(年数)が経過した後に、病気$γ$の発生有無の確認を行うことになります。したがって、条件0に該当する人数である$d_0+c_0$および条件1に該当する人数$d_1+c_1$を調査する側が決めることはできても、$d_0$,$c_0$,$d_1$,$c_1$の人数を調査する側が決めることはできません。したがって、オッズおよび発症率の双方の評価方法に一定の客観性があると言えます。
一方で、図2の結果は、後ろ向きの研究で得られたものとしますと、すでに病気$\gamma$を発症した人の数である$c_0+c_1$と発症しなかった人の数$d_0+d_1$は、調査する側が決めることになります。このとき、図2中のオッズおよび発症率は、調査する側が発症した人の数と発症しなかった人の数をどのように決めるかに影響されることがわかります。したがって、オッズおよび発症率の双方の評価方法に客観性があるとは言えません。
図2で示した評価方法を横方向の評価と呼ぶことにします。横方向の評価では、前向きの研究で得られた評価方法としては妥当性があるものの、後ろ向きの研究で得られた評価方法としては、必ずしも妥当性があると言えなさそうです。
3-1-3. 発症ありとなしの比較(縦方向の比較)
図3は、図1で示した結果に対するオッズ、オッズ比、要因保有者率、要因保有者率比(発症なしに対する)を示しています。図2は、発症のあり/なしに対して評価した結果を示していますが、図3は、リスク要因のあり/なし(お酒が好きか/好きではないか)に対して評価した結果です。
図3の結果は、前向きの研究で得られたものとしますと、まず、調査対象人数を決め、その後、相当程度時間(年数)が経過した後に、病気$γ$の発生有無の確認を行うことになります。したがって、条件0に該当する人数である$d_0+c_0$および条件1に該当する人数$d_1+c_1$を調査する側が決めることはできても、$d_0$,$c_0$,$d_1$,$c_1$の人数を調査する側が決めることはできません。したがって、オッズおよび発症率の双方の評価方法に一定の客観性があると言えます。
一方で、図3の結果は、後ろ向きの研究で得られたものとしますと、すでに病気$\gamma$を発症した人の数である$c_0+c_1$と発症しなかった人の数$d_0+d_1$は、調査する側が決めることになります。しかし、図3中のオッズおよび要因保有者率は、発症しなかった人の中での評価、あるいは、発症した人の中での評価ですので、調査する側が発症した人の数と発症しなかった人の数をどのように決めるかに影響されないことがわかります。したがって、オッズおよび発症率の双方の評価方法に一定の客観性があると言えそうです。
図3で示した評価方法を縦方向の評価と呼ぶことにします。縦方向の評価では、前向きの研究で得られた評価方法としても、後ろ向きの研究で得られた評価方法としても妥当性があると言えそうです。
3-1-4. 前向きの研究結果と後ろ向きの研究結果を同じ土俵で比較できる
以上をまとめますと、
・前向きの研究は、横方向と縦方向のどちらの評価でも妥当性がある。
・後ろ向きの研究は、横方向の評価には妥当性がないことがあり、縦方向の評価には妥当性がある。
となります。
このことから、前向きの研究と後ろ向きの研究を同じ土俵の上で評価するには、横方向の評価は難しいのでは、となります。しかし、前向きの研究では、自然な評価方法とも言える横方向の評価だけを行っていることもあるかもしれません。
図4は、図2で示しました横方向の評価結果と図3で示しました縦方向の評価結果の両方を示しています。横方向のオッズ比(条件0(リスク要因なし)に対する)と縦方向のオッズ比(発症なしに対する)が同じ値になることがわかります。一方で、発症率比と要因保有者率比は、その言葉通り、同じ値にはなりません。オッズ比には、このような性質があることがわかります。
このことから、オッズ比で評価しておけば、横方向の評価結果として見ることもできますし、縦方向の評価結果として見ることもできます。前述しましたように、前向きの研究でもオッズ比で評価しておけば、それが、横方向の評価として求めたオッズ比であったとしても、縦方向のオッズ比としても扱えます。一方で、後ろ向きの研究では、横方向の評価には妥当性がないことが多いので、縦方向の評価を行います。この後ろ向きの研究で得られたオッズ比は、前向きの研究で求められた横方向のオッズ比を縦方向のオッズ比と扱うことで、同じ土俵で、評価できることになります。
このように、オッズ比で評価しておけば、前向きの研究と後ろ向きの研究それぞれの結果を直接比較できます。また、前向きの研究でも縦方向の評価のみをしていることもあるかもしれません。このような時でも、オッズ比で評価しておけば、他の前向きの研究の横方向の評価結果を直接比較できます。このような便利な性質があるオッズ比をロジスティック回帰では採用しています。
3-2. 要因が発生率に与える寄与度の説明性が高い
ロジスティック回帰がオッズを採用している理由として、説明性が高いことも理由と言えそうです。2章で、(1)式のロジスティック回帰は、(2)式のリスク相乗モデルから導出されることを述べました。(1)式と(2)式をあらためて示します。(1)式の左辺は、$\hat{y}$ を $\hat{p}$ に置き換えています。
$$
\hat{p}=\frac{1}{1+exp(-(\hat{a}_1x_1+\hat{a}_2x_2+・・・+\hat{a}_nx_n+\hat{b}))}\hspace{0.5cm}・・・(1)\
$$
$$
\frac{\hat{p}}{1-\hat{p}}=B{\times}A_1^{x_1}{\times}A_2^{x_2}{\times}\cdots{\times}A_n^{x_n}\hspace{3.9cm}・・・\hspace{0.2cm}(2)
$$
ここに、$B$はベースオッズ、$A_k$はオッズ比でした。前節でも述べましたように、オッズおよびオッズ比ではなく発症率および発症率比で評価することも自然に思えます。(2)式のベースオッズ$B$をベース発症率$\beta$ に,オッズ比$A_k$ を発症率比$\alpha_k$に代えて,相乗モデルを表してみた式が(3)式です。
$$
\hat{p}=\beta{\times}\alpha_1^{x_1}{\times}\alpha_2^{x_2}{\times}\cdots{\times}\alpha_n^{x_n}\hspace{3.9cm}・・・\hspace{0.2cm}(3)
$$
(2)式と(3)式を比較しますと,(3)式では右辺が発症率そのものを表しますので,左辺も発症率(確率)$p$ になっています.したがいまして,発症率,発症率比をパラメータとして選ぶと,発症率などなんらかの事象の発生率を表す式は,(3)式の形となります.発生率を与えます(1)式と(3)式を比較してみます.(1)式は、$exp$関数 の指数の部分が説明変数$x_k$ に関して線形式になっており,パラメータ$b$、 $a_k$ を各説明変数に対する寄与度として解釈しやすいことがわかります。一方,(3)式は,説明変数$x_k$ に関して線形の形になっておらず,パラメータ$\beta$、$\alpha_k$
を各説明変数に対する寄与度として解釈しにくいと言えます。
以上から、オッズおよびオッズ比に基づいて発症率 $p$ との関係式で表しますと、説明変数$x_k$ に関して線形式の部分が現れ、各説明変数に対する寄与度が解釈しやすいことも、オッズおよびオッズ比を採用するメリットと言えそうです。
4. 変数xkが0と1しか取れない理由
(1)式で示しましたロジスティック回帰の式では説明変数$x_k$ は,あるリスク要因の有無を意味する変数なので、基本的には、0 か1 の2 値しかとらない値です.この前提条件($x_k$は0もしくは1)を置かずに、$x_k$ を任意の実数としてロジスティック回帰を適用していることはないでしょうか。このときのロジスティック回帰にはオッズおよびオッズ比に基づいた本来(?)のロジスティック回帰に対して、どのような意味があるのでしょうか。ちょっと考えてみます。
(1)式において,$x_k$ を任意の実数としたとき、任意の実数 $b$、$a_k$ に対して、(1)式は成立します.したがいまして、$x_k$ を0もしくは1に制約せず、任意の実数としても数理的には問題ないと言えそうです.このとき、(1)式の意味を考えます。(1)式は、説明変数$x_k$に対して、目的変数 $p$ が $0≦p≦1$ の範囲に収まる回帰式を与えています。パラメータ $b$、$a_k$ は説明変数に対する寄与度を与えています。
では、$x_k$ は、0 か1 の2 値しかとらない値としなければならないのは、どのようなときなのでしょうか。ロジスティック回帰は、(2)式の相乗モデルから導出されますが、その(2)式においては,$B$ はベースオッズ,$A_k$ はオッズ比、$x_k$ はリスク要因の有無を表すとしました。この前提から、(1)式における $b$ は対数ベースオッズであり、$a_k$ は対数オッズ比であり、$x_k$ は0 もしくは1の2 値しかとらない値としました。(2)式から(1)式に至る過程で、(2)式から(4)式に変形するときに対数をとりますが、この変形において、$log$の真数は0以上でなければならないという条件、すなわち $0≦p /(1- p)$ の制約を考えたとしても,(2)式を満たすような$B$、$A_k$、$ x_k$ は、任意の実数で存在することがわかります。
$$
log(\frac{\hat{p}}{1-\hat{p}})=b{\times}a_1\cdot{x_1}{\times}a_2\cdot{x_2}{\times}\cdots{\times}a_n\cdot{x_n}\hspace{3.9cm}・・・\hspace{0.2cm}(4)
$$
以上から、ロジスティック回帰において、$x_k$ を0 もしくは1 の2 値しかとらない値とする制約は,$B$ はベースオッズ( $b$ は対数ベースオッズ)、$A_k$ はオッズ比($a_k$ は対数オッズ比)とした意味上の制約から来るもので、数理上の制約ではないと言えるのではないでしょうか.
以上、まとめますと(1)式のロジスティック回帰において、説明変数 $x_k$ は0 か1 の2 値しかとらない値とする制約は、$b$ は対数ベースオッズ、$a_k$ は対数オッズ比とする意味上の制約からくるものであり、数理上の制約ではないと言えそうです。数理的には(1)式において $x_k$ は任意の実数で成立しますが、このとき、$b$ は対数ベースオッズを表さず、$a_k$ は対数オッズ比を表しません。$b$ は対数ベースオッズとし、$a_k$ は対数オッズ比、$x_k$ は0 か1 の2 値しか取らないロジスティック回帰が、本来の形ですが、実情においては、$b$ は対数ベースオッズとせず、$a_k$ は対数オッズ比せず、$x_k$ は任意の実数を取れるロジスティック回帰も、広義のロジスティック回帰として認識されているように思えます。余談ですが、ニューラルネットワークの活性化関数として用いられるシグモイド関数もロジスティック関数と同じ形をしていますが、オッズおよびオッズ比を前提としておりませんので、このときの $x_k$ は、任意の実数を取ります。
5. おわりに
今回は、ロジスティック回帰について、基本的ではありますが、素朴かつ重要な以下の2点について考えてみました。
・ロジスティック回帰がオッズを採用している理由
・ロジスティック回帰では、変数$x_k$が0と1しか取れない理由
ロジスティック回帰は、もともとは、ある疾患の発生確率を求めると共にその疾患を発生させる要因の寄与度を調べるために求める開発されたものです。それぞれの分析手法のなりたちを調べてみると、それらの手法に対する数理的な理解だけなく、歴史的背景なども理解が深まって面白いかもしれません。
今回も、理論の大切さをあらためて知りたいあるいは感じたいという方がいらっしゃいましたら、それをできるだけわかりやすく伝えられたら、という思いから記事を書かせて頂きました。より詳しく知りたいという方は、参考文献などをご参考頂ければと思います。
参考文献
鶴田陽和:すべての医療系学生・研究者に贈る 独習統計学応用編24講 分割表・回帰分析・ロジスティック回帰