まずはお約束(ディスクレーマー)
私は経済学者でも物理学者でもなく、ただのゆるふわデータサイエンティストです。
ここに書いてあることは「ふーんそんな考え方もあるのかな」くらいの気持ちで梅昆布茶でも飲みながら読んでください。
本記事は何らかの行動を促すものでは全くありません。
導入
ファンド運用と相関係数
たとえば投資の世界でファンドマネージャーの能力の巧拙を測る指標である情報レシオ$IR$は0.5を超えていれば優秀である1と言われていますが、その情報レシオは以下の数式(アクティブ運用の基本法則2)により理論的に計算できます。
IR = IC * \sqrt{BR}
ここで情報係数$IC$は投資対象銘柄に対するファンドマネージャーの予想リターンと、実際の投資後に判明する実績リターンの相関$\rho$であり、ブレス$BR$は試行回数(=投資銘柄数×取引回数)を指します。
一般的なアクティブファンドはだいたい月に一度程度リバランスをするので一年で12回、また投資銘柄数はファンドに依り様々ですがここでは50銘柄としておきましょう3。したがって$\sqrt{BR}=\sqrt{12*50}\sim25$くらい。
ここで$IR=0.5$を達成するために必要な情報係数$IC$を逆算すると$IC=0.5/25=0.02$になり、他業界の人からすれば最早 相関は正でありさえすれば良い というほど要求される相関の水準は小さいと思われるかもしれませんが、実際大変なんです。
なぜならば、大多数の日本株式のアクティブファンドの比較対象である東証株価指数TOPIXの構成銘柄数は2023/4時点で約2000銘柄4であり、情報係数すなわち相関係数はその2000銘柄に対して計算されます。いくらプロのファンドマネージャーでも2000銘柄全部をカバーしきることは出来ませんから、実務的には「他にも爆上がりする銘柄はあるかもしれないけど、このあたりの銘柄はきっとTOPIXより強いだろう」という銘柄をピックアップすることになります。
したがって数学的には「他にも~かもしれない」カバー外の銘柄の予想リターンは0ということになり、2000次元の予想リターンのベクトルは、投資される50銘柄=50次元分くらいの成分は0以上の何らかの値が入り、残り1950銘柄=1950次元分くらいの成分は0によって構成されます。その予想リターンのベクトルと実績リターンのベクトルの相関が正の状態を(しかもコンスタントに)続けることが如何に困難であるか、イメージは掴めるかと思います。
したがって、例に挙げたファンド運用業を含め、業界によっては相関の水準だけでなく、 そもそも相関が0でないかどうかを見極めたい、かつ、期待できる相関係数の水準は極めて小さい というシチュエーションが発生します。
そこで、「相関のt検定」という話に繋がるわけです。
相関のt検定
よく知られているように、相関を$\rho$、サンプル数を$N$としたとき、相関のt値は以下の数式により計算できます5。
t(\rho, N) = \frac{\rho}{\sqrt{1-\rho^2}}\sqrt{N-2}
それほど複雑な数式でもないのでエクセルを叩けば普通に計算できますが、実務家にとっては 数字にアスタリスク(* や **)をつける6ためには$\rho$をどの程度の精度まで出せばいいのか?どれくらいのサンプル$N$を用意すればいいのか? ということを暗算でさくっと知りたいというシチュエーションに出くわす機会が多いと思います。
近似式の導出
物理出身者あるあるの乱暴な近似
ここからは導入部分のシチュエーションに沿って、$|\rho|\ll1$、$|N|\gg1$という状況下でt値をざっくばらんに近似していきましょう。
まず、$\sqrt{N-2}\sim\sqrt{N}$でいいでしょう。
次に一番安全が面倒な分母の$\sqrt{1-\rho^2}$はマクローリン展開$(1+x)^n\sim1+nx$を用いて
\begin{eqnarray*}
\frac{1}{\sqrt{1-\rho^2}} &=& \Bigr\{1+(-\rho^2)\Bigr\}^{-\frac{1}{2}} \\
&\sim& 1+\Bigl(-\frac{1}{2}\Bigl)(-\rho^2) \\
&=& 1+\frac{1}{2}\rho^2
\end{eqnarray*}
ここまでをまとめると
t(\rho, N) \sim \rho\biggl(1+\frac{1}{2}\rho^2\biggl)\sqrt{N}
さらに$\rho$の2次のオーダーは無視しちゃうとここまで簡単になります。
t(\rho, N) \sim \rho\sqrt{N}
ここまでくれば暗算も容易でしょう。
収束半径
相関ρ
最も簡便な形の近似式$\rho\sqrt{N}$で済ませるのは$|\rho|\leq0.25$か、せいぜい$|\rho|\leq0.5$くらいの範囲にしておいたほうが無難そうです。
サンプル数N
サンプル数$N$の方は$N\geq50$もあれば十分でしょう。
オームの法則と化す相関のt値
中2の理科で学ぶオームの法則を記憶するためのてんとう虫🐞みたいな図(私は使いませんでしたが笑)に出来ちゃうので、描いてみました。
厳密式の導出
冒頭に記載した$t(\rho, N)$の厳密式自体それほど複雑ではないので、$t$と$ρ$(または$N$)から$N$(または$\rho$)を逆算する厳密式もついでに導出しておきました。
t, N → ρ
\rho(t, N) = \frac{t}{\sqrt{N-2+t^2}}
t, ρ → N
N(t, \rho) = \biggl(\frac{1}{\rho^2}-1\biggl)t^2+2
利用例
- $\rho=0.01$で、数字に1つアスタリスクをつけたい($\iff|t|\geq1$)場合に必要なサンプル数
\begin{eqnarray*}
1=\rho\sqrt{N} \implies N=\frac{1}{\rho^2}=\frac{1}{0.01^2}=10,000
\end{eqnarray*}
これを厳密式$N(t, \rho)$で計算すると、
\begin{eqnarray*}
N(t=1, \rho=0.01) = \biggl(\frac{1}{0.01^2}-1\biggl)1^2+2 = 10,001
\end{eqnarray*}
- $N=1,000,000$で、数字に2つアスタリスクをつけたい($\iff|t|\geq2$)場合に必要な予測精度$\rho$
\begin{eqnarray*}
2=\rho\sqrt{N} \implies \rho=\frac{2}{\sqrt{N}}=\frac{2}{\sqrt{10^6}}=\frac{2}{1,000}=0.002
\end{eqnarray*}
これを厳密式$\rho(t, N)$で計算すると、
\begin{eqnarray*}
\rho(t=2, N=10^6) = \frac{2}{\sqrt{10^6-2+2^2}} = 0.001999998\cdots
\end{eqnarray*}
まとめ
$|\rho|\ll1$、$|N|\gg1$のとき、t値は次式で近似できることがわかりました。
\begin{eqnarray*}
t\sim\rho\sqrt{N}
\end{eqnarray*}
これは冒頭のアクティブ運用の基本法則にとても形が似ている、というか瓜二つです7。
実際、情報係数$IC$は相関係数$\rho$そのものですし、ブレス$BR$はよく$N$と書かれます8。
\begin{eqnarray*}
IR=IC*\sqrt{N}=\rho\sqrt{N}
\end{eqnarray*}
ファンド運用業界の人間は「$IR$は相関のt値の近似式」と覚えてもいいかもしれません。
-
例えば https://www.daiwa-am.co.jp/guide/term/a/info_1.html などをご覧ください。 ↩
-
例えば https://www.saa.or.jp/journal/prize/pdf/sodeyamayano.pdf などをご覧ください。 ↩
-
例えば https://diamond.jp/zai/articles/-/1010350 などをご覧ください。 ↩
-
例えば https://www.nam.co.jp/education/handbook/idx03.html などをご覧ください。 ↩
-
例えば http://www.tamagaki.com/math/Statistics605.html などをご覧ください。 ↩
-
もちろん * は$|t|\geq1$、 ** は$|t|\geq2$を意味します。 ↩
-
アクティブ運用の基本法則の導出を見たことがないのですが、もしかして同じような近似を通しているかもですね。 ↩
-
米国の運用会社アライアンス・バーンスタイン https://www.alliancebernstein.com/apac/en/institutions/insights/investment-insights/an-equity-outlook-are-stocks-the-biggest-real-asset-out-there.html などがブレス$BR$を$N$と記載しています。 ↩