独立と排反
- 独立:2つの事象について、一方の事象が変化したときにもう一方の事象が変化せず、それが相互に言えること。
- 独立な場合、A事象とB事象のANDとA事象とB事象の積がイコールになる。
- 排反:排反事象とは「同時に起こらない」事象のこと。
- 排反な場合、A事象とB事象では被りが存在しない。ORをとっても被りがない。
確率
- 条件付確率:事象Bが起こるという条件のもとで事象Aが起こる場合、「AとBの2つの事象が発生する確率 / Bの事象が発生する確率」で求められる。
- 確率変数
- 離散型確率変数:サイコロの目など(1-6)など
- 連続型確率変数:体重・身長など小数点があるものなど
- 小数点は無限に続けられるため、153cmの確率は?と言われても答えられない。153-158の間の確率は?という問い方になる。
- 確率変数の求め方(確率:p、期待値:e、分散:v)。以下の式で求めた値を正規分布の表で照らし合わせる。
$$ (p - e) / \sqrt{v} $$ - 標準偏差と正規分布表を使った確率の求め方:以下の計算結果の値と正規分布表を照らし合わす
$$ (条件の値 - 平均値) / 標準偏差 $$- 例:条件の値が4800 - 平均値が4000 / 標準偏差が500 = 1.6→これを表に照らすと0.0548
- 確率変数の差の求め方:2つの確率変数が独立であるとき、確率変数の差の分散はそれぞれの確率変数の分散の和に等しくなる。よって、以下の計算結果の値と正規分布表を照らし合わすことで求められる。
$$ 条件の値/\sqrt{確率変数1の分散+確率変数2の分散} $$
変化率
- 一区間の変化率
$$ 変化後 - 基準値 / 基準値 $$- 例:基準値:80、変化後:90の場合、90-80/80=0.125(12.5%)
- 複数区間の変化率(幾何平均ともいう)
- 4区間の変化率の場合(x:1区間目の変化率、y:二区間目の変化率、z:三区間目の変化率、a:四区間目の変化率)
$$ (xyza)^{1/4} $$ - 例:それぞれの変化率が1.2,1.1,1.14,1.22とする
- (1.21.11.14*1.22)^1/4 = 1.16
- 4区間の変化率の場合(x:1区間目の変化率、y:二区間目の変化率、z:三区間目の変化率、a:四区間目の変化率)
分布
-
2項分布:1回の試行に対して2種類の結果が生じ、発生する確率をpとする。さらに、n回の試行においてが生じる回数を確率変数とする。確率変数がxとなる確率は以下の通り。
$$ {}_n\mathrm{C}_xp^x(1 - p)^{n - x} $$- 例:コインを5回投げて、2回表が出る確率は
$$ = {}_{5}\mathrm{C}_20.5^2(1 - 0.5)^{5 - 2} $$
$$ = (54)/(21)0.5^20.5^3 $$
$$ = 100.250.125 = 0.3125 $$ - 2項分布における期待値と分散の求め方は以下の通り。
$$ E(X) = np $$
$$ V(X) = np(1-p) $$ - 検定統計量の計算式(n:サンプル数、x:実際に起きた事象の数、p0:帰無仮説の数値
$$ (x/n) - p0 / \sqrt{p0(1-p0)/n} $$
- 例:コインを5回投げて、2回表が出る確率は
-
ポアソン分布:二項分布において、試行回数(n)が非常に大きく、事象の発生確率(p)が極めてまれな現象であるときに従う確率分布で、単位時間あたりにある事象が平均してλ回起こる場合に、その事象がx回起こる確率を示す。
$$ \frac{e^{-\lambda}\lambda^x}{x!} $$- ポアソン分布における期待値と分散の求め方は以下の通り。(n:サンプル数、p:確率)
$$ \lambda = np $$
$$ E(X) = \lambda $$
$$ V(X) = \lambda $$
- ポアソン分布における期待値と分散の求め方は以下の通り。(n:サンプル数、p:確率)
-
幾何分布:ベルヌーイ試行を何回か繰り返すときに、初めて成功するまでの回数を確率変数、各試行の成功確率をとしたときの確率分布のこと。
- 幾何分布の期待値と分散の計算(p=確率、E(X):期待値、V(X):分散)
$$ E(X) = 1 / p $$
$$ V(X) = (1 - p) / p^2 $$
- 幾何分布の期待値と分散の計算(p=確率、E(X):期待値、V(X):分散)
-
t分布:正規分布に似ているが、正規分布は定義の中で母数を用いるのに対して分布は不偏推定量を用いる。自由度を大きくすると正規分布に近付く。自由度はサンプル数(n)-1に従う。
- t検定(統計量(t))の求め方(x:標本平均、u:母集団の平均、s^2:不偏分散、n:サンプル数)
- 以下の計算結果とt分布表を比べて検定結果を判断する。
$$ (x-u)/\sqrt{s^2/n} $$
- 以下の計算結果とt分布表を比べて検定結果を判断する。
- t検定(統計量(t))の求め方(x:標本平均、u:母集団の平均、s^2:不偏分散、n:サンプル数)
カイ二乗分布
- 統計量:「理論値」からの「実測値」のズレを2乗したものを、「理論値」の値で割ったものの総和
- https://bellcurve.jp/statistics/course/9496.html の真ん中あたりの表のイメージ
- 独立性の検定は、片側検定になる。
- カイ二乗分布の信頼区間の求め方
F分布
- 自由度:F分布の自由度は、要因と誤差の2つを使う。
- 要因の自由度:要因の数-1
- 誤差の自由度:全体の自由度-要因の自由度
- 全体の自由度:全てのデータの個数-1
- 等分散性の検定:以下の式で計算し、F分布表で照らし合わす。(不変分散1:A、不変分散2:B)
- Aを分子にしているが、AとBを比べて大きいほうが分子になる。
歪度
- 歪度は分布の平均値とは関係がありません。正規分布からどのくらい歪んでいるかを表すための指標です。
- 歪度は「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値
- 歪度は「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値
- 歪度が0となるのは、左右対称の分布(例えば正規分布)
尖度
- 正規分布と比べて平らであれば、マイナス値、尖っていればプラス値となる。
xxx変動
- 傾向変動:時系列データにおける周期変動のうち、長期にわたる持続的な変化のこと
- 季節変動:時系列データにおける周期変動のうち、12ヶ月間で繰り返す周期変動のこと
- 循環変動:時系列データにおける変動のうち、景気変動のように周期は一定ではないが3~15年くらいで周期的に繰り返される変動のこと
- 不規則変動:時系列データにおける周期変動のうち、傾向変動、循環変動、季節変動以外の変動のこと
抽出方法
- 層化抽出法:母集団をその特性に応じていくつかの層に分類することが可能な場合に、各層からランダムに標本を抽出する方法
- 集落抽出法(クラスタ抽出法):母集団をいくつかのグループに分け、その中から無作為抽出で選ばれたグループに含まれる標本を全て抽出する方法
- 二段抽出法:例えば、1段目で全国を市区町村などの単位に分け、この単位で無作為抽出を行う。次に1段目で抽出された市区町村から個人単位の無作為抽出を行う方法
- 系統抽出法:母集団に通し番号をつけ、それ以下の通し番号を持つ点から無作為に一点目の標本を抽出する
推定量
- 不偏推定量:標本から測定した推定量の期待値が母集団のそれに等しいとき、その推定量を不偏推定量と言う。
- 一致推定量:一致性を満たす推定量です。それは、標本数を∞まで増やしたときに、推定量θ^が母数θに近づくという性質を持っています。
自由度
- 水準間の自由度:水準の個数から1を引いたもの
- 残差の自由度:「全体」の自由度から「水準間」の自由度を引いたもの
- 「全体」の自由度は、全てのデータの個数から1を引いたもの
相関
- 相関係数:2つの変数の相関を数字で表したもの
- 偏相関係数:見かけ上、相関があるが第3の変数が影響している場合にそれを取り除いた係数
- x,y,zという変数があり、zを第3変数とした場合、偏相関係数は以下から求められる。
$$ (r_{xy} - r_{xz}r_{yz})/(\sqrt{1-r^2_{xy}}\sqrt{1-r^2_{yz}}) $$
- x,y,zという変数があり、zを第3変数とした場合、偏相関係数は以下から求められる。
- 自己相関
- コレログラム:「元のデータ」と「元のデータから時間をずらしたデータ」との相関係数を計算し、元データからずらした量(ラグ)を横軸に、計算した相関係数を縦軸に取ったグラフのこと
- 自己相関:周期のタイミングで高くなり、その間(周期が12ならその間の6,18など)で低くなる。
- コレログラム:「元のデータ」と「元のデータから時間をずらしたデータ」との相関係数を計算し、元データからずらした量(ラグ)を横軸に、計算した相関係数を縦軸に取ったグラフのこと
標本
- 標本平均の標準誤差の求め方:q^2を不偏分散、nをサンプルサイズとする。
$$ \sqrt{q^2/n} $$ - 標準化得点または標準化:得られたデータを「平均0、標準偏差1」となるように変換したデータを指す
- 標準化得点の計算方法(x:確率変数、u:平均、o:標準偏差)
$$ x - u / o $$- 個人のテストの点数が60点、平均55点、標準偏差10とした場合、60-55/10=0.5という計算式になる。
- 標準化得点の計算方法(x:確率変数、u:平均、o:標準偏差)
- 偏差値:標準化得点*10+50
連続型確率変数
- 連続型確率分布を求める公式(dx=積分)
$$ \int_{-∞}^{∞}f(x)dx = 1 $$ - 期待値の求め方(dx=積分)
$$ \int_{-∞}^{∞}xf(x)dx $$
母比率を求める
- 95%の信頼区間(pを標本比率、nをサンプルサイズ)
$$ p±1.96*\sqrt{p(1-p)/n} $$ - 95%の信頼区間の幅(pを標本比率、nをサンプルサイズ)なおpの情報がない場合は、一番幅が大きくなる0.5を使う
$$ 21.96\sqrt{p(1-p)/n} $$ - 母比率の差の信頼区間
母平均を求める
- 母分散が既知(標準正規分布の表から算出)
- 信頼区間(x:標本平均、n:サンプルサイズ、q:母分散)
$$ x - 1.96 * \sqrt{q^2/n} <= u <= x + 1.96 * \sqrt{q^2/n} $$
- 信頼区間(x:標本平均、n:サンプルサイズ、q:母分散)
- 母分散が未知(t分布表から算出)
- 信頼区間(x:標本平均、t:t分布(t分布表から見る)、n:サンプルサイズ、s:不偏分散)
$$ x - t(n-1) * \sqrt{s^2/n} <= u <= x + t(n-1) * \sqrt{s^2/n} $$ - 統計量tを求める(x:標本平均、u:平均、n:サンプルサイズ、s:不偏分散)
$$ (x - u) / \sqrt{s^2/n} $$
- 信頼区間(x:標本平均、t:t分布(t分布表から見る)、n:サンプルサイズ、s:不偏分散)
- 2つの母集団の平均の差
- 母集団に対応がある場合
- 母集団に対応がない場合
フィッシャーの3原則
- 反復:複数の処理を比較する際に、それぞれの処理に対して同じ条件で2回以上の繰り返し実験(評価)を行うこと。
- 無作為化:実験の順序や場所などが複数ある場合に、比較したい処理群を無作為に(ランダムに)割り付けること。
- 局所管理:実験を行う時間や場所を区切ってブロックを作り、そのブロック内でのバックグラウンドができるだけ均一になるように管理すること。
回帰の用語
- Estimate:推定値 y=ax+bのうちのaにあたる。
- Intercept:切片 y=ax+bのうちのbにあたる。
- Std. Error:標準誤差
- t value:t検定の検定量
- Adjusted R-squared:自由度調整済み決定係数(説明変数が複数ある場合(重回帰分析)に意味をもつ)
- Multiple R-squared:決定係数(単回帰分析で使われる)
- F-statistic:データから算出された回帰式が統計的に意味があるかを検定した結果
- p-value(p値):帰無仮説が正しいという前提において、それ以上、偏った検定統計量が得られる確率
- p値は、有意水準との比較で使われることもある。
- ex. p値が0.01で有意水準が5%ならp値は1%であり、有意と言える。
- p値は、有意水準との比較で使われることもある。
- 単回帰分析または重回帰分析における検定
- 特徴量のうちの1つについて帰無仮説を設定した場合、以下の計算式で計算し、その値とt分布表を見比べる。なお、その際の自由度はサンプル数-説明変数-1である。
$$ 分析結果で求めたEstimateの値 - 帰無仮説で設定した値 / 対象の特徴量のStd. Errorの値 $$
- 特徴量のうちの1つについて帰無仮説を設定した場合、以下の計算式で計算し、その値とt分布表を見比べる。なお、その際の自由度はサンプル数-説明変数-1である。
- 単回帰分析または重回帰分析において有意水準を求められた場合、「Pr(<|t|)」の値から確認する。
分散分析
- 3群以上からなるデータ(例えば1組、2組、3組の算数のテスト等)や1つのデータに2つの要素を含むデータ(薬A、B、Cをそれぞれ10mg、20mg投与した場合の効果等)の母平均の差を検定する
- 分散分析の方法:「一元配置分散分析」:1つの因子からなるデータを分析する方法で、因子に含まれる水準間の平均値の差を見ることができます。例えば、ある学校の1組、2組、3組の算数のテストのデータがある場合、一元配置分散分析を用いて、1組、2組、3組の算数のテストの平均点に差があるかどうかを検定できます。
- 一次元分散分析において、帰無仮説を H0:µi はすべて等しい,対立仮説を H1:µi のうち少なくとも 1 つが異なるが条件となる。
- 分散分析のポイント:データ全体の平均値から因子の各水準の平均値がどのくらいずれているか」を見ること。
- 水準間平方和:データ全体の平均値からの各水準の平均値のズレ
- 例:複数年のデータを月ごとに採取した場合、複数年全体の平均から各年(年と月のうち年を変動要因とした場合)の平均値のずれを指す。
- 残差平方和:それ以外のズレ(各水準の平均値からの各データのズレ)
- 例:複数年のデータを月ごとに採取した場合、各年の平均値と各月のずれを指す。
- 水準間平方和:データ全体の平均値からの各水準の平均値のズレ
- 分散分析では、統計量F(F分布)から検定を行う。
- 平均平方=不変分散(標本分散)である。
過誤
- 第一種の過誤:帰無仮説が真なのに帰無仮説を偽として棄却する誤り
- 第二種の過誤:帰無仮説が偽なのに帰無仮説を真として棄却しない誤り
- 検出力:1-第X種の過誤の確率
- 例:第一種の検出力を求めたい場合、1-第二種の過誤の確率で求められる。
独立性の検定
- 期待度数:以下の計算式で求められる。(全体がCのうちAという条件ではBである。)
$$ A*B/C $$- 例:A:冬季、B:風向が北である、C:365日
$$ 冬季の日数*風向が北であるに数 / 365日 $$
- 例:A:冬季、B:風向が北である、C:365日
- カイ二乗検定:「実測度数と期待度数の差の二乗」を「期待度数」で割ったものの総数。なお、独立性の検定は片側検定で行います。
2標本検定
- 対応あり
- 対応なし
- 右記参照:https://bellcurve.jp/statistics/course/9427.html
- 2標本合算時の不偏分散とt検定を求める式を覚える必要がある。
- 計算例は右記参照:https://bellcurve.jp/statistics/course/9446.html
- 右記参照:https://bellcurve.jp/statistics/course/9427.html
その他
- スタージェスの公式:ヒストグラムなどの図を書く時に階級をいくつにするか決める目安を求める式(X:データ数)
$$ 1+\log_2 X $$ - 標本比率の求め方:標本において占める割合
- サイコロを10回降って、3回1が出たとすると30%が標本比率
- RSE(Residual standard error)の数:標本の大きさ - 定数項を含む説明変数の数
- 共分散:2変数の関係の強さを表す指標の一つ。ただし、データの単位の影響を受けるので値の大きさで単純に比較できない。
- sxy:共分散、n:サンプル数、x:変数1、y:変数2
- 共分散を各変数の標準偏差で割った値は相関係数となる
$$ s_{xy} = \frac{1}{n - 1} \displaystyle \sum_{i = 1}^n
{(x_i - \overline{x})(y_{i} - \overline{y})} $$
- 分散と期待値の関係
$$ V[X] = E[X^2] - (E[X])^2 $$ - 共分散と期待値の関係
$$ Conv(X,Y) = E[X*Y] - E[X]*E[Y] $$ - 分散の性質
- 定数が含まれる場合(定数は消える)
$$ V(X+3) = V(X) $$ - 乗算する値を外に出すとき(2乗して外に出す)
$$ V(3X) = 9(X) $$
- 定数が含まれる場合(定数は消える)
- 分散の加減法
- 加算
$$ V(X + Y) = V(X) + V(Y) + 2*Conv(X,Y) $$ - 減算:
$$ V(X - Y) = V(X) + V(Y) - 2*Conv(X,Y) $$
- 加算
- 相関関係の計算
$$ Conv(X,Y)/\sqrt{V[X]*V[Y]} $$ - 変動係数:標準偏差を平均値で割った値のこと
- 単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用いる
- ジニ係数:完全平等線とローレンツ曲線との間の面積を2倍した値。値が大きいほど偏りがある。
$$ A^2/B^2 $$ - P値:帰無仮説の元で検定統計量がその値となる確率のこと。
- ラスパイレス指数:基準年の購入量や取引量等を重みとして算出した価格指数のこと
- 以下の式で求めることができる。(a:基準年の価格、b:比較年の価格、c:基準年の数量)
$$ \sum_{k=1}^{n} ac/\sum_{k=1}^{n} bc * 100 $$
- 以下の式で求めることができる。(a:基準年の価格、b:比較年の価格、c:基準年の数量)
- パーシェ指数:比較年の購入量や取引量等を重みとして算出した価格指数のこと
- 以下の式で求めることができる。(a:基準年の価格、b:比較年の価格、c:比較年の数量)
$$ \sum_{k=1}^{n} ac/\sum_{k=1}^{n} bc * 100 $$
- 以下の式で求めることができる。(a:基準年の価格、b:比較年の価格、c:比較年の数量)
- 実験研究:研究対象に対して何らかの介入(投薬や治療など)を行い、その効果を検証するための研究デザインのこと
- 観察研究:研究対象に対して介入(投薬や治療など)を行わなずに、観察によってデータを集めて解析を行う研究デザインのこと