1. 相対度数(Relative Frequency)
定義:
ある階級の度数を、全体の度数の合計で割った値。割合(%)で表すことも多い。
計算式:
$$
\text{相対度数} = \frac{\text{その階級の度数}}{\text{全体の度数}}
$$
例:
度数分布表で、ある階級の度数が20、全体の度数が100の場合:
$$
\text{相対度数} = \frac{20}{100} = 0.2 = 20%
$$
2. 中央値を含む階級(Class Containing the Median)
定義:
データを小さい順に並べたとき、ちょうど中央にくる値(中央値)を含む階級。
求め方(例:度数分布から):
- 度数分布表から累積度数を計算。
- データの個数(n) を求める。
- 中央値の位置は $\frac{n + 1}{2}$ 番目。
- 累積度数からその位置を含む階級を探す。
例:
階級 | 度数 |
---|---|
0–9 | 2 |
10–19 | 5 |
20–29 | 8 |
30–39 | 10 |
→ 全体の度数合計 = 25
→ 中央の位置: $\frac{25+1}{2} = 13$ 番目
→ 累積度数:2, 7, 15, 25
→ 13番目は「20–29」の階級に含まれる → これが「中央値を含む階級」
3. 箱ひげ図と度数分布表の関係
箱ひげ図(Box-and-Whisker Plot):
データの五数要約(最小値・第1四分位数・中央値・第3四分位数・最大値)を視覚的に表した図。
読み取りポイント:
- 箱の中心線:中央値(第2四分位数)
- 箱の下端と上端:Q1, Q3(25%・75%)
- ひげの先端:最小値・最大値(外れ値除く)
- 外れ値:点や×で表示されることが多い
分布との関係:
- 左右対称ならほぼ正規分布
- 右側が長ければ右に裾が広い(右偏、右に外れ値が多い)
- 分布の偏りやばらつきが視覚的に把握可能
4. 幹葉図(Stem-and-Leaf Plot)
定義:
データの桁を「幹(stem)」と「葉(leaf)」に分けて、形を保ったまま並べる手法。
例:
データ:43, 45, 46, 52, 53, 55, 55, 60
4 | 3 5 6
5 | 2 3 5 5
6 | 0
- 幹(stem):10の位
- 葉(leaf):1の位
読み取り:
- モード(最頻値):葉が多い部分
- 中央値:データ数が奇数・偶数で中央の葉を探す
- 分布の形:偏り・対称性を視覚で把握できる
🟦 傾向変動(Trend Variation)
概要:
長期的に見たときのデータの一貫した増加または減少の傾向を指します。
特徴:
- 数年~数十年にわたるスパンで観察される。
- 人口増加、経済成長、温暖化など、継続的に変化する現象に見られる。
- 線形(直線)だけでなく、**曲線(指数関数的や対数的)**で表されることもある。
例:
- 国のGDPの長期的な上昇
- 都市の人口推移
🟦 季節変動(Seasonal Variation)
概要:
1年を周期として、一定のパターンで繰り返される変動。
特徴:
- 暦(カレンダー)に依存した変動。
- 月次・週次データで明確な繰り返しパターンが現れる。
- 原因:気候、休日、行事、季節性需要など。
例:
- 夏にエアコンの売上が増える
- 年末に小売業の売上が急増する
🟦 循環変動(Cyclical Variation)
概要:
数年〜十数年単位で発生する、景気などの経済サイクルに伴う変動。
特徴:
- 明確な周期性があるが、季節変動より周期が長い。
- 周期は一定でないことが多い。
- 原因:経済要因(投資、雇用、金利など)の変動。
例:
- 景気循環(好況 → 後退 → 不況 → 回復)
- 不動産市場のバブルと崩壊の繰り返し
🟦 不規則変動(Irregular Variation)
概要:
偶発的・突発的で予測不能な変動。
特徴:
- 他のいかなる要因でも説明できない。
- モデル化・予測が非常に難しい。
- 原因:自然災害、政治的事件、事故、疫病など。
例:
- 大地震による経済活動の急落
- COVID-19による突発的な経済影響
🟨 補足:時系列分解(Time Series Decomposition)
時系列データは以下のように分解されます:
-
加法モデル(Additive Model):
$$
Y_t = T_t + S_t + C_t + I_t
$$ -
乗法モデル(Multiplicative Model):
$$
Y_t = T_t \times S_t \times C_t \times I_t
$$
ここで:
- $T_t$:傾向成分(Trend)
- $S_t$:季節成分(Seasonal)
- $C_t$:循環成分(Cyclical)
- $I_t$:不規則成分(Irregular)
🟦 ① 平均変化率(幾何平均成長率)
📘 公式と意味
平均変化率($r %$)は、ある期間において毎回 一定割合で増加したと仮定した場合の変化率 を求めるものです。
変化率が毎月一定 $r %$ だったとすると、次の等比数列の関係が成立します:
$$
W_{\text{最終}} = W_{\text{初期}} \times \left(1 + \frac{r}{100}\right)^n
$$
これを $r$ について解くと:
$$
r = \left{ \left(\frac{W_{\text{最終}}}{W_{\text{初期}}} \right)^{1/n} - 1 \right} \times 100
$$
🎮 ポケモンで例えると:
🌡️ 設定:
ポケモンセンターのアイスクリーム売上指数を見てみましょう。
- 1月(初期)売上指数:102.6
- 4月(最終)売上指数:105.6
- 毎月、同じ割合で売上が伸びていたと仮定(3ヶ月間)
✅ 計算:
$$
r = \left{ \left(\frac{105.6}{102.6} \right)^{1/3} - 1 \right} \times 100
$$
$$
r = \left(1.0293^{1/3} - 1\right) \times 100 \approx (1.0097 - 1) \times 100 = 0.97%
$$
➡️ 1か月あたり平均変化率は約 +0.97%
🟦 ② 線形変換による平均・標準偏差の変化
📘 定義:摂氏から華氏の変換
温度変換式:
$$
F = 1.8C + 32
$$
ここで、C:摂氏、F:華氏
このような変換を**線形変換(affine transform)**と言います。
🧠 線形変換と統計量への影響
-
平均の変換:
$$
\text{平均}_F = 1.8 \times \text{平均}_C + 32
$$ -
標準偏差の変換:
$$
\text{標準偏差}_F = 1.8 \times \text{標準偏差}_C
$$※加算項(+32)はばらつきに影響しない
🎮 ポケモンで例えると:
🧊 設定:
こおりタイプのポケモン「ユキメノコ」たちが暮らす17都市の気温データが摂氏で与えられていたとして…
- 平均気温(摂氏):$-4^\circ C$
- 標準偏差(摂氏):2℃
✅ 華氏に変換すると:
-
平均(華氏):
$$
\text{平均}_F = 1.8 \times (-4) + 32 = 24.8^\circ F
$$ -
標準偏差(華氏):
$$
\text{標準偏差}_F = 1.8 \times 2 = 3.6^\circ F
$$
🔚 まとめ(表形式)
項目 | 数式 | ポケモン例 | ||
---|---|---|---|---|
平均変化率 | $r = \left{ \left(\frac{W_t}{W_0}\right)^{1/n} - 1 \right} \times 100$ | 売上指数の毎月の成長率(アイスクリーム指数) | ||
線形変換-平均 | $\mu_Y = a \mu_X + b$ | ユキメノコたちの気温データの平均(摂氏 → 華氏) | ||
線形変換-標準偏差 | ( \sigma_Y = | a | \sigma_X ) | 温度のばらつきの変換(摂氏 → 華氏、加算項は影響しない) |
以下に、ローレンツ曲線とジニ係数について、統計検定2級レベルに対応した内容で丁寧に解説します。
🟦 ローレンツ曲線(Lorenz Curve)
✅ 定義:
所得や資産の不平等度合いを可視化するためのグラフ。
**横軸(X軸)**に人口の累積比率(%)、**縦軸(Y軸)**に所得の累積比率(%)をとります。
📈 描き方:
- データを所得の少ない順に並べる
- 各人の累積人口比と累積所得比を計算
- 点を結んで曲線にする
🎮 ポケモンで例えると:
ある町に5匹のポケモンがいて、それぞれのおこづかいが以下の通りだったとします:
ポケモン | 所得(円) | 累積人口比 | 累積所得比 |
---|---|---|---|
ピチュー | 10 | 20% | 5% |
ポッチャマ | 20 | 40% | 15% |
ヒコザル | 30 | 60% | 30% |
ナエトル | 40 | 80% | 50% |
リオル | 100 | 100% | 100% |
🟦 ジニ係数(Gini Coefficient)
✅ 定義:
ローレンツ曲線によって表される不平等の度合いを数値化したもの。
値の範囲は 0 ~ 1:
- 0:完全平等(すべての人が同じ所得)
- 1:完全不平等(1人がすべての所得を持つ)
🔢 計算方法(一般形):
$$
\text{ジニ係数} = \frac{A}{A + B}
$$
ただし:
- $A$:ローレンツ曲線と45度線の間の面積
- $B$:ローレンツ曲線の下の面積
✅ 実用的な計算式(離散データ):
人口比と所得比が $(x_i, y_i)$ と並んでいるとき:
$$
\text{ジニ係数} = 1 - \sum_{i=1}^{n} (x_i - x_{i-1})(y_i + y_{i-1})
$$
🎮 ポケモンで再び:
先ほどのポケモンの例でローレンツ曲線を描いた場合、それが対角線からどれだけ下にあるかでジニ係数が決まる。
- もし全員が同じ10円ならジニ係数 = 0(平等)
- リオルだけが全額100円持っていればジニ係数 ≈ 1(極端な不平等)
🟨 まとめ(表形式)
用語 | 定義・特徴 |
---|---|
ローレンツ曲線 | 所得の累積分布を表す曲線(X:人口比、Y:所得比) |
ジニ係数 | ローレンツ曲線に基づく不平等度の数値指標(0=平等、1=不平等) |
計算方法 | $\text{ジニ係数} = 1 - \sum_{i=1}^{n} (x_i - x_{i-1})(y_i + y_{i-1})$ |
視覚的理解 | ローレンツ曲線と45度線との間の面積比 |
応用例 | 所得格差、教育格差、資源分布の評価、など |
🟦 ① コレログラム(自己相関図)の選択
✅ コレログラムとは:
時系列データの自己相関係数(ACF)をラグ別に並べたグラフ
横軸:ラグ(何ヶ月前か)
縦軸:自己相関係数(-1 ~ +1)
点線:帰無仮説「無相関」の棄却限界(約 ±1.96/√n)
🎯 選択の判断基準:
-
季節性(季節変動)あり:
- 例えば「12の倍数のラグで大きなピーク」 → 年間サイクル(12ヶ月周期)を示唆
- 形:周期的な波形を描く
-
トレンド(傾向変動)あり:
- ラグが大きくなっても自己相関がなかなか減衰しない → 非定常性
-
ホワイトノイズ(無相関):
- どのラグも有意でなく、点線の内側に収まる
🎮 ポケモンで例えると:
「イーブイの月別人気度(検索数)」を6年間調べてコレログラムを作成
→ 12ヶ月ごとにピーク → 夏休みと映画公開時期に毎年人気急上昇!
✅ 正解の選び方(出題形式):
-
図を見て、12の倍数(例:12, 24, 36...)ラグで自己相関が強い:
➤ 季節性がある -
自己相関が長く続いて減衰:
➤ トレンド性あり -
点線の内側に収まり無秩序:
➤ ホワイトノイズ
🟦 ② ラスパイレス価格指数(Laspeyres Price Index)
✅ 定義:
基準年の数量(消費量)を重みとして計算する価格指数。
以下の式で表される:
$$
\text{指数} = \frac{ \sum(\text{基準年数量} \times \text{比較年価格}) }{ \sum(\text{基準年数量} \times \text{基準年価格}) } \times 100
$$
📊 問題設定:
品目 | 2016年数量 (g) | 2016年価格 (円/100g) | 2017年価格 (円/100g) |
---|---|---|---|
梨 | 3827 | 48.86 | 49.30 |
ぶどう | 2422 | 107.09 | 115.36 |
✅ 計算式:
$$
\text{指数}_{2017} = \frac{
3827 \times 49.30 + 2422 \times 115.36
}{
3827 \times 48.86 + 2422 \times 107.09
} \times 100
$$
➡️ 基準年の数量 × 比較年の価格 ÷ 基準年の数量 × 基準年の価格 × 100
🎮 ポケモンで例えると:
ポケモンフーズ「モモンのみ」と「ナナのみ」の仕入価格の変動を評価する際、前年の仕入量を元にして価格変化の影響を測るのが「ラスパイレス指数」!
🟨 まとめ表
項目 | 内容 |
---|---|
コレログラム | 時系列データの自己相関を可視化する図 |
季節性の判定 | 12の倍数ラグで自己相関が大きい → 年間周期あり |
トレンド判定 | 自己相関が徐々に減衰する → 非定常性あり |
ジャストホワイトノイズ | 自己相関がすべて有意でない → ランダムノイズ |
ラスパイレス指数 | 基準年の数量を固定して価格変化を評価(計量経済や家計調査で使用) |
計算式 | $\frac{ \sum (q_0 \cdot p_1)}{ \sum (q_0 \cdot p_0)} \times 100$ |
🟦 1. 散布図(Scatter Plot)
✅ 定義:
2つの変数(X, Y)の関係性を、平面上に点として描くグラフ。
📈 目的:
- 関係性の方向(正/負)
- 形状(直線的か曲線的か)
- 外れ値の有無
- 相関の強さの視覚的確認
🟦 2. 度数分布表(Frequency Distribution Table)
✅ 定義:
データをいくつかの階級(クラス)に区切り、それぞれに属するデータの個数(度数)を数えた表。
📊 用語:
- 階級(class interval):データを分類する区間(例:10~19, 20~29)
- 度数(frequency):各階級に含まれるデータの個数
🟦 3. ヒストグラム(Histogram)
✅ 定義:
度数分布表を棒グラフ形式で表現したもの。
- 横軸:階級
- 縦軸:度数(または相対度数)
❗ 注意:
棒の幅が均一でない場合、面積で表す必要がある(度数密度)
🟦 4. 相関係数(Correlation Coefficient)
✅ 定義:
2つの変数の直線的関係の強さと向きを示す指標。
$$
r = \frac{ \text{cov}(X, Y) }{ \sigma_X \sigma_Y }
$$
- 範囲: $-1 \leq r \leq 1$
- $r > 0$:正の相関(X↑ → Y↑)
- $r < 0$:負の相関(X↑ → Y↓)
- $r = 0$:直線的関係なし
🟦 5. 決定係数(Coefficient of Determination)
✅ 定義:
相関係数の2乗。
2変数のうち、一方が他方によりどれだけ説明されるかを表す。
$$
R^2 = r^2
$$
- 範囲:$0 \leq R^2 \leq 1$
- 例:$R^2 = 0.81$ → 説明力81%
🟦 6. 共分散(Covariance)
✅ 定義:
2つの変数がどれだけ一緒に変動するかを示す指標。
$$
\text{cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$
- $\text{cov}(X, Y) > 0$:同じ方向に動く傾向
- $\text{cov}(X, Y) < 0$:逆の方向に動く傾向
- 単位はX・Yの単位に依存(標準化されていない)
🟨 まとめ表
項目 | 定義・意味 |
---|---|
散布図 | 2変数間の関係を点で表現するグラフ |
度数分布表 | データを区間ごとにまとめて度数を記録した表 |
ヒストグラム | 度数分布表を視覚的に表現する棒グラフ |
階級 | 区切られた数値の範囲(例:0~10, 10~20) |
度数 | 各階級に属するデータの件数 |
共分散 | 2変数の同時変動の程度を示す |
相関係数 | 共分散を標準偏差で割った指標(-1~1の範囲) |
決定係数 | 相関係数の2乗。変数の説明力(%) |
🎮 ポケモンで例えると:
- 散布図:HPと防御の関係を見る
- 度数分布・ヒストグラム:ポケモンの素早さを10刻みで分類
- 相関係数:攻撃と特攻が似ているか?
- 決定係数:身長が体重をどれだけ説明するか
- 共分散:進化前後で種族値がどれくらい同時に増えるか
🟦 各標本抽出法の性質(ポケモンで解説)
抽出法 | 定義 | ポケモン例 |
---|---|---|
1. 単純無作為抽出法 | 全体からランダムに抽出 | ガラル地方に住むポケモントレーナー1000人の名簿から、くじ引きで100人を選び、「バトル満足度」を調査。 |
2. 系統抽出法 | 一定間隔で抽出 | ポケモンセンター来館記録のリストから、最初のトレーナーをランダムに選び、以降は10人おきに調査。 |
3. 層化抽出法 | グループごとに抽出 | トレーナーを「ジムバッジの数」で層に分け(0〜3枚、4〜6枚、7〜8枚)、それぞれの層から同数抽出してバトルスタイルを調査。 |
4. 集落抽出法 | クラスターを抽出し全体を調査 | ホウエン地方の町(トウカシティ、ミシロタウンなど)をクラスターとして、ランダムに2つの町を選び、その町のトレーナー全員に調査用紙を配布。 |
5. 二段抽出法 | クラスター内から再抽出 | イッシュ地方のジムをランダムに選び(第1段階)、選ばれたジムのバトル参加者の中からさらにランダムに選んで調査(第2段階)。 |
6. 全数調査 | 全体をすべて調査 | カントー地方の全ジムリーダー8人全員に、トレーナーとのバトル満足度についてインタビュー。 |
🟦 研究の形態(ポケモンで解説)
研究形態 | 定義 | ポケモン例 |
---|---|---|
実験研究 | 原因と結果の関係を明らかにするために、変数を操作する研究 | ポケモンの持たせる道具(「こだわりハチマキ」vs「たべのこし」)をランダムに割り当てて、勝率への影響を検証。 |
観察研究 | 操作せず自然に観察 | サファリゾーンで、日によって出現するポケモンの種類や頻度を観察し、環境との関係を分析。 |
🟦 フィッシャーの3原則(ポケモンで解説)
原則 | 定義 | ポケモン例 |
---|---|---|
1. 繰り返し(Replication) | 実験を複数回行って精度を上げる | 「オボンのみ」が与えるHP回復効果を、異なる30体のピカチュウで検証。 |
2. 無作為化(Randomization) | 実験条件をランダムに割り当てる | 50匹のリザードンをランダムに「日照り」チームと「通常」チームに分けて、天候が炎技に与える効果を調査。 |
3. 局所管理(Local Control) | 実験条件を統一する | すべてのバトルを同じバトルフィールド(例:ポケモンスタジアム)で行い、環境変数を一定に保つ。 |
🟦 非標本誤差(ポケモンで解説)
種類 | 内容 | ポケモン例 |
---|---|---|
測定誤差 | 回答ミスや誤解による誤差 | トレーナーが「一番好きなポケモン」を選ぶ質問で、「好き=強い」と誤解して回答した。 |
処理誤差 | 入力・集計ミス | 調査員が「エレブー」と「エレキブル」を取り違えてデータ入力。 |
非回答誤差 | 回答拒否・連絡不能 | ギンガ団の団員が調査を拒否したため、回答データが欠落。 |
選択バイアス | 調査対象が偏る | バトルタワー常連トレーナーだけに調査したため、カジュアルプレイヤーの意見が反映されない。 |
✅ まとめ
項目 | ポケモンを使った解説の要点 |
---|---|
抽出法 | トレーナーや地域、町、バトルなどを使って具体化 |
実験 vs 観察研究 | 道具やバトル効果=操作あり → 実験、自然観察 → 観察 |
フィッシャーの原則 | 複数の個体で試す/条件を固定/ランダム分けで説明 |
非標本誤差 | ギンガ団の回答拒否、誤記、誤解の例で具体化 |
🟦 積事象の確率(共通して起こる確率)
🔍 ポケモンで例えると:
「ピカチュウが登場する回」と「でんきタイプの技を使う回」が両方起こる確率を考える。
- 「ピカチュウが登場する」確率と、
- 「その回ででんき技を使う」確率が独立とは限らない。
例えば、ピカチュウが出てこない回ではでんき技が出ないかもしれない。
このようなときは、「でんき技使用」の確率は「ピカチュウ登場」の条件付き確率になる。
🟦 ベイズの定理(逆の推論)
🔍 ポケモンで例えると:
ある日、トレーナーが「リザードンの鳴き声」を聞いたとする。
その鳴き声が聞こえた原因が「野生」か「ジム戦」かを知りたい。
- リザードンがジム戦で使われる確率は高い。
- でも鳴き声がしたとき、**そのリザードンがどこから来たか?**を知るには「ベイズの定理」で推測する。
これは、結果(鳴き声)から原因(出所)を推測する例になる。
🟦 排反と独立
🔍 ポケモンで例えると:
- 「ヒトカゲが出現する」ことと
- 「ゼニガメが出現する」こと
同時には起こらない → 排反な事象。
一方、
- 「サトシがポケモンセンターに行く」ことと
- 「雨が降る」こと
この2つが関係ないなら → 独立な事象。
片方が起こっても、もう片方の確率は変わらない。
🟦 条件付き期待値
🔍 ポケモンで例えると:
「キズぐすり」が出るまでガチャを回すときの平均回数。
もし、すでに5回外れていたとしたら…
「ここまで外れたから、次は当たりやすいはず!」と思うかもしれない。
でも、毎回リセットされているなら、期待値は常に同じ。
これが幾何分布の性質であり、条件付き期待値のイメージになる。
🟦 段階実験の期待値
🔍 ポケモンで例えると:
1回サイコロを振って「1〜2」が出たら「カントー地方」に出発、
「3〜6」が出たら「ホウエン地方」に出発する。
各地方で2回ずつ野生ポケモンに遭遇する。
→ その日の**「くさタイプ」ポケモンに出会う数の期待値**は?
地方ごとに出現率が違うので、
サイコロの出目に応じた期待値の加重平均が必要。
🟦 対戦順の影響(戦略的確率)
🔍 ポケモンで例えると:
サトシが「ヒカリ」「シンジ」「ヒカリ」の順で対戦するか、
「シンジ」「ヒカリ」「シンジ」の順で対戦するか。
ヒカリには勝ちやすいが、シンジには勝ちにくい。
**「勝てそうな相手と多く対戦する方が有利」**という発想が、
この確率構造のポイントになる。
✅ まとめ:ポケモンで学ぶ確率の考え方
概念 | ポケモンでの例 |
---|---|
積事象 | ピカチュウ出現 & でんき技使用 |
ベイズの定理 | 鳴き声から出所(野生かジム)を推測 |
排反 | ヒトカゲ vs ゼニガメ(同時出現しない) |
独立 | ポケセンに行く & 雨(無関係) |
条件付き期待値 | 外れ5回後でも次の期待値は変わらない |
段階実験 | サイコロ→地方→出現率→期待出現数 |
順序の影響 | 勝ちやすい相手を多く配置する方が有利 |
🟦 1. 確率密度関数の定数の決定(連続型)
✅ ポイント
連続型確率分布の**確率密度関数 $f(x)$**において:
$$
\int_{-\infty}^{\infty} f(x) dx = 1
$$
が必ず成り立つ。
🔍 例
ある町の水道使用量が $0 \leq x \leq 20$ の範囲で一様に分布していたら:
$$
f(x) = a \quad (0 \leq x \leq 20)
$$
とおくと、
$$
\int_0^{20} a,dx = 1 \Rightarrow 20a = 1 \Rightarrow a = \frac{1}{20}
$$
🟦 2. 正規分布の確率計算
✅ ポイント
標準正規分布 $Z \sim N(0, 1)$ に変換して、表や計算で求める。
$$
X \sim N(\mu, \sigma^2) \Rightarrow Z = \frac{X - \mu}{\sigma}
$$
🟦 3. 関数の期待値(分割関数 × 密度)
✅ ポイント
複数区間に分かれた料金(関数)と確率密度 $f(x)$ に基づき、期待値を積分で求める:
$$
E[g(X)] = \int g(x) f(x) dx
$$
🔍 例
水道料金が使用量によって3段階(0–10, 10–15, 15–20)で変わるとき、各区間の料金×密度×幅を加える。
🟦 4. 二項分布の正規近似
✅ ポイント
二項分布 $B(n, p)$ は $n$ が大きいとき正規分布に近づく:
$$
X \sim N(np, np(1 - p))
$$
- 補正あり:連続性の補正として ±0.5 を使うことも
- 比率 $\hat{p} = X/n$ の区間推定などに使われる
🟦 5. 二項分布の確率比(漸化式)
✅ ポイント
二項分布 $P(X = x)$ において:
$$
\frac{P(X = x+1)}{P(X = x)} = \frac{(n - x)p}{(x + 1)(1 - p)}
$$
を利用すると、比の形式で簡略化できる。
🟦 6. 分布の歪度(Skewness)と尖度(Kurtosis)
指標 | 解説 |
---|---|
歪度 | 分布の非対称性の程度。 右裾長い=正、左裾長い=負。 |
尖度 | 分布のとがり具合・広がり。 正規分布:0、鋭い=正、平ら=負。 |
🔍 注意点
- 歪度が0 → 対称分布
- 尖度が0 → 正規分布と同程度の広がり
🟦 7. X−Y の分布と差の確率
✅ ポイント
独立な正規分布 $X \sim N(\mu_1, \sigma^2), Y \sim N(\mu_2, \sigma^2)$ に対して:
$$
X - Y \sim N(\mu_1 - \mu_2, 2\sigma^2)
$$
標準化して $Z$ に変換し、表で計算。
🟦 8. 線形変数変換・共分散・相関係数
✅ 変数変換
新しい変数 $U = aX + b, V = cY + d$ に対し、
- 共分散の変換:
$$
\mathrm{Cov}(U, V) = ac \cdot \mathrm{Cov}(X, Y)
$$
-
相関係数の変換:
符号と相関係数は以下で関係づける:
$$
\rho_{UV} = \text{sign}(ac) \cdot \rho_{XY}
$$
✅ まとめ表(確率分布の主要テーマ)
分野 | 概要 |
---|---|
確率密度関数の定数 | 面積1の原則で定数を決定 |
正規分布の計算 | 標準化 $Z = (X - \mu)/\sigma$ により表を利用 |
関数の期待値 | 区間ごとの関数 × 密度 × 幅を積分 |
二項分布の正規近似 | $N(np, npq)$ への近似 |
確率の比(漸化的性質) | $\frac{P(X=x+1)}{P(X=x)}$ の公式を使用 |
歪度・尖度 | 分布形の対称性・尖り度を数値で把握 |
X-Yの分布 | 差の平均と分散を利用して正規分布化 |
線形変換と相関・共分散 | スケーリングに伴う共分散と符号の変化 |
🟦 1. 標本比率の標本分布と信頼区間
✅ 概念
標本比率(例:投票でA候補に入れた人の割合)を $\hat{p}$ とすると、それは確率変数であり、母比率 $p$ の周辺でランダムに分布する。
✅ 性質
- 平均:$E[\hat{p}] = p$
- 標準偏差(標準誤差):$\sqrt{\frac{p(1-p)}{n}}$
- 標本サイズ $n$ が十分大きければ、正規分布近似が可能
$$
Z = \frac{\hat{p} - p}{\sqrt{p(1-p)/n}} \sim N(0,1)
$$
→ 95%信頼区間(近似的):
$$
\hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$
🟦 2. 標本平均の分布(有限母集団からの抽出)
✅ 概念
有限個の値から無作為抽出したとき、標本平均もまた確率変数となる。
母集団 ${2, 4, 6, 8}$ から2個を復元抽出すると、取り得る平均は複数ある。
- 標本平均の分布を列挙
- そこから中央値・最頻値(モード)などを求める
🟦 3. 推定量の分散(和と差の利用)
✅ 概念
推定量(例えば重さ)の誤差を減らすには、和と差を組み合わせると有効。
例:コインAとBの重さを測るとき、
- $X = a + b + \varepsilon_1$
- $Y = a - b + \varepsilon_2$
→ 和と差の操作でそれぞれの重さを求める:
- $A = \frac{X + Y}{2}$,
- $B = \frac{X - Y}{2}$
→ 分散:独立性と線形性から $\mathrm{Var}(B) = \frac{1}{4}(\sigma^2 + \sigma^2) = \frac{\sigma^2}{2}$
🟦 4. 和と差の確率変数(正規分布)
✅ 概念
2つの独立な正規分布の確率変数 $X, Y$ に対し:
- $U = X + Y$、$V = X - Y$ もまた正規分布に従う
- 平均・分散の関係:
$$
E[U] = E[X] + E[Y], \quad \mathrm{Var}(U) = \mathrm{Var}(X) + \mathrm{Var}(Y)
$$
→ $X, Y$ が正規・独立なら $U, V$ も正規、かつ分布の形は同じ
🟦 5. t分布と標本平均の推定
✅ 概念
母分散が未知のとき、標本平均と不偏分散から推定される統計量:
$$
T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}
$$
- 自由度 $n - 1$
- 表と照らし合わせて確率を求める
- t分布の裾は正規分布より太い(小標本での不確実性を反映)
🟦 6. 相関係数と平均の相関
✅ 概念
例えば、3科目の得点を標準化(偏差値化)して、その平均とある科目の相関係数を求める。
- 標準化された得点の平均と、個々の得点の間の相関係数は、
他の得点との相関がどれくらいあるかで決まる。
→ 各ペアの相関係数の合計に依存する
🟦 7. $X^2$ の期待値(2乗の期待値)
✅ 概念
確率変数 $X$ の分散と平均から、次の公式が成り立つ:
$$
\mathrm{Var}(X) = E[X^2] - (E[X])^2 \Rightarrow E[X^2] = \mathrm{Var}(X) + (E[X])^2
$$
→ $X^2$ の期待値を求める問題に使う
✅ まとめ表(標本分布の分野)
トピック | 概要・着目点 |
---|---|
標本比率の分布と信頼区間 | $\hat{p} \pm z \cdot \sqrt{ \hat{p}(1 - \hat{p}) / n }$ で表される近似的信頼区間 |
標本平均の分布 | 小さい標本でも全体の中心傾向を推定可能 |
推定量の分散 | 和と差の組み合わせにより分散を半減できる(工夫) |
和・差の分布 | 正規分布の合成で新たな正規分布に |
t分布 | 母分散が未知のとき標本標準偏差を使って標準化 |
相関と平均 | 他の変数との相関が平均との相関に影響する |
$E[X^2]$ の計算 | $\mathrm{Var}(X) + (E[X])^2$ を活用する |