この記事では、私が5ヶ月かけて統計検定2級と準1級、2つの資格を取得できた経験をシェアします。主に準1級での、具体的な勉強内容や体験について、記載していきます。
動画も作成したので、見やすいほうでご覧ください。
筆者の経歴
大学は文理融合型の学部で、理学部で行う必修レベルの数学は勉強しました。
ただし、大学卒業以来、数学から遠ざかっていたため、学んだ多くの知識は忘れていました。
2級合格
2級は、大学初年度レベルの統計学の知識が問われる印象です。2級に合格した後、より深い知識を得たかったため、準1級の勉強に取り組みました。
準1級のレベル感
理解するべき概念や問題量が多く、2級に比べて難易度も高いと感じました。
参考書としては、おなじみの「準1級対応 統計学実践ワークブック」を使いました。この参考書は、32章にも及び、120問以上の問題が載っていて、かなりボリュームがあり、解ききるのに時間がかかりました。
準1級で必要な数学
準1級まで勉強するにあたって、数学の基礎力を固めることが不可欠だと思いました。特に、線形代数と微積分の知識がないと、解けない問題がたくさんありました。
たとえば、マルコフ連鎖の問題を解くには、線形代数で学ぶ『3×3行列』と『3次元ベクトル』を使った計算が必要になります。
以下のような言葉を聞いたことがなければ、微積分、線形代数自体の勉強をしっかり行う必要があると感じました。
微積分 | 線形代数 | |
---|---|---|
高校数学 | 部分積分、置換積分 | 2×2行列の固有値や固有ベクトルの概念 |
大学数学 | 偏微分、重積分 | 3×3以上の行列計算(サラスの公式) |
2級取得後に準1級を受験した点
私は、2級取得後に準1級を取得したのですが、結果として、2級の学習を先に行ってよかったです。特に、準1級の問題を解く中で、以下の点を意識することができ、理解が深まったと思います。
意識できたこと
- 問題文中の確率変数は何か
- 確率変数と確率分布の関係
- データの標準化の概念
勉強の資料
ワークブック
準1級の学習を進める上で、欠かせないのが「日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック」です。この本一冊で全ての概念を完璧に理解するのは難しいかもしれませんが、読んでいくうちに統計学の面白さを感じることができました。
分からない箇所が出てきたら、その都度調べて理解を深め、その上でワークブックに戻って学習を進める、という方法で勉強しました。
YouTube
- データサイエンスLab. 様
t検定、判別分析など幅広く解説動画があるので、大変勉強になりました。
ブログ
- あつまれ統計の森 様
ワークブックの例題の解答が理解できないとき、このサイトを確認しました。計算過程含めて解説があり、勉強になりました。
生成AI
- Gemini
「〇〇の公式と例題を教えて」といったプロンプトを与えることで、概要を把握しました。また、部分積分などの数学の知識は、忘れてしまった部分があったため、生成AIに質問し、問題を解きながら少しずつ思い出していきました。
学習のポイント
勉強する上で、特に注意した方がいいポイントを紹介します。
- 数式の表現は、著者によって異なる場合があります。例えば、ガンマ分布の尺度パラメータの表記は、文献によって揺れがあるため、期待値やモードの計算結果も微妙に異なり、注意が必要です。
$形式1: \Gamma(a, b)$ | $形式2: \Gamma(a, 1/λ)$ | |
---|---|---|
$f(x)$ | $\frac{1}{b^a \Gamma(a)} x^{a-1} e^{-x/b}$ | $\frac{\lambda^a}{\Gamma(a)} x^{a-1} e^{-\lambda x}$ |
$期待値:E[X]$ | $ab$ | $\frac{a}{\lambda}$ |
$モード$ | $(a-1)b$ | $\frac{a-1}{\lambda}$ |
- 学習範囲が広いため、丸暗記に頼るとすぐに忘れてしまいます。一つ一つの内容を繋ぎ合わせ、全体像を把握することが大切だと思います。
- どんな章も捨てることなく、ワークブックを繰り返し解くべきだと思います。
準1級の全体像
準1級の勉強で印象に残ったことや感想をコメントします。全体像を把握する際の参考にしていただけたら幸いです。なお、細かいパラメータや条件の説明はしていません。
1 事象と確率
例題は確実に解けるようにするとよいと思います。2級で出題されるようなレベル感の話が多い印象です。
期待値:E(X) = \int_{-\infty}^{\infty} xf(x) dx
分散:V(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) dx
2 確率分布と母関数
準1級の洗礼を受ける章かと思います。期待値や分散の導出に利用する「確率母関数」や「モーメント母関数」は便利な概念ですが、その計算に慣れる必要があります。様々な確率分布で導出する練習をしました。
確率母関数の定義:G_X(s) = E[s^X]
モーメント母関数の定義:M_X(t) = E[e^{tX}]
分散: V[X] = E[X^2] - (E[X])^2
3 分布の特性値
分布の形状を表す歪度と尖度について、2級では具体的な数式が出なかったと思いますが、準一級では定義を学びます。
歪度: g_1 = \frac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^3}{s^3}
尖度: g_2 = \frac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^4}{s^4}
また、例題が面白かったです。「切られたパンを2つ選ぶ」という行為でも、事前にすべてのパンを半分に切ってそこからランダムに選ぶか、1つのパンを半分に切ってそのまま使うかでは、最終的に得られるパンの厚さのばらつき具合が異なるそうです。
4 変数変換
ヤコビアンは、偏微分を利用しており、式は複雑に見えますが、計算はそこまで難しくない印象です。
ヤコビアン:J(X, Y) =
\begin{vmatrix}
\frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\
\frac{\partial y}{\partial u} & \frac{\partial y}{\partial v}
\end{vmatrix}
対数変換など、データの変換方法はいくつかあるので、Geminiに例題を出してもらいながら、1つずつ理解しました。
5 離散型分布
以下の表を何も見ずに埋められるよう、知識を定着させていきました。
ベルヌーイ 分布 |
二項 分布 |
ポアソン 分布 |
幾何 分布 |
負の二項 分布 |
超幾何 分布 |
|
---|---|---|---|---|---|---|
確率関数 | ||||||
期待値 | ||||||
分散 | ||||||
モード | ||||||
母関数 | ||||||
再生性の有無 | ||||||
無記憶性の有無 |
また、各確率分布について、パラメータを変更したときのグラフの形の変化を確認しました。
6 連続型分布と標本分布
離散型分布と同様に、以下の表の値を埋められるよう勉強しました。
正規 分布 |
指数 分布 |
ガンマ 分布 |
ベータ 分布 |
カイ二乗 分布 |
t 分布 |
F 分布 |
|
---|---|---|---|---|---|---|---|
確率密度関数 | |||||||
平均 | |||||||
分散 | |||||||
モード | |||||||
モーメント母関数 | |||||||
再生性の有無 | |||||||
無記憶性の有無 |
特にガンマ分布、ベータ分布はベイズ法で利用する概念で、平均とモードの式は必修です。
$ガンマ分布:\Gamma(a, b)$ | $ベータ分布:B(\alpha, \beta)$ | |
---|---|---|
$f(x)$ | $\frac{1}{b^a \Gamma(a)} x^{a-1} e^{-x/b}$ | $\frac{x^{\alpha - 1}(1-x)^{\beta - 1}}{B(\alpha, \beta)} \quad (0 \leq x \leq 1)$ |
$平均$ | $ab$ | $\frac{\alpha}{\alpha + \beta}$ |
$モード$ | $(a-1)b$ | $\frac{\alpha - 1}{\alpha + \beta - 2} $ |
また、2変量正規分布の条件付き分布の期待値を求める計算にも慣れるために勉強しました。
条件付き分布の期待値: E[Y|X=x] = \mu_y + \rho \frac{\sigma_y}{\sigma_x} (x - \mu_x)
混合正規分布の累積分布関数を求める際はグラフで視覚化できれば、そこまで難しくないかと思います。以下、乱数を生成させて、グラフを作成してみました。
7 極限定理,漸近理論
分布収束先を求めるためにデルタ法を適用する練習を繰り返し行いました。
また、離散分布を正規分布で近似する際の連続修正の必要性については、以下の記事で勉強しました。
8 統計的推定の基礎
尤度関数の定義を覚え、最尤推定量を求められるようにしました。
尤度関数:L(\theta | x_1, ..., x_n) = \prod_{i=1}^n f(x_i | \theta)
また、バイアス補正推定値を求めるジャックナイフ法は、何度も演習を重ねました。
\hat{\theta}_{jack} = n\hat{\theta} - (n-1)\frac{1}{n}\sum_{i=1}^n \hat{\theta}_{(i)}
9 区間推定
2級で学んだ知識をさらに深めるような内容が扱われていました。特に、多項分布の差の信頼区間については、繰り返し問題を解くことで、計算方法に慣れました。
\hat{p}_A - \hat{p}_B \pm Z{\alpha/2} \sqrt{\frac{\hat{p}_A(1-\hat{p}_A)}{n} + \frac{\hat{p}_B(1-\hat{p}_B)}{n}+\frac{2\hat{p}_A \hat{p}_B}{n}}
10 検定の基礎と検定法の導出
2級の基礎知識をベースに、検定の精度を高めるための検出力や、効果の大きさを示すエフェクトサイズといった概念について勉強しました。
効果量: d = \frac{\bar{X}_1 - \bar{X}_2}{s}
11 正規分布に関する検定
ほぼ2級の内容だと思います。複雑な数式が出てきますが、復習のつもりで取り組みました。以下、対応がない場合の2標本t検定の公式です。
プールした標本分散 : s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}
検定統計量: t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right) }}
12 一般の分布に関する検定法
2級で学んだ基礎知識をベースに、適合度検定や尤度比検定の概念は調べながら勉強しました。
また、尤度比検定の考え方は、逸脱度でも利用されます。
以下は、2級でもお馴染みの比率の差の検定の公式です。
検定統計量:Z = \frac{p_1 - p_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}
プールした比率 :\hat{p} = \frac{X_1 + X_2}{n_1 + n_2}
13 ノンパラメトリック法
それぞれの検定がどんなときに使えるのか、具体的にイメージしながら勉強しました。例えば、クラスカル・ウォリス検定は、3つ以上のグループのデータを比較する時に使う検定法で、数値の順位を使って比較します。
この章は、他の章と比べて比較的わかりやすく、何度も繰り返し練習して、検定の感覚を掴みました。
クラスカル・ウォリス検定:H = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i} - 3(N+1)
14 マルコフ連鎖
状態空間、初期分布、推移確率行列といった概念を理解する必要があります。これらの概念自体は難しく感じませんでしたが、問題文からこれらの要素を正確に読み取り、数式に表す練習が大切に感じました。特に、推移確率行列を作る部分は、慣れるまで時間がかかるかもしれません。
状態空間:S = \{S_1, S_2, ..., S_N\}
初期分布:\pi = \begin{bmatrix}
\pi_1 \\
\pi_2 \\
\vdots \\
\pi_N
\end{bmatrix}
推移確率行列:
P = \begin{bmatrix}
p_{11} & p_{12} & \cdots & p_{1N} \\
p_{21} & p_{22} & \cdots & p_{2N} \\
\vdots & \vdots & \ddots & \vdots \\
p_{N1} & p_{N2} & \cdots & p_{NN}
\end{bmatrix}
15 確率過程の基礎
モーメント法により、パラメータの推定値を求めました。より深く理解するために、以下のような他の参考書もあわせて参照しました。
16 重回帰分析
「自由度調整済み決定係数」は、データ分析をする上でよく出会う重要な指標かと思います。統計検定2級では重回帰分析の基礎を学びますが、準1級ではさらに一歩進んで「正則化」という概念を深く学習します。
正則化は、たくさんのデータを使って複雑なモデルを作るときに起こる「過学習」を防ぐことができます。
Lasso推定量:\hat{\beta} = \min_{\beta} ||y - X\beta||_2^2 + \lambda ||\beta||_1
17 回帰診断法
モデルの妥当性を確認するために、残差プロット、正規QQプロット、Cookの距離といった診断プロットの結果を解釈する能力が求められます。ワークブックを読み込んで理解しました。
18 質的回帰
ロジスティック回帰で得られた結果を説明できるようにしました。例えば、「ある商品を購入する確率は、年齢が1歳上がるごとに1.2倍になる」といった具合に、オッズをもとに考えます。
この分野は、自然対数やlogを使った少し複雑な計算ができるようにしておきました。また、プロビットモデルという分析方法では、偏微分の計算が必要になり、微積分の知識も必要です。
プロビットモデル:π = Φ(\beta_0 + \beta_1x_1 + \cdots + \beta_px_p)
19 回帰分析その他
生存関数やハザード関数の概念を、実際にグラフを描いて理解するようにしました。また、数式の定義は確実に押さえました。
生存関数:S(t) = P(T > t)
ハザード関数: h(t) = -\frac{\frac{d}{dt}S(t)}{S(t)}
20 分散分析と実験計画法
何度も分散分析表を作成し、計算することで理解しました。その中で、ある要因が結果にどう影響するか(主効果)、複数の要因が組み合わさったときに現れる効果(交互作用)、そして、実験の誤差を減らすために考慮する要素(ブロック因子)といった、概念の意味の理解を意識しました。
また、L8直交表については、以下の表に示す数値だけを覚えました。
No. | 成分a | 成分b | 成分c | ... |
---|---|---|---|---|
1 | 1 | 1 | 1 | |
2 | 1 | 1 | 2 | |
3 | 1 | 2 | 1 | |
4 | 1 | 2 | 2 | |
... |
上の表に入力されていない数字については、次の方法で求めることにしました。
- 成分a、b、cの値のNo5以降は、最初の4つのパターン(No1~4)と同じように繰り返します。
- 成分a、b、c以外の列については、成分同士の「排他的論理和」で計算しました。
No. | 成分a | 成分b | 成分c | 成分a×b | ... |
---|---|---|---|---|---|
1 | 1 | 1 | 1 | 1 | |
2 | 1 | 1 | 2 | 1 | |
3 | 1 | 2 | 1 | 2 | |
4 | 1 | 2 | 2 | 2 | |
5 | 2 | 1 | 1 | 2 | |
6 | 2 | 1 | 2 | 2 | |
7 | 2 | 2 | 1 | 1 | |
8 | 2 | 2 | 2 | 1 |
21 標本調査法
2級では、いくつかの標本抽出方法の概要を学びましたが、準1級では、具体的な標本配分方法などが出てきます。
ネイマン配分法が、分散を最小にする方法であることは必修だと思います。
ネイマン配分法での標本の大きさ:n_h = n \times \frac{N_h S_h}{\sum_{i=1}^L N_i S_i}
22 主成分分析
主成分分析を行う上で、主成分得点、寄与率、主成分負荷量を求める計算の習得は不可欠です。また、固有値と固有ベクトルの概念を利用するため、ベクトルと行列の理論的な背景を理解しておく必要があります。
主成分負荷量:l_{ik} = \sqrt{\lambda_k} v_{ik}
23 判別分析
混同行列と真陽性率、真陰性率などの概念が出てきます。
予測: 正 | 予測: 負 | |
---|---|---|
実測: 正 | TP (真陽性) | FN (偽陰性) |
実測: 負 | FP (偽陽性) | TN (真陰性) |
真陽性率(TPR) = \frac{TP}{TP + FN}
真陰性率(TNR) = \frac{TN}{TN + FP}
また、「文字の『あ』は、『い』、『お』、『る』のうちどれに似ているのか?」というような、一見すると主観的な質問に、線形判別分析を使って客観的な答えを出せるという点が面白かったです。サポートベクターマシンについては、以下の書籍を参考にしました。
24 クラスター分析
最近隣法、ウォード法でのクラスターの併合方法を理解し、デンドログラムを自分で記載できるように勉強しました。
また、K-means法のアルゴリズムも必須の概念だと思います。
25 因子分析・グラフィカルモデル
因子負荷量から共通性を求める問題はマストですが、そもそも共通性とは何か、回転の概念など丁寧に調べながら勉強しました。
共通性: h_i^2 = \sum_{k=1}^m \lambda_{ik}^2
この章を読み始めたとき、因子分析と主成分分析の違いがよくわからなかったので調べました。
26 その他の多変量解析手法
数量化法については、説明変数が質的データの際に用いられるものであり、Ⅰ類からⅢ類までの違いを整理しました。
27 時系列解析
自己相関係数、偏自己相関係数と選択モデルの関係は必修かと思います。また、ダービン・ワトソン比での計算も必須事項かと思います。
DW \simeq 2(1-\hat{\rho}_1)
\hat{\rho}_1は、1次の自己相関係数
以下の本は読みやすく、参考になりました。
28 分割表
逸脱度の式の導出過程は丁寧に勉強しました。
逸脱度: G^2 = 2\displaystyle\log \Lambda \quad (\Lambdaは、尤度比検定統計量)
また、標本オッズ比から母集団オッズ比の信頼区間を求める計算は、慣れるために何回も例題を解きました。
29 不完全データの統計処理
欠落したデータをいかに補完するかという内容です。$MCAR, MAR, MNAR$といった欠測メカニズムの理解、平均値代入や回帰代入などの欠測値処理手法が与える影響を整理して勉強しました。
元データ | $MAR$(平均値代入) | $MAR$(回帰代入) | |
---|---|---|---|
平均 | - | 過小 | 横這い |
標準偏差 | - | かなり過小 | 過小 |
相関係数 | - | 過小 | 過大 |
30 モデル選択
AIC (赤池情報量基準) と BIC (ベイズ情報量基準) の式は必修です。BICがなぜ好まれているのか、その理由も勉強することで、理解が深まったと思います。
AIC(k) = n \left( \log(Se^{(k)}) + \log(\frac{2\pi}{n}) + 1 \right) + 2(k+2)
BIC(k) = n \left( \log(Se^{(k)}) + \log(\frac{2\pi}{n}) + 1 \right) + (k+2) \log n
31 ベイズ法
事前分布(パラメータについての過去の知識を表す確率分布)と尤度を組み合わせる新しい概念でした。
ベイズ推定量は、事後分布の平均を指し、MAP推定量は、事後分布のモードであることを学びました。事前分布をガンマ分布やベータ分布とした際の問題は何度も行い、概念に慣れるよう勉強しました。
事後分布:p(\theta|x) \propto p(x|\theta)p(\theta)
32 シミュレーション
乱数の数を増やすと、データのばらつきが小さくなることを、数式を使って確かめました。モンテカルロ法は、実際にプログラムを組んで、動きを確認すると面白かったです。
試験日の決定
長期間にわたって勉強を続けるよりも、ある程度理解が深まった段階で試験に挑戦し、自分の実力を測ることにしました。もし試験に合格できなければ、基礎概念を改めて理解することから始めようと思っていました。
学習スケジュール
統計検定2級の学習を2か月、統計検定準1級の学習を3か月行いました。
総勉強時間としては、250時間程度だと思います。
試験前の確認事項
持ち込みについて
時計は持ち込めません。
電卓は、忘れずに持参する必要があります。
問題形式
五肢選択問題および一部、数値記入問題があります。
試験当日の流れ
電卓を準備をしたうえ、試験を開始しました。
まずはすべての問題をざっと確認した後、解ける問題から解いていきました。試験時間は90分間でしたが、そのうち20分は飛ばした問題について解きました。残り2分弱となったところで、これ以上見直す時間はないと判断し、試験を終了しました。
試験終了後に、アンケートに回答し、合格していたため、一安心でした。ある程度の問題は解けたと思っていたのですが、実際の点数は思ったほど伸びませんでした。また、2級は時間切れで解ききれないものがありましたが、準1級は時間には余裕がありました。
最後に
統計学は、仕事で活かせる実用的な学問だと思います。資格試験に合格することだけが目的ではなく、学んだ知識を実際に活用していくことが大切だと考えています。
そのため、今後も学びを続けて、統計スキルをさらに磨いていきたいと思っています。