はじめに: 統計学の重要性
NTT データ数理システムでリサーチャーをしている大槻 (通称、けんちょん) です。
今回は統計検定 1 級について記します。
統計検定とは日本統計学会による公認の資格であり、統計に関する知識や活用力を評価するものです。
日常的に大量のデータが溢れている昨今、データ分析や機械学習に対するニーズは最高の高まりを見せています。最近では何も考えずともただデータを入力するだけでデータ分析や機械学習手法を実行してくれるツールも多数出回るようになりました。
データ分析や機械学習を実際に遂行するにあたって、統計学は強力な基礎になります。確かに最近は便利なツールの発達のおかげで、統計を学ばずともデータ分析を実行できる環境が整いつつありますが、その状態でデータ分析手法や機械学習手法を実際に適用しようとすると、しばしば誤った推論をしてしまったり、複雑な状況に対してどのようなアプローチをとるべきかを見失ったりしがちです。
便利なツールが溢れいてる現在だからこそ、統計学を学ぶことはとても重要です。そのための道しるべとして、統計検定は非常に有効なものだと思います。本記事では、統計資格の中でも最高峰である、統計検定 1 級に合格するために有効な対策を述べていきたいと思います。
結論
結論を先に書きます。詳しい理由を書いていきます。
- 確率分布の扱いに習熟する
- 数理統計学に立脚した検定論・推定論を腰を据えて学ぶ
- 線形代数に習熟する
- あとは好きなことをひたすら勉強する
- 過去問を解きまくる
試験の傾向と対策
統計検定 1 級の試験は 2 つの部門から成っています:
- 統計数理: 統計学を支える数理的な理解を問う試験です
- 統計応用: 統計学を実問題に活用する際に考慮すべき事柄に関する理解を問う試験です
それぞれ計 5 問の問題が出題され、3 問を選択します。なお「応用」の方は「人文科学」「社会科学」「理工学」「医薬生物学」の 4 つの分野から 1 つを選択する形式になっています。
まず過去問を簡単に覗いてみたいと思います。
まずは問題のタイプを「確率分布」「検定」「推定量」「応用」に大別してみます。5 問の問題がそれぞれザックリどのような種類のものかを見ると以下のようになります:
-
統計数理
- 1 問目: 確率分布 (確率変数の期待値、分散、歪度、尖度)
- 2 問目: 推定量 (不偏推定量、推定量の分散)
- 3 問目: 確率分布 (ポアソン分布)
- 4 問目: 確率分布 (標準正規分布の変換など)
- 5 問目: 確率分布 (カイ二乗分布)
-
統計応用 (人文科学)
- 1 問目: 応用 (因子分析)
- 2 問目: 応用 (分散分析)
- 3 問目: 確率分布 (条件付き期待値)
- 4 問目: 推定量 (抽出)
- 5 問目: 確率分布, 検定 (振り分け法、信頼区間)
-
統計応用 (社会科学)
- 1 問目: 検定 (検定)
- 2 問目: 応用 (時系列解析)
- 3 問目: 確率分布、推定量 (ポアソン分布)
- 4 問目: 推定量 (抽出)
- 5 問目: 確率分布, 検定 (振り分け法、信頼区間)
-
統計応用 (理工学)
- 1 問目: 確率分布、推定量 (ガンマ分布)
- 2 問目: 確率分布 (生存時間解析)
- 3 問目: 確率分布、推定量 (指数分布)
- 4 問目: 確率分布 (サンプリング)
- 5 問目: 確率分布, 検定 (振り分け法、信頼区間)
-
統計応用 (医薬生物学)
- 1 問目: 応用 (生存時間解析)
- 2 問目: 検定 (ランダム化臨床試験)
- 3 問目: 確率分布、検定 (治療法の検定)
- 4 問目: 推定量、検定 (オッズ比)
- 5 問目: 確率分布, 検定 (振り分け法、信頼区間)
こうして見ると、確率分布に関する出題が極めて多いことがわかります。
「数理」はもちろんのこと、「応用」さえも大問 5 問のうち、2 問程度は確率分布に関する純粋な数学的問題で占めていると言えます。今後もこの傾向が続くかどうかは定かではないですが、確率分布に関する問題が主軸になることには変わりないものと思われます。
合格ラインが大問 2 問分程度 (と言われています、憶測ですが...) であることを踏まえ、「数理」「応用」のどちらの方が得意であるかに応じた対策方法を考えてみます。
「数理」が得意な方
「確率分布」「推定量」「検定」だけで、ほとんどのセットでは大問 3 問分近くをカバーできるため、数学寄りの部分をより極めていくのがいいと思います。また「応用」のうち頻出のテーマを抑えておくとより安心できると思います。具体的には、「生存時間解析」などが挙げられます。
「応用」が得意な方
応用範囲の出題を確実に押さえたいところです。応用の中でも特に頻出な「分散分析」「最小二乗法」「生存時間解析」は確実に得点したいです。一方、応用だけでは大問 2 問分を確実に得点することは難しいので、確率分布の扱いについて練習を積み重ねることが重要だと思います。
まとめ
いずれにしても「確率分布」の扱いに習熟することが重要だということがわかります。
それを押さえた上で有効な対策について、順に述べていきたいと思います。
確率分布の扱いに習熟する!
先述の通り、これだけでも合格を狙えます。
確率分布に習熟するために、個人的におススメなのは自分なりの確率分布曼荼羅を作ることです。下の画像は私自身が勉強したときに作ったものです。自分自身が見る用に書いたもので、決して見やすいものではないですが、自分の手で様々な確率分布や確率分布間の関係を整理することは非常に勉強になります (実際に絵としての曼荼羅を描くのがよいかどうかは人によると思います)。
試験本番前までに以下のことを達成しておきたいです:
- 有名な確率分布については即座に確率密度関数 (確率関数), 平均, 分散, モーメント母関数を書き下せる
- 有名な確率分布の平均, 分散, モーメント母関数は、必要とあればスラスラと導出ができる
- 有名な確率分布同士の関係を抑える (以下のような関係)
- 一様分布を指数分布に変換する変数変換
- 幾何分布と指数分布はともに無記憶性でつながっていて、それぞれ互いの離散版・連続版と言える
- 指数分布はガンマ分布の特別な場合である
確率分布に習熟することで「数理」「応用」ともに大問 2 問分を解くことができる (ここが完璧なら既に合格点間近です!) ばかりでなく、検定論・推定論を学ぶときにも大切な基礎になります。
数理統計学に立脚した検定論・推定論を腰を据えて学ぶ
世の中には様々な状況に応じた検定・推定の方法論が発達しており、少し調べれば簡単にチートシートも見つかります。それらをひたすら覚えていくことは準 1 級の対策には有効ですが、1 級には必ずしも有効とは限りません。
というのも、1 級で出題される検定・推定の問題は、数理統計学に根差した理解を問うケースが多いからです。具体的には以下のようなものをしっかりと理解している状態になることが理想的です:
- 不偏推定量 (超頻出です、出題のないセットを見たことがないです)
- 一致推定量 (不偏推定量には劣りますがそこそこ見ます)
- フィッシャー情報量
- クラーメル・ラオの不等式
- ネイマン・ピアソンの補題 (実際に出題されています)
- 検定と区間推定の関係 (暗黙の出題多数です)
- 一様最強検出力検定
- 一様最小分散不偏推定量
- カイ二乗分布を用いた各種の適合度検定たちを導出できるようにする (検定のやり方を覚えるだけでなく)
- 正規分布、二項分布の様々な条件設定における検定・推定 (出題多数です)
とても分量が多いように思われるかもしれませんが、しっかりとした数理統計学の本を一冊読み込めば十分な理解を達成できると思います。私自身が読んだのは以下の書籍です:
数理統計学の書籍は様々なものがありますので、自分に合ったものを見つけてじっくりと読み込むことが、結局は最短の道のりになると思います。最後の方に参考になりそうな書籍をまとめています。注意点として、統計学とタイトルに入っている書籍ではなく、数理統計学とタイトルに入っている書籍を選ぶことが重要です。
線形代数に習熟する
少し意外かもしれません。しかし統計学や機械学習について学ぶとき、暗に線形代数を使っている部分は非常に多いです:
- 計画行列の立式や正規方程式の取扱など
- 多変量確率分布の変数変換におけるヤコビアン計算
- 多変量正規分布の共分散行列に関する計算
統計検定においてこれらのテーマはよく出題されます。特に実験計画分野からの出題として、線形モデルを仮定して計画行列を立式し、推定量の分散を評価するタイプの問題は超頻出です。線形代数に習熟すれば、これらのテーマの問題に対する苦手意識が払拭されるばかりでなく、典型問題として処理できるようになります。
すぐにでも役に立つ可能性の高い tips を挙げます。
$$y = X\mu + \epsilon$$($y$ は測定値, $\mu$ は真値, $\epsilon$ は互いに独立に平均 0, 分散 $\sigma^2$ の正規分布に従う誤差)
で表される線形モデルを仮定します。このとき、
- $\mu$ の最小二乗推定量 $\hat{\mu}$ を導く正規方程式は以下のように与えられる: $$X'X\mu = X'y$$
- 推定量 $\hat{\mu}$ の分散は以下のように計算できる (導出を押さえたいところです): $${\rm Var} [\hat{\mu}] = \sigma^2(X'X)^{-1}$$
特に後者の処理を確実にこなせるかどうかが合否の分かれ目になる印象があります。
あとは好きなことをひたすら勉強する
ここまでを抑えれば、それだけでも十分合格を狙えると思います。
その上で少しでも合格率を上げるために、ありとあらゆることを勉強していきましょう。個人的におススメなものを以下に挙げます。...が、こればかりは個人差が大きいと思います。
- 生存時間解析 (統計応用で頻出のテーマです)
- 機械学習全般 (ディープも大事ですが、統計検定的には混合正規分布あたりがおススメです、正規分布計算に慣れると強いです)
- 分散分析 (超頻出のテーマです...が、数学系の人は試験本番では手を出さないのが無難だと思います)
- 主成分分析 (どちらかというと準 1 級対策に有効ですが、1 級でも学ぶ価値は大いにあります)
過去問を解きまくる
確率分布の扱いに習熟し、数理統計学に立脚した検定論・推定論の理解が成熟したならば、いよいよ過去問を解きまくりましょう!
たとえ数理統計学の理解が十分でも、問題を解くことに慣れていないと、試験本番で問題を解くのに時間が掛かってしまいます。統計検定の試験時間は「数理」「応用」ともに 90 分であり、大問 1 問につき 30 分をかけられる計算ですが、驚くほど短いです。過去問を解きまくることで試験問題に慣らしていき、1 題 30 分のペース感覚を掴んでいきましょう。
余談: 準 1 級について
統計検定 1 級は準 1 級よりもずっと難易度が高いですが、ある意味では準 1 級の方が難しいです。
それは準 1 級は記号選択式の問題の出題範囲が異様に広いからです。そのため準 1 級に合格するためには多くの参考書を読み込んでたくさんの事柄を勉強する必要があります。
参考: 統計検定準1級を取るための勉強法
それに比べると 1 級は、確率分布 (+ α) の数学的取扱いに習熟するだけで十分に合格を狙えます (それが難しいのはもちろんなのですが...)。1 級と準 1 級はまったく別のタイプの試験と割り切ることが 1 つのポイントになると思います。
その他
Q1: 「応用」の 4 分野はどれを選択するべきか
「人文科学」「社会科学」「理工学」「医薬生物学」の 4 分野のうち、1 つだけ他と大きく異なるものがあります。それは「理工学」です。理工学は、他の 3 分野に比べると「応用範囲からの出題が少なく、確率分布に関する出題が多い」という際立った特徴があるため、以下のことが言えます:
数理的な問題が得意な方
迷わず理工学を選びましょう。特に 2017 年のセットは、数理的な問題を解くだけで合格できるものでした。
応用範囲の問題が得意な方
素直に自分が学生時代に or 現在学んでいる分野に最も近いものを選びましょう。
Q2: R, Python はどこまで学ぶべきか
R, Python を学ぶことは統計処理を実務でこなす上で非常に大切です。しかしながら統計検定 1 級対策としては優先度は低いと思われます。
Q3: 手計算の練習について
準 1 級に比べると、手計算の優先度は下がります。それは数値計算のミスによるリスクを回避するために数値計算を必要としない問題のみを選ぶ戦略が可能だからです (私は確実に得点するためにこれを採用しました、個人差がある部分だとは思います)。しかしながら「検定」や「分散分析」など、手計算が必要になる問題も多いため、やはり十分に練習しておくことが必要です。
Q4: 過去問は何年分解くべきか
すべて解きましょう。足りなくなったら、
- 統計専門の大学院の院試問題を使う
- アクチュアリーの試験問題を使う
- 数理統計学の教科書の演習問題を使う (「数理統計学―基礎から学ぶデータ解析」など)
という手が使えるため、問題は限りなくたくさんあります。ですので、もったいないと思わずにドンドン解きましょう。
参考書
参考になる文献を挙げていきます:
公式
まずは公式本です。非常に大量のトピックが書かれています。しかしながら 1 個 1 個がサラッと書いてあって行間を読み解くのは大変です。この本で腰を据えて勉強するというよりは、統計検定 1 級の出題範囲を押さえ、様々なトピックの勉強へと結びつけるポインタとして活用するのが有効です。
試験本番が近づいたらひたすら過去問を解きましょう!
確率分布
確率分布に習熟できる書籍は数限りなくあるため、こればかりは好きなものを選びましょう。「数理統計学」とタイトルについているものを選ぶと、ほぼ外れはないです。ここではネット上でも読める良いものを紹介します:
有名な確率分布についてとてもコンパクトにわかりやすくまとまっています。
英語ですが凄まじいです。
数理統計学
私自身が大変お世話になった本です。ほぼこの一冊で合格できたと言っても過言ではありません。このような数理統計学のしっかりした本を一冊読み込むことは有効だと思います。しかし、多くの方にとって難しい本かもしれません。また「現代」とタイトルについていますが古い本です。現在では下に挙げた書籍たちの方が勉強しやすいかもしれません。
式変形などが充実していてとても読みやすいです。
同じく読みやすいです。
洋書ですが、古典的な数理統計学を学ぶにはよいです。一応日本語版もあります: 数理統計学ハンドブック
洋書ですが、統計学を網羅的に扱った、より現代的なよい本です。
線形代数
統計検定 1 級対策にピッタリな線形代数書です。
応用範囲対策
実験計画法はやもすれば雑学のようになりがちですが、実験計画法の背後にある数理をきちんと学べるすごくいい本です。またこうした数理への理解を問う問題は、統計検定では好んで出題されます。
応用範囲で超頻出な線形モデルについて学べます。ベイズ統計学への入門書としてもよいです。
R と銘打っていますが主成分分析 (頻出)、クラスター分析、回帰分析、判別分析、時系列分析といったテーマを学ぶのにとてもよいです。
さらに参考になりそうな資料を随時コメントでお待ちしております!
おわりに
統計検定が存在しているおかげで、道筋を見失うことなく統計学を学べるようになったことはとても大きな恩恵だと感じています。今回は個人的に有効だと思う対策法について記しました。もちろん個人差がとても大きいと思いますので、「自分はこのように勉強した」という意見があればコメントを寄せていただければと思います。私自身の勉強方法が誰かのお役に立てれば幸いです。