統計検定(R)は一般財団法人統計質保証推進協会の登録商標です。
0.はじめに
この記事は統計検定1級(R)を受けた著者が自身の実施した勉強の仕方や、有益だった書籍やwebコンテンツをまとめたものです。これから勉強を始める方の見通しになるようにしたつもりです。他の合格者の方も同じように書かれていますから、コレ以外にも良い方法はあるかもしれませんので参考程度に考えて下さい。
なお応用に関しては理工学の受験だったため、それを中心とした解説を行います。
これまでにも過去の合格者で同じような情報を書いている人はいましたが時代の変化と共に教材もアップデートされ傾向も変わりつつあります。こちらは2023年末に執筆しているため、その時点の情報を元に著者がやって良かった教材などを中心に紹介しています。将来陳腐化している可能性は十分にあるので、必要に応じて取捨選択してください。
結論が知りたい人は先に最後の方を読んでください。
著者の成績
2019年11月:統計検定2級(R)合格
2021年11月:統計検定1級(R) 統計数理〇、統計応用(理工学)×
2022年8月:データサイエンス数学ストラテジスト上級 ⭐️⭐️(ダブルスター)合格
2022年11月:統計検定1級(R) 統計数理〇、統計応用(理工学)×
2023年9月:統計検定データサイエンスエキスパート(R)合格
2023年11月:統計検定1級(R) 統計数理A(優秀賞)、統計応用(理工学)A(優秀賞)
*統計検定準1級(R)はスルー
書くこと
あくまで統計検定1級(R)をクリアする視点についての解説です。効果的な教材や視点を紹介します。
書かないこと
統計学の理論の解説や個々の過去問の解説などはしませんので、紹介する情報源などを参照ください。気が向いたら書くかもしれません。この記事では高尚なことは書きません。
1.まずは1級を受けるための基礎体力を身につける
微積の計算を止まらずできる
まずは高校の数IIIの計算で詰まることのない計算力が最低ラインになります。ここで詰まってしまうと勝負の土台にすら立てないので、自信の無い方はひたすら計算練習して下さい。ある程度式を見てソラで計算し始められるレベルまでいけば次の段階に行けます。
微分は最尤推定量を求めるのに必須
特に対数の微分は間違えないように。よくあるのが、分散の最尤推定をするときに$\sigma$で微分するか$\sigma^2$で微分するかというのでごっちゃになる場合がありますが、これはどちらでやっても結果は同じです。こういうのも計算で確かめておくと良いです。
他にも連続確率分布の最頻値(モード)を求めるときに使います。分布によっては計算がかなり面倒になるものもありますから、丁寧に計算しましょう。
積分は確率を求めたり確率分布の変換で重要
特に積分は必須と言えるぐらい様々な場面で登場するので計算ができないと最初の問題を落とします。確率分布の算術演算した後の分布を求める計算や、積率母関数を求めるなどはもちろんで、確率変数がある範囲の値を取る確率を求めるなどは積分の計算に帰着されます。(連続確率分布の場合)
確率の考え方を知っておく
統計検定1級(R)を受ける方であれば最初に学ぶ確率密度関数と確率分布関数の関係性は問題を見てサクサク計算できるようにしましょう。特に確率変数の範囲に関する確率密度は実際の試験でもあまり端折らず丁寧に導出した方が良いです。不等号の向きなどで計算ミスがあるので。
順序統計量
組み合わせの考え方で順序統計量を学ぶことをおススメします。これがわかると一般の場合でも応用が利くようになるので、公式を無理して覚える必要はありません。筆者は順序統計量の公式自体は覚えていないですが、導出はできます。
条件付き確率、ベイズ法は必ず出ると思って習得する
これらは出ない年が無かったと思うぐらいに頻出の分野です。マスターしておくことで得点源にもなるかもしれないので、早い段階で習得してください。
ベイズの問題が出るに、事前分布と事後分布が両方とも正規分布の場合は、面倒な平方完成が出てくる可能性が高いので、平方完成もおさらいしておきましょう。
代表的な確率分布には一度は戯れる
代表的な確率分布の平均、分散、確率母関数、積率母関数の導出は早い段階で一度は自分の手で計算することを強くオススメします。実際にコレらを導出する問題が序盤に出てきますので、サクサク手を動かせるようにしましょう。見慣れない分布が出てきても、似ているものがあるので、それを参考に計算することもできるようになります。
一方でコレを覚えちゃえば良いのでは?という疑問も思い浮かぶかもしれませんが、試験をパスした人たちは正確には覚えていないものです。数も多いし似てる式もあるので丸暗記は危険です。それよりは導出の仕方を身体に叩き込みましょう。
曼荼羅を作ってみる
多くの合格者が一度はやっている、代表的な確率分布の曼荼羅を絵に書き起こすと言うのがあります。時間に余裕があるならば一度やってみましょう。確率分布間の繋がりを整理するのは悪くありません。実際、たまにそういった変換に関する問題が出ますので、一度やっておくと有利かもしれません。
題意から分布を推測できる
本番では問題には具体的な分布が指定されていないことがたまにありますが、慌てず対応できるようにしておきましょう。文脈や確率変数を何らかの計算した場合に、それがどんな分布になっているかを最初は毎回書き出せると良いですね。よくあるのが、問題に具体的には分布が指定されていない状態で、丁寧に読み解くと実際は二項分布を仮定してあったりとか、途中で標本分布を正規分布で近似するとか、というのが出てきます。再生成などでパラメーターが$n$倍されるなんてこともあるので、そのあたりも練習で感覚を身につけていけると良いです。これは毎回確率分布を弄ったらどんな確率分布になっているのかを書き出すことで習慣化することで対処できます。
特に検定量を構成する為には分布が正しく見えていないといけません。信頼区間や検出力を問う問題では、分布を正しく把握できているかが勝負の分かれ目になるとも言えます。多くの問題の中盤以降でこれらが聞かれるので、合格を最後一押しする重要な要素になってくることが多いです。
標本分布の分散は要注意
最初は$1/n$を付け忘れがちです。なぜ$1/n$が付くのかというのはちゃんと導出して確かめておきましょう。
で、結局何で対策すれば良い?
計算の手引きや手順を演習を通じて量を学べる本であれば何でも良いです。ご自身のその時点のレベルやフィーリングに合うものを選びましょう。無理に背伸びする必要は無いです。
ガイダンス確率統計なんかはその辺を意識した良い本です。まずはこれが読めるレベルの計算力があるかを確かめましょう。もし計算が厳しいと感じる場合は数IIIの計算練習を積みましょう。その上で、数理統計で固有の計算の仕方をマスターしていきましょう。
計算をクリアした人は統計の専門書に手を出しましょう。筆者個人は最初に一番有名なこちらを使って勉強しましたが、2023年の9月にその姉妹本が発売されており、そちらの方が統計検定1級(R)の応用や準1級を意識した構成がされているので、新しい方からトライしてみるで良いと思います。中身は現代数理統計学の基礎の内容を踏襲しつつ統計検定(R)を意識してアドバンスドな内容を削って、その分応用などに向けた例が豊富になった印象です。書いてある理論の部分は記述の内容はほぼ同じでした。
章末問題とその解答はこちらから無料でダウンロードできるのでぜひ活用しましょう!問題数がかなりあるので、これだけで半年は演習できます。目安として、統計数理を合格できる人はこれらの問題の基礎から標準レベルであればサクサク解ける人が多いようです(とは言え全部は簡単に解けないけど)。なので、ここで詰まらない人は自信を持って統計数理をクリアできるでしょう。
https://sites.google.com/site/ktatsuya77/home
2.過去問で修練
統計検定(R)の問題形式に対応するために
上記の部分はまずは足腰の鍛錬であり、ここからが本番の試験を見据えた対策になっていきます。
真っ先に手に取りたくなるのはこちらだと思います。
ただ、こちらは後半戦で基礎力がある状態で読む内容になっています。レビューを見ればわかりますが、書きっぷりが非常に簡素で行間を自力で埋めないと書いてあることが理解できない部分が多いため、初心者が読んでも混乱します。ただ、ある程度方法論とかを身に着けてから読むと結構有益で、内容の網羅性は一番良いです。実力に自信が無い人は仕上げの段階まで精読はしないで良いです。パラっと眺めるくらいに留めましょう。
応用のためにあえて準1級のワークブックを精読する
一方でこちらは準1級の本ですが、馬鹿にせず読んでみることをおススメします。準1級自体が出題範囲も広いということもあり、網羅性は高いですが、内容は非常に親切で勉強になる内容が多かったです。1級の応用対策としても十分効果的です。1級を受ける人の多くは準1級を経由していると思いますので、中盤ではこれを完璧にすることを目指しても良いと思います。
完璧にすると言っても全章をマスターする必要はなく、応用で出る可能性のある章に絞って集中して読み込むのがベターです。
過去問はどれだけ集めればいい?
できれば、過去のすべての問題を入手することをオススメします。
最初は2012-2013年からになりますのでこれも入手してください。ちょっとお高いですが、良質な問題が揃っているので、経験値は桁違いになります。初期と比べると難易度も出題傾向もだいぶ変わってきていますが、似たような問題が数年後に出ることがあるので、対策のために眺めておく必要はあると思います。お金が無い人はまずは直近のものから買いましょう。
受験を決意したら最初に一度解いてみよう
受験を決意したタイミングで一回最新の問題セットを解いてみるのが良いでしょう。最新の試験の問題だけは無料で公開されているので実力試しと最初の弱点の確認に使えば良いです。
https://www.toukei-kentei.jp/exam/grade1/
統計数理
統計数理は事実上、微積ゲーです。試験中腕力がものを言います。理論があやふやでも計算力でなんとかなってしまいます。一方で実務寄りに強い人でも数学苦手な場合、応用はパスしても、こちらをパスできないことも珍しくありません。また午前中の試験のためこちらで失敗してそれを引き摺ると午後の応用に悪影響を及ぼす可能性もあるので、気持ち良く終わらせたいものです。足腰をしっかり鍛えていれば、結構勝負できるので、基礎だと思って鍛錬しましょう。
統計応用
こちらは統計数理と異なり申込時に4つから選ぶ訳ですが、1番自分の専門に近いものを選ぶのが最初に基準になるでしょう。ただ、フィーリングが合うものでも良いと思います。それぞれ特徴や傾向、必要な知識が異なりますが、難易度の差はあまりないです。計算処理は数理と比べるとあっさりしていますが、各問題では具体的数値計算を電卓で行う問題が出ます。さらにそれを使って計算結果の解釈であったり、文章で説明する問題もありますし、フィッシャーの三原則を答えるなど暗記力を問われる問題もあります。この辺は各自の強みに合わせて選択しましょう。
理工学については最近はパターン化された問題は少なくなってきて傾向が掴みにくい場合が多いです。統計数理っぽい問題が出るような年もあれば、実験計画法が多い年など、2~3年に1回は問題セット全体の傾向が変わっているような印象を受けます。推測ですが出題者の代替わりなどが影響しているかもしれません。
あと、これは著者の完全な主観ですが、最近は毎年どこかの専門で完答しないといけないレベルのサービス問題が1問出ることがあります。例えば、2022年の人文科学問1、2021年社会科学の問2などです。こういった問題を選択して取りこぼさないようにしましょう。
付表のパーセント点を使う問題には慣れておく
問題の後ろについている分布関数のパーセント点のを使う計算問題は頻出です。見方の訓練は必須ですので、しっかり時間を取りましょう。公式解答ではパーセント点の求め方の過程は書いてくれず、付表に書いてある結果の数値だけがいきなり書かれているので、最初は面食らいます。
コツとしては、自分で分布のグラフを書いて、どの部分を求められているのかを視覚化して確認することです。付表は上側確率だけが書かれているので、それと自分の書いた図と対比させながら位置関係を間違えないようにしましょう。これについてのトレーニングになる教材は思い当たるものがなく、過去問の解答を見ながら自分で分布を書いてという地道なトレーニングで手続きを体に覚えさせるというのが楽かもしれません。思ったより銀の弾丸はありませんでした。
慣れてくると一部の代表的な値(標準正規分布の上側2.5%点=1.96、5%点=1.645など)は覚えてしまったら覚えておいても良いですね。暗記する必要はないです。覚えていたら念の為確認ぐらいで。
理工学はどう対策するか
理工学については、以前は統計数理寄りの数学の計算でごり押しできる問題が多かったのですが、2019年ぐらいから傾向が変わり始め対策がより取りにくくなりました。ただ、見ていると、実験計画法、分散分析、線形回帰、ベイズ法、ランダムサンプリングといった出やすい分野はあります。このあたりで纏まりが良いのがこの本です。古い本ではあるのですが、参考になる部分は多いです。
他にも演習量を稼ぐという意味では、こちらも古い本ですが、良いです。
実験計画法や分散分析の手続きをマスターしたい人はこの本がおススメです。著者も最初はこの辺に強い苦手意識があったのですが、これをやり切った後は、サクサク分散分析表が書けたり、交絡因子を見つけることができるようになりました。実際にこの本に書いてあるブロック因子ありの分散分析の手続きがわかっていれば、2021年の理工学では書いてある内容だけでほぼ完答できる問題が出ていたります。
これらの本の注意点は古いことで、例題や演習問題に実験データが与えられているけども、それを実際に細かく計算してみて確かめるという流れなのですが、そこまで細かい手計算は本番では出ないですし、現代は表計算ソフトなどもあるのでそれを活用して集計部分の計算は省略しましょう。手続きをしっかりマスターしましょう。
機械学習はいつか出るかもしれない
過去に1度だけですが、2021年の理工学[4]では機械学習の理論に関する問題が出たこともあります(題材は決定木の分割がどのように行われているかについて)。今後は機械学習の対策も必要かもしれません。何が出ると予想はできないですが、ニューラルネットやリッジ回帰やラッソ回帰に関する問題が出てもおかしくはないので、機械学習の理論も知っておくとアドバンテージになるかもしれません。
受験予定以外の専門の過去問もやる
時間に余裕が無いと見落としガチなのですが、ある程度学習が進んだ後は他の専門の問題も眺めましょう。他の専門で出た問題が手を変え品を変え出てくるということもあるので、無視すると損をします。
全部の問題を解く必要は無いです。基準としては、その専門の固有の知識が求められるケースです。解いてみて初めて見る知識が出てきたらそのパターンになっていることがあります。そういう問題は後回しで良いです。
実際理工学受験の観点からは、他の専門の半分ぐらいの問題は解けたので、割と問題数は稼げます。解ける問題を見定めて時間のある限り取り組んでみましょう。
特に理工学であれば、人文社会学で出る正規分布をこねくり回す問題、社会学で出る分散分析や時系列、回帰分析、医薬生物学で頻出の生存時間解析なんかは押さえておきましょう。特に正規分布の計算にはどの分野でも出るので習熟しておきましょう。期待値を求めるときは正規分布の性質を使って工夫すると楽でミスで減るようになります。
さらに言うと、応用から数理に逆輸入されることもあります。2023年の統計数理問2は逆関数法が題材の問題が出たのですが、これは理工学では頻出の内容で、過去問を解いていれば一度は遭遇する問題でした(厳密に言えば逆関数法を直接題材とした問題としては出たことはないですが、乱数生成の方法を論述の中で答えさせる問題が過去に2回は出ていましたので内容は知っていたわけです)。このことから数理も応用もできるだけ隈なく解いておくことをおススメします。
PBT時代の準1級を解いてみる
過去問をやり込んでいくと、問題数がまだまだ限られていることもあり、ループするのも飽きてきます。そういったときは過去の準1級の記述問題なんかに目を通してみてると良いでしょう。2016年-2019年までと限られていますが、似たような問題を統計応用で見かけることがあるので、実力診断も兼ねて解いてみることをおススメします。
過去問をやり尽くしたら・・・
大学院入試の問題をやると良いと思います。個人的には東大院(情報理工学専攻)、京大院(知能情報学専攻)、大阪大院(情報数理学専攻)、東工大院(情報理工学院 数理計算科学系)、総研大(統計科学コース)あたりが難易度的にもおススメです。ただ、これらは解答が公開されていないので、自力でやりきれる計算力が無いと返り討ちにあいます。自分で答案を作るぐらいの気概で臨みましょう。あと、応用の対策にはならない問題が多いので、数理の仕上げのためという位置付けで考えて下さい。
どこまでやればいい?
このあたりまで来るとどれくらいの時間をかけるべきかという話が出てきます。ネットには300時間必要であるとか、60時間で受かったなどの情報が出てきますが、それについては一切気にする必要はありません。これは前提となっている基礎学力や経験値の違いがあり、簡単に時間で見積もることはできません。時間を気にするよりは感覚を信じるのが良いでしょう。
過去問を何回か解いていくことになると思いますので、目安として各問題の7割は問題を見た上で方針も立ち計算も苦にならない、というのが合格基準になってくるかと思います。各問の最後の問題は難しいものも揃っているので解けなくても最初は気にしないで大丈夫です。初回は一度内容をじっくりと理解してみて、それを頭で再現できるようにしてみると良いでしょう。2回目以降はそれを思い出しながら解いている内に血肉になっているはずです。
3.「独学が辛いんだけど」という人はWebを活用しよう
ここまで本の紹介がメインでしたが、本だけでは結構苦労する箇所が出てきます。著者も完全独学でやってきたので、精神的にはキツかったです。なのでwebの情報には本当に助けられました。移動中の待ち時間とかでサクッと読んだり見たりして時間を有効活用しました。
大学の講義資料
統計検定1級(R)に特化したページは見当たらないですが、大学の講義資料などを参考にしたことは何度もあるので、必要に応じて検索しましょう。書き方などに癖がある場合があるので過学習しないように、いろいろなページを見比べてみることをおススメします。
ようつべ(YouTube)
著者はよくこの2つのチャンネルの動画を見ていました。1本3分~10分程度で1つのテーマを解説してくれるので、割と気軽に見れるというのが良いです。内容も痒いところに手が届くというのがあります。教科書を読んでもよくわからない部分を中心にスキマ時間で見ると良いかと思います。
「はじめての統計学」
「データサイエンスLab.」
もちろんこれら以外にも分散分析や生存時間解析のように単元単位で動画を探して学ぶことも多かったです。ピンポイントで調べてみると、動画が大量に出てくるので、必要に応じて参照するのが良いでしょう。
独自に過去問の解答を作っている人のを参考にする
よくあったのが、公式の過去問の解答を見ても納得がいかない場合があります。そんなときはSATOLOGさんのサイトを参考にさせてもらいました。いくつかは公式とは別の解法を書いてくれているので、勉強になります。応用は理工学だけになりますので、他の分野方は数理だけでも見てみてください。
また、他にも各著者が合格前までは書かれているものもありますので、それも参考になりますので、紹介しておきます。
「有意に無意味な話 統計検定1級(R)の過去問と解答例」 : 2019年まで
「DataArts 統計検定(R)過去問」:2017年まで
これらは外出時に本を持っていくのを忘れたりしたときに便利に活用できます。
Twitterを使う
あえてXとは書きませんが、世の中に希少種なはずの1級ホルダーが跋扈しているのでこれもうまく活用すると、大変勉強に役立ちます。著者も時々疑問を書いておくとヒントだったり、解説ページを紹介してくたことがあり助かりました。人の頭脳もうまく活用することは現代の勉強の仕方で重要です。
スクールに通う?
数は少ないですが、数学系の学習塾で講座を開いているものがありますので、それに参加するという手もあります。ただし、こちらの受講料はそんなに安くない場合があり、個人で出すには少しキツイかもしれません。会社で出してもらったというケースもあるようなので、そういうのに頼るのが良いでしょう。無料の講座もたまに開催されているので、自分の理解を確かめて精緻化したいという場合や勉強の指針を知りたいというのであれば、参加してみるのが良いでしょう。
4.当日の心構え
泣いても笑っても足掻いても本番は来ます。ここに対策は無いです。せめて遅刻はしないようにしましょう。著者は30分前に入っていましたが、後ろの人が開始前5分切ってから入ってきてぶつぶつ言いながら準備していたので直前で集中が乱されました(同一人物が午前も午後も両方)。遅れても一定時間内であれば受けられるので周りの迷惑にならないように静かに準備しましょう。
解答用紙が思ったより書きにくい
冊子形式で棒線の太く行間の狭い解答用紙が配られます。ページ数は足りるには足りるんですが、そこまで多くはないので少し神経を使います。証明が思い付いたら余白が足りるぐらいにはありますが。解答してる問題のページは飛んでも大丈夫なので、ページ毎に問題番号を書けます。ただあまりアッチコッチに飛ばない方が見直しはしやすいです。
選択した問題はちゃんとマークしよう
忘れると無得点なので注意。終わった後にマークする余地はありますが、テンパるので覚悟が決まったら○しましょう。
なお、著者の斜め前の人は午前も午後も試験が終わってから○をつけていました(確信犯)。合否はわからないですが・・・。
時間が全然足りない
90分3問でこの難易度はほぼ全員時間が足りないです。一部の天才は時間が余るようですが、合格においてそれは目指さなくて良いです。
著者も全盛期の1/10にまで落ちた計算力でも、それなりにスピードには自信がありますが、それでも全部を解き切る時間は無いです。優秀賞以上を目指すにであれば重要ですが、実際は計算ミスとかで戻るとかロスはあるので、計算の正確さを重視した方がコスパが良いです。普段の勉強から心がけましょう。
後は計算の途中経過も上手く記述からは端折りましょう。問題に計算過程を求められていないのであれば、ポイントとなる部分以外は書かないという戦略もありです。例えば、正規分布の結合で煩雑な平方完成する途中経過を書かないなどです。練習ではやるべきですが、解答には不要です。
部分点を掠めとれ!
記述の最大のメリットは部分点がもらえることです。計算する時間が無くても方針ぐらいは書くなどしましょう。また、問題の前後が繋がっていない場合もそれなりにあるので、最初の問題が解けなくても次以降の問題も眺めましょう。この辺りはメンタルとの勝負なので割り切りも必要です。2023年の結果を自己採点して、結果を見る限りは部分点もちゃんと入っている印象でした。
5.まとめ
全体的な勉強の流れてとしては以下のようになります。もちろんこの通りに進める必要はなく、ご自身の到達地点に合わせて途中から始めてもらって大丈夫です。著者は計算は学生時代にやりこんでいたので、②から独学で進めました。
⓪数Ⅲの計算をマスターする(数Ⅲの教科書、問題集、大学入試問題など)
①数理統計の基礎的な計算方法と考え方を習得する(「ガイダンス確率統計」など)
②数理統計の専門書で学び、演習問題を解きまくる(「データ解析のための数理統計入門」「現代数理統計学の基礎」など)
③応用の勉強をする(過去問、準1級ワークブック、その他専門書籍など)
どのような教材を使うかは本屋などで一度目を通してみて、フィーリングが合うかというのを重視してください。
おまけ
他にも参考になりそうな本を並べておきます。
リスクを知るための確率統計入門
アクチュアリーを意識した人が統計学を理解する目的で書かれた本のようです。扱っている題材は基本的な内容がほとんどと、最終章は統計検定(R)よりはアクチュアリーに関連していると思われる内容なので、読む対象が少し異なる部分はありますが、統計検定(R)でも頻出の基本的な計算の手続きに関して丁寧に解説してくれているので、補助教材として使うと良いかもしれません。
青チャート
12月5日に発売したばかりなので、未知数ではありますが、挙げておきます。
チャート式特有の手続きにフォーカスしている印象です。
統計Web
統計検定2級(R)でも使えるぐらいには基本的な内容がまとまっています。
特に基礎的なことがあやふやな分野についてはこちらを一読するというもありでしょう。
https://bellcurve.jp/statistics/