最初に
こんにちわ
統計検定一級を2年かかって数理、応用共にA合格することができたので記録を残しておこうと思います。
今後受験をされる方の何か参考になれば幸いです。
統計検定挑戦の歴史
2020年統計検定2級を受験・合格
この時は転職して今のDX系の業務についてから基礎的な統計を学ぼうとして受けた覚えがあります。大学時代には少し輪講で統計をかじっていましたが、ほとんど頭から抜けていましたね・・・テストセンターの受験でしたが確か普通に勉強して60点台取ってギリギリだった記憶があります(笑)
数学は得意な方と自負していましたが、当時からやっぱり統計は苦手でした。
2022年統計検定1級を受験・数理を成績優秀者合格するも応用(理工)は撃沈…
準1級を飛ばしての受験ですが、最終的には一級を取るつもりだったのでいきなりやってやろうと思い挑戦になりました。
この時、数理は久保川本を重点的にやって無事A合格することができたのですが、確か応用の勉強を始めたのが9月頃…数理の対策で手一杯になってちゃんとした時間が確保できなかったことが明らかに敗因でした。回帰分析選んでボロボロでしたね・・・この時の悔しさを胸に翌年応用リベンジすることを固く決心しました。
2023年統計検定1級再受験、無事応用(理工)をA合格で達成
去年のリベンジを胸に挑んだ年でしたが、子供が大きくなり家事、子育てであまり勉強時間ぎ取れなかった点で少し厳しい戦いになりました。数理を既に合格している状況でも数理の内容をちゃんと抑えておかないと合格できないと思ったので実質勉強範囲は変わってないです。1年という期間があったので実験計画やモンテカルロシミュレーション等の対策をより深くやらないと優秀者合格はできないと思っていましたし、何が起こっても受かるように対策をしっかりしました。
2023年応用理工の感想
まず最初に言いたいのが、この内容を応用と言っていいのかということ。問1なんてただの線形代数です。僕が解いたのは1,2,3でしたが、応用分野の勉強しなくても数理の範囲で合格圏内に入れるのではないでしょうか。僕としては時間の大半を割いた、実験計画、複合中心計画、モンテカルロシミュレーション、確率過程、時系列分析といった応用分野をもっと出して欲しかったです。統計数理や数学の知識だけで解けてしまっては応用と数理を分ける意味は無いと思います。他の分野との公平さからもおかしいと思います。そんな不満はいっぱいあるのですが、何とか合格できて良かったです。
対策、勉強法
数理
久保川本がオススメです(同じく評判の良い竹村本は持ってないです…)。行間のあまり無い比較的わかりやすい説明ですし、何より解説付きの問題ですね。これ一冊やり切るだけで数理は十分でしょう。逆にオーバーワークになる部分があるくらいです。
1. 定番分布の期待値、分散、デルタ法
最も重要なものは計算力かと思います。有名な分布の期待値と分散を確率母関数、積率母関数から計算することを体には叩き込みましょう。本番は時間が無いので定番は勝手に手が動くレベルにしたいです。また部分積分、置換積分を忘れている人はしっかり思い出しましょう。その他だと微分方程式、テイラー展開も使う時があるので抑えておきたいところです。数理の内容だとデルタ法も頻出で、ちゃんと慣れておく必要があります。応用でも基本同じなので基礎体力として計算力を鍛えましょう。
2. 条件付き期待値、マルコフ則
条件付き期待値、分散が絡む計算はしっかり理解し、慣れておきましょう。つまり重積分に慣れておくことになります。積分順序の交換だったり、マルコフ則を使った条件付き確率変数の操作に慣れたいです。
3. ベイズ確率
事前分布、与えたモデルの確率分布から事後分布を求める問題は定番中の定番になっています。よく出るのが正規分布あたりなので計算練習は必須です。expの計算は慣れておかないと本番怖いです。
ベイズ則の分子だけ計算すれば良いです。
応用
1. 計算力
数理と同じ内容です。過去問だといきなりモンテカルロシミュレーションの問題で幾何分布の確率変数を考えさせたりしてくるので、そういった問題で期待値を導出する時間はロスになります。そのためたとえ応用だけ受験する場合でも計算力は数理受験時以上に高めておきましょう。2年目は応用のみの受験だった私は理工の問題で足元を掬われかけました…
2. 分散分析
個人的に統計で1番苦労した分野だと思います。一元配置、二限配置については二級等でも出題されていましたが、一級は実験計画法、回帰分析が過去に出題されています。特に実験計画は本格的にやるならば専門書を一冊買うべきで(後述)、乱塊法、分割法が過去に出題され、今後は3水準だとか多水準法、擬水準法だとかがもしかしたら出題されるかもしれません。さて、具体的な対策ですが、自由度をちゃんと理解した上で平方和、F分布に従う統計量を算出できるようにするべきだと思います。一元配置なら簡単ですが、二元配置、実験計画法における各項の理解は必須です。ただ暗記するだけでなく自分で導出できるくらいに理解した方が良いです(標本の正規性を仮定した時の標本平均と分散の独立性、また回帰分析だと特異値分解)。実験計画についてはwebでも色々記事が見られますが、正直どれも分析手順は書いてありますが本質的に理解は難しいと思います。この分野の設問は文章で答えさせる問題も多く、ちゃんと回答するためには本質的な理解が必要になるでしょう。私自身徹底的に勉強したところなので別途記事にできたらと思います。
3. 複合中心計画
実験計画と似ているのでまとめようかと思いましたが分けて書きます。過去問解いている方ならわかると思いますが、回転可能性とかよくわからない言葉が出てくる分野です。今年の過去問で類似した内容は2023年問1のD最適の問題が関連していると思います。実験計画と異なって、説明変数の二乗、3乗項がモデルに組み込まれてきます。実験計画法だけで解けないのかという疑問が生まれると思いますが、説明変数の値を2水準で考える場合、一次と三次の項が交絡してこれらの効果が分離できなくなります。そのため、実験計画で出てくる直交表の割り付けをベースとして、それ以外の軸上点でサンプルを取ったり、偶然誤差の推定精度を上げるために同じ説明変数の組みで繰り返しデータを取る計画が複合中心計画になります。基本的にはそれらのデータから最小二乗法でモデルパラメータを推定するのですが、その時の推定値の分散を小さくする方法がD最適、原点からの距離が一定ならば推定値の分散が一定になるように軸上点を配置することを計画が回転可能と言います。対策としては、過去問だと回帰係数の推定値とt値が与えられるので有意差を判定できる様にすること、回帰係数の自由度(少し注意)が計算できること、最小二乗法で推定されるので計画行列直交性を自身で計算して確認することになります(2022年の問題で直交性の理解を問う設問があります)。実験計画、複合中心計画ともに言えることですが、過去問の傾向だと電卓で済ませられる計算が多く理解していれば短時間で高得点が得られる分野ですし、特に最近頻出なので(2023年度は出ていないですが。。。)絶対対策した方が良いです。
4. モンテカルロシミュレーション、MCMC
この分野も頻出になります。欲しい確率分布の乱数を生成するための分野です。この対策は上記で紹介した久保川本(数理統計学の基礎)でおおよそ体系的に勉強できます。個人的にはギブスサンプリングとかMCMCの内容はこの本では説明が足りていないと思っているので他の本で補うべきです。それぞれの手法で適用できる分布や計算回数、自己相関等のメリット・デメリットがあるので、"この分布にはこれ"といった整理を自身でやっておいた方がいいでしょう。
5. 時系列分析
この分野は社会科学がメインのような気がしますので、理工受験の場合はAR,MAモデルのような代表的なものをやっておけば良いと思います。この分野が怖いと感じる部分は計算量です。過去の出題を見ると事前の知識としてはあまり要求されておらず、行列計算や二次形式といった計算力が求められています。計算力に自身がある人は選んでも良いかもしれません。余裕のある人は計量時系列の本を読んでおくと良いと思います。
6. 確率過程
過去問ではポアソン過程が出ています(統計検定はポアソン大好きですね)。こちらの分野も基本的には久保川本だけで十分な気がします。確率過程の専門書一冊をやるのは学習コストが高いと思うので、時間に余裕無い人は過去問と久保川本、計算力があれば乗り切れるかと思います。
7. 機械学習
2021年に突如出現した分野ですね。今だに受験要綱のどの分野に属するのか不明なんですが・・・。過去には決定木の問題が出ていて、知っている人にはサービス問題だったかと思います。対策としては、幅広く色んな手法について理解するとしか言えない気がします。過去にはジニ指数を使った決定木構築でしたが他の指標を用いた方法もありますし、アンサンブルとして使うランダムフォレストではブートストラップサンプリングかつランダムに特徴量候補を選択する等色々あるので、kaggleやってる人は有利かもですね。
おすすめの書籍
数理
現代数理統計学の基礎
https://www.amazon.co.jp/現代数理統計学の基礎-共立講座-数学の魅力-久保川-達也/dp/4320111664/ref=sr_1_1?keywords=数理統計学の基礎&qid=1703078683&sr=8-1
鉄板ですね。数理統計のバイブルといっても良いのではないでしょうか。私からの説明は不要で数理はこれだけで良いです。章末問題も一部を除いて一通り解くことが望ましいです。
応用
1. 入門実験計画法
https://www.amazon.co.jp/入門-実験計画法-永田-靖/dp/4817103825/ref=sr_1_1?__mk_ja_JP=カタカナ&crid=DOMBX3UHYPT3&keywords=入門実験計画法&qid=1703078874&sprefix=入門実験計画法%2Caps%2C163&sr=8-1
実験計画法はこれ一冊やれば問題ありません。丁寧な式の導出、解説であるため初心者でも理解できるかと思います。直交表を使う理由だとか一般的な疑問をQ&A形式で付録として載せてくれているところも良いです。まさに実験計画法のバイブル
1
2. 実験計画法-方法編-
https://www.amazon.co.jp/実験計画法-方法編―基盤的方法から応答曲面法、タグチメソッド、最適計画まで-山田-秀/dp/4817103892/ref=sr_1_43?__mk_ja_JP=カタカナ&crid=DOMBX3UHYPT3&keywords=入門実験計画法&qid=1703078874&sprefix=入門実験計画法%2Caps%2C163&sr=8-43
これも実験計画法の本ですが、複合中心計画、田口メソッド、D最適も載っていたり入門実験計画法よりカバー範囲を広げた感じです。これらの分野に触れた本はあまり多くないので貴重かもしれません。一方でそんな丁寧に詳しく説明は無いので注意。
3. 多変量解析入門
https://www.amazon.co.jp/多変量解析入門――線形から非線形へ-小西-貞則/dp/4000056530/ref=sr_1_1?__mk_ja_JP=カタカナ&crid=2716EZE03HMNY&keywords=多変量解析入門&qid=1703079011&sprefix=多変量解析入門%2Caps%2C160&sr=8-1
一級の内容というよりどちらかというと準一級の内容寄りです。線形回帰、非線形回帰、ロジスティック回帰、モデル評価基準、判別分析、主成分分析、サポートベクターマシン、EMアルゴリズムに触れており、データサイエンスをやりたい人は一級関係無くやった方が良いです。今年度はEMアルゴリズムが出てましたが、これについては別の本でも良いでしょう。
4. 計量時系列分析
https://www.amazon.co.jp/経済・ファイナンスデータの計量時系列分析-統計ライブラリー-沖本-竜義/dp/4254127928/ref=sr_1_2?__mk_ja_JP=カタカナ&crid=1NGGKSD95X8UT&keywords=計量時系列&qid=1703079086&sprefix=計量時系列%2Caps%2C159&sr=8-2
AR、MA、ARIMAモデル等の理工でも範囲となっている時系列分析について学ぶことができます。社会科学受ける人には特にオススメですが、理工だとこの本の一部だけやれば良いのでオーバーワーク気味にはなるかもです。
5. ゼロからできるMCMC
https://www.amazon.co.jp/ゼロからできるMCMC-マルコフ連鎖モンテカルロ法の実践的入門-KS理工学専門書-花田政範-ebook/dp/B08JV9YC1F/ref=sr_1_1?crid=3CSGHAC4I9SWV&keywords=ゼロからできるmcmc&qid=1703079172&sprefix=ゼロからできる%2Caps%2C166&sr=8-1
モンテカルロ法、HMC、MH法、ギブスサンプリングといった乱数シミュレーションについての本になります。乱数生成においては目的の確率分布から独立な乱数が求めることが正規分布といった特別な場合を除いて難しく、自己相関の無い乱数をどのように作るかが鍵になってきます。目的の確率分布に乱数を収束させるためには規約性、非周期性、詳細釣り合い条件を満たす必要があるのですが、それらのポイントの解説を抑えつつ初学者でも理解しやすい内容になっています。
6. 機械学習
https://www.amazon.co.jp/機械学習-周志华/dp/4764906201/ref=sr_1_14_sspa?__mk_ja_JP=カタカナ&crid=LP629LNFXJ1Z&keywords=機械学習&qid=1703079200&sprefix=機械学習%2Caps%2C182&sr=8-14-spons&sp_csd=d2lkZ2V0TmFtZT1zcF9tdGY&psc=1
私にとって初めての中国人著者の本でしたが、丁度私が見つけた時はkindleセールの半額となっており丁度機械学習の手法を網羅的に学習したかったので購入しました(通常時は¥8,000ほどします)。中国ではベストセラーだとか。広く浅くといった内容になっているのですが、ポイントを抑えつつ割と数式展開もちゃんとやってくれているので頭に入りやすいです。決定木やアンサンブル学習はとりあえず抑えたかったので読みましたが、他にも内容は盛りだくさんで全然やり切れていないです。本当に余裕ある人にはおすすめです。