記事を書くモチベーション
先日統計準一級に合格した嬉しさの勢いで記事を書きます。
自分も他の方が描かれた統計準一級の受験記事がかなり参考になったので、自分の体験を社会に還元しようと思い記事を書くことにしました。
対象読者は準一級の勉強開始したころの自分です。
自己紹介
・35歳(既婚)
・教育学部出身(文系)
・データ分析の専門職に最近転職
・2023年の3月に統計検定2級合格(ぎりぎり60点で合格しました笑)
・2023年6月頃ワークブックを購入し統計準一級の勉強開始
・始めたころの数学レベルは低く高校数学を思い出す所から始めました(対数の微分、ネイピア数、何それ?レベル)
・大学受験(17年前w)の時は数学は苦手でも得意でもなかった
統計検定二級も苦戦していたので準一級の勉強を開始するか非常に迷っておりましたが転職を機に覚悟をもって勉強を開始しました。
試験に関して
他の記事でもよく言われてますが、CBTの実際の試験の問題はワークブックの章末問題に近いです。過去問はそこまで参考になりません。
ワークブックの問題をちょっとひねったような問題が多く、考えさせられます。
重箱の隅をつつくような出題が多いですが、難しすぎる問題はない印象です。
3月上旬くらいに過去問を2周目して「もしかしたら受かるかも、、」と思えたので受験しました。
1回目:54点 2回目:59点 3回目:54点 4回目:72点で合格
初回が思ったほど悪くなかったのですぐに受かると思いきや、4回も受験させられるはめになりましたw
2週間置きの間隔で受験しました。
回によって難易度のばらつきが大きめで、自分の場合、初回が一番簡単で3回目が鬼のように難しかった印象があります。
合格率は20%程度とのことです。
期待値的に合格には5回の受験が必要なので1回や2回落ちたくらいであまり落ち込みすぎなくてよいかと思います。合格記事を書いている人は落ちても1回程度ですが、こういう人たちは元から優秀なのであまり比較しなくてよいと思います。
各章に関して
第1章:事象と確率
試験では1問目など冒頭で出題される領域であり、ここで躓くと残りの問題をブルーな気分で解くことになってしまうため、しっかり準備しておきたいところ。
ベイズの定理は図で覚えるのが定着しやすいと思います。下記の本おすすめ
https://www.amazon.co.jp/dp/4478013322
条件付き独立に関しては試験を通してどうしてもわからなかった難問を独力で解けるようになり個人的に思い入れができた。
第2章:確率分布と母関数
ほとんどの人が初見ではモーメント母関数?、となると思います。のちの章でいろいろな確率分布での期待値や分散の導出が出てきますが、数学力不足が故、自分はここの理解に時間をかけすぎました。
第3章:分布の特性値
本章など前半の章の説明は赤本の説明の方が分かりやすいと思います。
https://www.amazon.co.jp/dp/4130420658
期待値の繰り返しの法則に関しては下記のサイトなどを参考に導出から理解しようとしたがいまいち理解しきれず。
https://www.hello-statisticians.com/explain-terms-cat/conditional_expectation1.html
章末問題では問3.3は統計検定2級でも似た問題が出た記憶あり。似たような工程でも分散に差が出るのは不思議ですね
第4章:変数変換
ヤコビアンが出てくる章です。正直いまもあまり理解できてないですね。
ヤコビ行列を挟む||が行列式を意味すると知ったのはずいぶん後の話になります。
ヨビノリや下記の動画をみて何とか理解しようと試みました。
https://www.youtube.com/watch?v=wy6D2vf53eo
章末の問4.2は初見では厳しいと思いますが畳み込み積分と呼ばれる問題のようです。3周目くらいから指数分布が再生性を持たないことを意味しているのだなと別の観点から見れるようになりました。
第5章:離散型分布
超幾何分布のP値を求める問題など後述のノンパラメトリック検定の順位和検定に似ているな、など3周ほどワークブックを読み込むことで気づけるようになりました。
章末問題の問5.4の(2)が解けるようになるとかなり良い感じだと思います、自分は3周目くらいにできるようになりました。問5.5も幾何分布の応用で大事だと思います。
第6章:連続型分布と標本分布
ガンマ分布、ベータ分布に関しては1周目はほどほどに、後述のベイズの章で学んで2周目、3周目でしっかり理解するのが良いと思います。下記の動画の説明もとてもわかりやすいです。
https://youtu.be/-UEExTBYiug?si=r0bwPiHEIgf2Bo01&t=7092
正規分布のモーメント母関数や2変量正規分布の条件付き期待値など手計算で導出するのは煩雑でめっちゃ大変ですが、写経でもよいので一度苦労しながらやっておくと良いと思います。問6.2の(2)が解けるとよい感じだと思います。
第7章:極限定理、漸近理論
2級でも学んだ大数の法則や中心極限定理の詳細な説明や、極値分布や連続写像定理、デルタ法など新ワードが出てきます。連続修正は実際の試験だと補足説明などあり、それ自体を問われることは少なそう。
第8章:統計的推定の基礎
2級で出てこなかった最尤法が登場。正規分布やポワソン分布でパラメーターの最尤推定の計算過程を手を動かして覚えるのがこの章を理解するうえで必要そう。
漸近有効性や漸近正規性、最尤推定量はどうなのか、など試験で問われることが多いイメージです。
十分統計量とかフィッシャー・ネイマンの分解定理とか難しいですね、今もわかってないです、
問8.2、問8.3など3周目くらいでようやくわかるようになりました。
第9章:区間推定
第10章:検定の基礎と検定法の導出
第11章:正規分布に関する検定
第12章:一般の分布に関する検定法
統計検定2級に苦戦した自分にとっては上記の4つの章は地味に重要でした。
分散の区間推定とか時間がたつと忘れてしまいます(あまり準一級の試験には出なさそうですが、)
このあたりの知識を補強するために心理統計学ワークブックを解きました。
https://www.amazon.co.jp/dp/4641173567
Amazonでも評価高いですが、各章の最後にあるトピックが参考になりました。
プールした標本分散は下記の動画が分かりやすいです
https://youtu.be/TlZvLLpEt0A?si=KOmINnS8m6fLlYDj
検出力やサンプルサイズなども頻出なので理解できているとよいと思います。
適合度検定を電卓で計算させる問題は頻出で試験では必ず回答できないと厳しい箇所になります。
尤度比検定はワークブックの説明だと理解するのがなかなか厳しいと思います、動画などで知識を補強するのが必要そうです。
https://youtu.be/-C0JUkVrlHY?si=uxYh2iWga8I1xOmn
第13章:ノンパラメトリック法
ウィルコクソンの順位和検定は頻出で難しくないので確実に抑えるようにしておきたいです。
クラスカルウォリス検定も計算はさせないかと思いますが、カイ2乗分布だと覚えておくとよいと思います
第14章:マルコフ連鎖
むずそうな響きに身構えてましたが思ったほど難しくない印象です。
行列計算に慣れるのが重要そうです。
π⁼πQの式、πが状態確率ベクトル、Qが推移確率行列であると覚えておくとよいかと思います。
例題と章末問題を繰り返しときましょう。
第15章:確率過程の基礎
ブラウン運動は正直よくわかってませんがすごいらしいです
https://youtu.be/NE1W0wJH8q8?si=jj0BzdfKh-Q_WRGr
パラメーター推定や問15.1の(2)のような高頻度観測は、ちょっとひねりを加えて出題されるイメージです。
複合ポワソン過程は実世界での応用例が多そうで面白そうだなと思いました(例題に記載されている条件付き期待値と用いた計算は理解できてません)
第16章:重回帰分析
行列を使った正規方程式の説明に初見で面食らった章です。
126ページの説明、射影の説明もガチで意味不明だった記憶があります。
自分と似たスペックの受験生はおそらく同じ感想を抱くかと思いますが、そんな方にお勧めは多変量解析法入門です。ワークブックよりずっとわかりやすい、行列を使った最小二乗法の説明が載ってます。
正則化は一見難しそうですが、ラッソ(L1)、リッジ(L2)のどちらがスパース性を持っているのか、スパース性があると回帰係数はどうなるのかが理解できるとよい感じだと思われます。
第17章:回帰診断法
最小二乗法の仮定である、誤差項の独立性、等分散性、正規性を確かめる手法に関する章で覚えるだけでそこまで難しくないかと思われます。
DW比は試験に出ないという話を聞きました(真偽不明)
第18章:質的回帰
実務でもよく出てくるし試験にもよく出る、大事な章だと思います。
ロジット変換、ロジスティック変換はパッとできるようにしておきたいです。
ちょっと応用でいくと下記の本は一般化線形モデルまで踏み込んでいて、本章の線形予測子やリンク関数などを理解するうえでも役立つのではないかと思われます。自分は役立ちました。
https://www.amazon.co.jp/dp/400006973X
章末の問18.2と問18.3は良問だと思いますので繰り返し解きましょう。
第19章:回帰分析その他
トービットモデルの尤度関数がどうしてこういう形になるのか等、ワークブックの中でおそらく一番理解しきれていない章です。
比例ハザードモデル以降もよくわかっておりません。
幸いにして試験では出題されなかったので、ラッキーでした。
第20章:分散分析と実験計画法
2級の続きで2元配置分析が本章の目玉かと思われます。
分散分析は過去問などでも多く出ているので時間をかけて解いて苦手意識をなくし、慣れていくことで攻略できるかと思います。ブロック因子を導入することで因子の有意差が出やすくなるなど手計算で体感することで理解度が増しました。試験の直前に交互作用の自由度など見返したりしました。
計算ミスや自由度のルールを間違えなければ得点源になるかと思います。
直行表は試験に出なさそうですし、業態的に実務でも使わなさそうなので完全に無視しました。
第21章:標本調査法
ネイマン配分法は試験によく出てくると思います。
層別のデータ分割という点でKaggleでのStratifiedKFoldと似たような考え方なのかなと思いめぐらして実務とのつながりを感じながら勉強してました。
第22章:主成分分析
本章あたりから線形代数の知識がメインになってきます。
とはいえ試験に出てくるパターンとしては主成分負荷量だったり、主成分の解釈だったりするのでそこまで難しくないので試験に出てきたらラッキーです。本章も「多変量解析入門」が活躍しました
第23章:判別分析
フィッシャーの判別分析は地味に試験によく出て苦手としてました。
下記サイトの記述が判別分析の直観的な理解では役に立ちました。
https://www.hello-statisticians.com/explain-terms-cat/linear_discriminant1.html
「フィッシャーの線形判別は単に平均ベクトルからの射影が大きくなる
ではなく、射影したベクトルにおいてそれぞれのクラス内の分散が小さくなるようにするような
を求めるべきだという考え方である。」
「多変量解析入門」ではマハラノビスの距離の考え方での判別分岐の説明をしてくれていて、やはりワークブックよりわかりやすいです。
マハラノビスの距離にいたるまでの線形代数の学習コンテンツとしては下記の動画がおすすめです
https://youtu.be/TPUX726sVAk?si=0esK1SrNjLGEJa-D
また本章後半の混同行列は実務で頻出で試験にも出るので抑えたいです。真陽性率(再現率)と偽陽性率がトレードオフになっている点、混同行列の正解率や真陽性率の算出方法などは理解しておきたいです。
第24章:クラスター分析
階層的クラスタリングとしてデンドログラムの各手法(最近隣法、ウォード法など)、非階層的クラスタリングのK-Meansのロジックは抑えておきたいです。K-Meansは実務でもよく使います。
EMアルゴリズムは理解しきれていないので時間があるときに復習したいです。
第25章:因子分析・グラフィカルモデル
因子分析は共通性・独自性の意味や主成分分析との違い、バリマックス回転や因子負荷量あたりを抑えておけば得点源になりそうです。
個人的に厄介なのはグラフィカルモデルやパス図の方でした。
章末問題の操作変数法は抑えておき、疑似相関や総合効果、条件付き独立なども理解できている良さそうです。
疑似相関は下記の動画での説明が分かりやすいです。
https://youtu.be/hh_KPDZ1D2Y?si=DaVnoatAzhPcqFEv
第26章:その他の多変量解析手法
この章もあまり深入りして勉強しておりません。
章末問題で二重中心化の行列計算の問題などは大変ですができるとよいのかと思います。
数量化法はワークブックでは記載が少ないですが試験によく出るイメージですのでワークブック以外の情報も参考にしてちゃんと理解しておく必要があります。
第27章:時系列解析
統計準一級で頻出とよく言われますが、個人的にはCBTでは言う程出題されない印象です。
ARモデルとMAモデルでの期待値、分散、自己共分散の導出の仕方を理解することで、コレログラムを見ながらの次数選択が理解できるとよいと思います。
海外の人ですが、この人のTime Series Analysisの動画プレイリストは説明が上手くてとても分かりやすかったです。
https://www.youtube.com/watch?v=ZoJ2OctrFLA&list=PLvcbYUQ5t0UHOLnBzl46_Q6QKtFgfMGc3&ab_channel=ritvikmath
線形回帰の誤差項で自己相関があるケースがあるようで、そういう時にダービンワトソン検定(DW検定)を使うようです。章末問題の問27.3などが参考になります。
Kaggleでも業務でも時系列解析は使いそうなので今後下記の本などを読んで知識を補強しようと思ってます。
https://www.amazon.co.jp/dp/4254127928/
第28章:分割表
後ろ向き研究とオッズ、オッズ比の使い方をざっくりと理解した程度です。
後半のグラフィカルモデルはほぼ無視しましたが、試験で問われたので手を抜いてはいけませんね
第29章:不完全データの統計処理
Kaggleや実務でも欠損値の取り扱いは頻出のテーマかと思いますので読み込むモチベーションはありました。
本章に関してはワークブックの説明は割と充実していてわかりやすいかと思います。
MCAR、MAR、MNARのそれぞれの意味と完全データからそれぞれ平均、分散、相関係数がどう変わるのか、平均値代入や回帰代入するとさらにどのように変わるのかがワークブックに詳細に記載されているの何周か読んで理解しておきましょう。章末問題をしっかり理解できればこの章はOKだと思われます。
第30章:モデル選択
AICに関して、最大尤度と残差平方和の両方から求める式を覚えておきたいです。
BICはシンプルなモデルを評価する傾向がある、サンプル数が増えたときにBICは一致性がある、なども覚えておくとよいと思います。
機会学習やKaggleをやっている人はクロスバリデーションの説明はすぐに理解できそうです。
第31章:ベイズ法
実務などでも大事になりそうなのでそれなりに時間をかけて勉強しました。
ベータ二項モデル、ガンマポワソンモデルを例題や章末問題で理解しました。
ベイズ推定量、MAP推定量など初見で難しく聞こえますが要は期待値、最頻値(分布の頂点)になります。
階層ベイズモデルなど試験に出なさそうだけど興味があったので下記の本で勉強しました。
https://www.amazon.co.jp/dp/4065337631
後半のMCMC法は面白そうなトピックなので下記の本を勉強中です。
https://www.amazon.co.jp/dp/B08JV9YC1F
第32章:シミュレーション
Twitterなどで本章は出題されないといったうわさ話がありましたが普通に出ます。
とはいえそこまで難しい問題はでないので、モンテカルロ積分や例題1を解けるようになっているとよいかと思います。
参考文献
多変量解析法入門
解析ストーリーなど初学者に分かりやすい工夫があり、特に単回帰分析、重回帰分析、主成分分析の章は数式と行列での計算方法など記載の通りに実際に手を動かすことで知識の定着につながった。
データ解析のための統計モデリング入門
苦手意識のあった31章のベイズ法(特に後半のMCMC)攻略のために購入。下記の動画の著者の説明が分かりやすかったのとネットでの評価が高かったので購入し、やはりわかりやすかった。一般化線形モデルの理解につながった
その他
統計検定準一級に特化した情報教材もありますが、2回目落ちたときに購入を検討しましたが、結局購入しませんでした。そこにお金を使うのであれば参考書を買ったほうが実務に生きそうと考えたからです。
ただ資格の取得に注力するなら初めから買っておくともう少し早く合格していたかもしれません。
受験を終えて思うこと
新しい職場や職種でキャッチアップしないといけないことが多い中での統計検定準一級の勉強は中々大変でした。また勉強を通して理系の人に対する尊敬の念を覚えました。
難しい目標でも継続して取り組めば達成できると自信につながりました。
これからの目標
これからは実務で成果を出すこととKaggleやSignateでのメダル獲得を目標にしていこうと思います。
データ分析だけでなく開発の知識が求められる機会が多く基本情報技術者試験の勉強などもしてみようかと思ってます。Linuxも実務で使うのでどこかで勉強したい。
深層学習は業務で使わないので暫くはやる予定はないです。