はじめに
統計検定準1級は(一財)統計質保証推進協会が実施、(一社)日本統計学会が公式認定する「2級までの基礎知識をもとに、実社会の様々な問題に対して適切な統計学の諸手法を応用できる能力を問う」試験です。現在はCBTでの実施となっています。
主観を込めて言いますと、2級と準1級では難易度に雲泥の差があります。
強調して言っておきます。まったく違います!
準1級では統計的推定や検定に加えて、多変量解析(重回帰、PCA、主成分分析、数量化)、時系列解析、マルコフ連鎖、確率過程、分散分析、ベイズ統計、MCMC...と範囲が広いのが特徴です。
以下、かなりの長文になりましたが、受験して得た知見をかなり具体的に記述しました。読者の皆様の合格への一助となれば幸いです。
目的
私はとある私立中高で物理と情報を教えています。統計の勉強を始めたのは、教科「情報」を教えるにあたってのスキルアップが目的です。もちろん準1級は高校生に教える内容に比べかなりハイレベルであることは承知の上ですが、準1級に向けての勉強が情報の授業に少なからずよい影響を与えると考え目指すことにしました。というわけで、データサイエンティストを目指されている方(活躍されている方)とは少し観点が違うかもしれません。私にとっては、学んだことをコトバにして生徒に伝えられてなんぼですから。
2022年8月末のE資格受験後に対策を始めて、2023年2月半ばに最初の受験をしました。あと3点というところで残念ながら不合格でした。その反省を踏まえて3ヶ月後に再挑戦し、2回めの受験で合格できました。
敗因と再受験に向けての対策
私は元々数学の出身なので、なんでもかんでも演繹的に理解しようとしてしまいます。ところが実学である統計学は数学的に理解するべき部分もあるものの、シミュレーションの結果を受け入れる、といった別の理解の仕方も必要ということに気づきました。ということで1回目の受験の後はRを用いてのシミュレーションに力を入れました。
私の身の上話はこれくらいにして、以下具体的な内容を書きます。守秘義務がありますので、実際受けた試験の具体的な内容については触れることができません。詳細な分析や感想はWBや過去問集で公開されている内容についてのものとご理解ください。
凡例 WB30.2:WB(ワークブック)の例題の問30.2
2015#1:過去問集の2015年第1問
試験概要
CBT形式で、90分で大問20問ほどでした。つまり大問1つにつき、3分の割合です。PBT(紙ベースのテスト)より大問の数は多いです。CBTといっても多肢選択だけでなく、テキストボックスに計算結果の数値をキーボード入力させられる問いもありますのでご注意ください。過去問(公式問題集)を解いていると90分ではとても無理、という感じでしたが、本番のCBTでは時間が足りないということはなく、70分〜75分くらいで1周解き終わりました。
以下、「用いた書籍」と「各分野について」「その他」に分けて、具体的なメッセージを書きます。
用いた書籍
-
統計学実践ワークブック(日本統計学会) 以下、WB
いわゆる公式のテキストです。これを買わない選択肢はないと思います。ただし色々なクセのある本なので以下の特徴を踏まえた上で活用してください。
まず、私の手元にある版を見ると「第1版 第1刷が2020年5月20日」です。下記の公式問題集は2015年〜2021年のPBT(ただし、2020年はコロナの影響で実施なし)の過去問が収められていますが、2019年までの5年分のPBTが終了後にWBが出版されています。WBの例題(章末問題)と公式問題集の過去問はそっくりなものが多いのですが、それは過去問をもとに例題が作られているからだと思います。
本書は20名の錚々たるメンバーで執筆されています。各著者が1つまたは2つの章を担当する形式です。当然著者が変われば雰囲気やトーンも変わりますし、伝わりやすさも変わります。そのため、スラスラと読める章となかなか読みづらい章にはっきりと分かれます。
準1級の試験範囲の各分野はそれ単体で1冊の本ができるようなものです。例えば時系列解析の本や、ベイズ統計の本といった具合です。それを各分野10ページくらいにまとめ、300ページ余りの中に全32章を詰め込んでいるので、そもそも無理があります。ダイジェスト版だと割り切るならば、かなりコンパクトにまとまっていてすばらしい本だといえますが、今から準1級の勉強をしようとしている人にとっては大変難しいものに仕上がっていると感じます。そんな事情なのでちゃんと勉強しようと思えば、各分野に特化した本を併用した方がいい場面も多いです。
ネットで検索してみると「WBと過去問集だけをやりこんで準1級に合格しました!」のような記述が散見されます。過去問を完璧にしておけば合格できるという意見には私も同意します。ただ、それは過去問に対してある意味「過学習」していると言え、せっかくの学習の機会を損失しているように私は感じます。確かに過学習すれば点数は上がります。しかし私は、せっかくベイズ統計だとかMCMCだとか、PCAだとか踏み込んで学んでみると結構面白い分野を学習する機会を得ているのに、過去問だけを過学習するというのはもったいないと思うのです。合格だけが目標ならそのようにしていただければいいと思いますが、私はそのような方法とは距離をとっております。 -
統計学基礎(日本統計学会) 以下、2級テキスト
2級の公式テキストです。例えば母比率の推定(や検定)、母分散の推定(や検定)などについて、本書が詳しいです。準1級対策としても十分有用なテキストです。 -
統計検定準1級公式問題集 以下、公式問題集
本書も買わないという選択肢はないと思います。
2021年は異常に難しいことにご注意ください。この本は3周しましたが、2021年に関しては2周め以降スキップしました。
以下、参考までにとけたろうさんのご意見です。
-
多変量解析入門(永田靖・棟近雅彦)
多変量解析は準1級のメインテーマの1つです。この本では重回帰分析やPCA、因子分析、数量化I類〜III類などが丁寧に説明されており、大変重宝しました。執筆されてから20年以上経つ老舗の教科書ですが、長く使われ続けるということが納得できます。 -
データ解析のための統計モデリング入門(久保拓弥) 以下、緑本
独特な語り口調、独特な構成の本ですが、すばらしい本です。特にAICに関する説明(第4章)は圧巻です。初心者はどうしても(モデルの)サンプルへの当てはまりに目が行きがちですが、それは意味のないことであって、あくまでも母集団の推定をすべきだということが分かりやすく丁寧に説明されています。ぜひ読むべきです。
また、Rを用いて分析されていて、そのコードも隅々まで公開されています。Rの演習という意味でも利用価値のある本です。
さらに、著者本人による解説動画もありますので、併せてご覧ください。
-
道具としてのベイズ統計(涌井良幸)
ベイズ統計の基礎からMCMCまでわかりやすく丁寧に解説された良書です。著者の涌井さんは元々高校の先生であるためか、学者さんが書く本に比べ言葉が平易でわかりやすいと思います。惜しむらくは、シミュレーションにExcelを利用していることです。PythonかRでシミュレーションしているものがあればなぁ...というのが個人的な感想です。 -
時系列データ分析(横内大介・青木義充)
著者の一人は(株)QUICKの社員(つまり現場の人)であり、実践的でわかりやすい内容となっています。主に株価の分析を題材に時系列解析を解説されています。著者によれば$MA(q)$モデルは実践ではあまり使われないとのことで、$MA(q)$には触れられていません。その意味では準1級対策としてはやや方向性の違うところがありますが、平易な解説のため時系列解析のイメージが掴みやすく、読んでよかったと思っています。 -
統計的方法のしくみ(永田靖)
「多変量解析入門」の著者の一人永田先生が書かれた著書です。教科書というより、統計を学ぶ上で間違えやすいところを集めたエッセイ集みたいな雰囲気の本です。とくに自由度に関してまとまった記述があり、重宝しました。 -
ゼロからできるMCMC(花田政範・松浦壮)
物理系のお二人が書かれたMCMCの解説書です。WBではMCMCといえばMH法とギブズサンプリングの2択となっていますが、本書ではMH法の元になっているメトロポリス法が詳しく解説されています。もちろん後の章でMH法も解説されています。詳細釣り合い条件の意味が詳しく解説されかなり重宝しました。2018#13(2)のような問いは、この本を読んでおけばかなり容易に見えます。
おすすめwebサイト
-
データサイエンスラボ
本来QC検定対策として解説されているYouTubeチャンネルと思いますが、統計検定とも共通する部分が大きく、非常に参考になります。隅々まで何度も見ました。限られた尺のなかで、解き方・方法だけを述べるのではなく、結構グサリと本質的な内容を挟み込んできますので、深く理解できます。 -
あつまれ統計の森
準1級を含め、統計検定の過去問や公式テキストの問題の解説などが満載です。
WBの例題や公式問題集の解説に納得がいかないとき、ここを見れば別角度の解説を見つけられることがあります。
各分野について
-
確率分布
指数分布やガンマ分布には確率密度関数の定義の仕方が複数あり、注意が必要です。パラメータの取り方によって期待値の表記も違ってきますのでご注意ください。
2変量正規分布は、出題者(チーム)の大好きな分布です。WB p43〜44をしっかりと読んでおくべきです。特にWB p44に書かれた$X_1$が与えられたときの$X_2$の条件付き分布の期待値と分散を表す公式は覚えておくべきです。 -
マルコフ連鎖
よく出題される印象があります。WBの解説が明快ですし、WB14章を例題も含めてきちんと理解しておけば大丈夫と思います。
注意点として、この分野では状態確率ベクトルって行ベクトル(横ベクトル)で表すのですね。だから固有値を求めるときも通常の右固有値ではなく、左固有値を求めなければなりません(WB14.1など)。 -
回帰診断法
ちょっと勉強しにくい分野です。WB17章の例1に登場する4つの診断結果(Rの出力)ですが、右の2つは読みやすいとして、左の2つを読み解くのに苦労しました。
DW比は頻出です。WB p143に的確なまとめがあります。あと、WB p253にはいろいろ難しいことが書いてありますが$DW=2(1-\hat{\gamma}_1)$を覚えておけばなんとかなります。 -
トービットモデル
最も理解に苦しんだ項目の一つですが、過去問でもあまり見ないので軽く扱ってしまいました(反省)。
WB19章に関してはトービットモデルの他に生存関数が論じられていますが、これに関しては頻出です。$S(x):=1-F(x)$ ですから、後は微積分(高校数学IIIレベル)を駆使して計算できるようになっておいてください。(2016#8, WB19.2ができればOK) -
重回帰分析
WB16章に相当するのですが、この章が結構難解です。そのため、主に多変量解析入門(永田靖・棟近雅彦)を用いて勉強しました。
決定係数と自由度調整済み決定係数の関係を知っておく必要があります。
$1-R^{*2}=(1-R^2)\times \frac{n-1}{n-d-1}\hspace{5mm}(n: サンプル数,d:説明変数数)$
つまり、$R^2$に比べ$R^{*2}$は小さくなります。 -
分散分析
分散分析表を書かされることはまずないとはいえ、書き慣れていないとできない問いはあります。
交互作用、ブロック因子(乱塊法)も理解しておきましょう。
データサイエンスラボの再生リスト「実験計画法」に分散分析に関する動画がいくつかあり、非常によいです。ぜひ参考にしてください。下記は一例です。
-
PCA(主成分分析)
主成分、寄与率、固有ベクトル、主成分負荷量、主成分得点...とたくさんの用語が出てくるのですが、頭の中を整理するためにこれらを個別値と集約値(名称は私が定義した)に分けて捉えることにしました。
WB p194の例1を使って説明します。ここではNo.1〜No.6の6人の生徒が登場しますが、個々の生徒に固有のデータを個別値、複数人のデータを集約したデータを集約値といいます。
たとえば、No.1の国語は2点、No.3の数学は3点と言ったデータは個別値です。一方で標本分散共分散行列$S$や標本相関行列$R$は個々の生徒に依存するデータではないので集約値です。そうやってみると、個別値は元のデータ(表22.1)と主成分得点の2つのみになります。
一方、主成分(固有値)や固有ベクトル、寄与率、主成分負荷量などはすべて集約値ということになります。
過去問で言うと、2019#6の表に書かれたデータはすべて集約値です。それに対して同問の(3)で言及されている主成分スコアは個別値です。集約値だけを見ていても個別値は絶対に算出できませんので、一線を引いて考えるべきです。 -
判別分析
線形判別分析のみならずSVMもよく出題される印象があります。2016#14を参考に両者の特徴の違いを理解しておくとよいでしょう。SVMについてはWBでの扱いが軽いですが、思いのほか問われる印象があります。私は個人的には先にE資格を取っているのでSVMについて勉強した経験があり、助かりました。 -
因子分析
因子分析と言えば、回転。直交回転(バリマックス回転)と斜交回転(プロマックス回転)があります。
2018#11でバリマックス回転の特徴が問題にされています。
プロマックス回転については情報が少ないですが、下記の動画(AIciaさん)が参考になるかもしれません。
- 時系列解析
これも苦労しました。2018#12のような易しい問題もあれば、2017#8のように少し踏み込んだものまで、結構出題されます。本稿で挙げた文献(時系列データ分析)は準1級対策としてはやや方向性の違いがありますが、参考になった気がします。
WB27.1のようにグラフからパラメータ$\phi$の値を推測する、といった問題は頻出です。この手の問題は本を眺めているだけではなかなか難しいでしょう。自分でプログラムを書いて$\phi$の値を少しずつ変えながら出来上がったグラフを眺める経験を積んでみるとなんとなくわかるようになってきます。
ポイントになる概念は「定常」です。下記へちやぼらけさんの動画でも説明されていますが、時系列解析というのは、時刻$t$を1つ固定したときに1つの分布が対応する形で書かれます。つまり$t_1\not=t_2$のとき$t_1$の分布と$t_2$の分布は別物です。しかし、もし定常が保証されていれば、$t_1$と$t_2$が近いとき$t_1$の分布と$t_2$の分布が近いものになります。私は数学で言う「連続関数」に似た概念と捉えています。定常でなければ、時刻が少しでも変わると分布が大きく変わる可能性があり、不安定で使い物にならないでしょう。$AR(1)$過程では$|\phi_1|<1$のとき共分散定常になります。$\phi_1>1$としてシミュレーションしてみれば、発散する様子が確認できるでしょう。
へちやぼらけさんの下記の解説は非常によくできています。続編が待たれます。
-
クラスター分析
デンドログラムが読めるということは必須ですが、加えてウォード法の定義をしっかり覚えておきましょう(2018#7)。最近隣法、最遠隣法に比べて、ウォード法は意識して覚えておかないと分かりにくいと思います。
また、$k-$meansもよく見る印象があります(2017#13)。きっと問題が作りやすいんでしょうね。 -
標本調査
ネイマン配分法を知っておく必要があります(2016#3)。これもきっと問題が作りやすいのでしょう。 -
分割表
オッズ比がよく狙われます。(2019#5, 2015#12など)「前向き研究と後ろ向き研究」の話とあわせてなぜオッズ比が重要なのかをしっかり理解しておくべきです。WBに明快に書かれています。またWBの(28.8)式は覚えておくことをお勧めします。 -
モデル選択
AICを参照して適切なモデルを選ぶだけ(WB16.2など)なら容易ですが、自身で計算できるようになっておきましょう(WB30.2)。WBではBICについての記述が少ないですが、AICとBICの違い、BICの方が何が優れているのか、などは把握しておくべきです。 -
不完全データの統計処理
WB29.1や2015#6のような問いに対処できる必要があります。私がシミュレーションを繰り返して得た結論は
● 分布の端をカットする→$r$(標本相関係数)は$\rho$(母相関係数)を過小評価する
● 分布の端をカットし、回帰値で補填する→$r$は$\rho$を過大評価する
です。 -
ベイズ法
2018#1のような周辺分布の計算、2015#13のようなベータ分布のモードを用いたMAP推定は必須です。しっかり理解しておきましょう。
ベイズ推定やMAP推定が簡単な計算で算出できる(WB31章 例2など)のは、ベータ分布の期待値やモードがわかっているから、です。つまりこれらの値を公式として覚えておかないと時間内に解答できないということになります。
資料アップロード
以上、かなり各分野について具体的に書きましたが、書ききれなかったこともあります。試験直前に確認すべき重要項目をまとめたものを作成しましたのでよろしければご活用ください。上記の内容と重複する部分が多いですが、ここに書ききれなかったことも含まれます。
その他
数学に不安をお持ちの方もおられると思います。基本的に要求される数学力は高校レベルです。数学IIIで習う程度の微分・積分の計算力は要求されます。
それに加え、行列の積の計算と、$3\times 3$行列の固有値を求める計算力も要求されます。
「実対称行列の固有値は非負の実数」という定理も知っておくべきですが、それ以上の数学力を求められることはないようです。
最後に
統計学は実学です。使えてなんぼです。理論を学ぶだけでなく、ぜひRなどで自ら分析し、またはシミュレーションしながら学んでください。
ひとりごと
下記もその1例ですが、学び始めるのに年齢は関係ないとよく言われます。私は今40代後半なのですが、この歳になって思うことを書いておきます。
年齢なんて関係ない、というのはきれいなコトバですが、実際はやはりきついです。若いころは集中して何時間も机に向かい続けることができましたが、私の場合、今は目・肩・腰・首に疲労が溜まりやすく、あえて短時間(1時間未満)で切って休憩を挟むようにしています。そうしないとその後体の痛みで勉強できないだけでなく本業の仕事にも影響が出るからです。そんな意味で「若い頃と同じ」ではありえません。記憶力も落ちています。その一方、20年以上社会人をしてきたことで、学生の頃に比べ知識が増え、視野が広がり、いろんなことがはるかに俯瞰的に見えるようになったと実感しています。つまり年を重ねることにはマイナスの側面がある一方、プラスの側面も存在し、全体でプラスマイナス・ゼロ、だから年齢は関係ないのだというのが私の所感です。今後50代・60代とさらに年齢を重ねると体にどのような変化が現れるのかは分かりませんが、新しい世界を知るというのはとてつもなく楽しいことでありますので、更なる探検を目指していきたいと思っています。