はじめに
2019年11月24日の統計検定2級を受けてきました。
復習を兼ねてちょっとレポート。
当日までの過ごし方
- 理系(情報系)出身で、大学の学部講義の共通科目で統計学を履修している。
- 専門科目や大学院の講義は難しくて
&担当教員の話が聞きづらくて定期試験が終わった瞬間に内容が頭から消えている。 - この消えた内容を取り戻せれば上の級が狙えるのかもしれないが、まずは履歴書に堂々と書けそうな最低ラインと思われる2級から。
- 専門科目や大学院の講義は難しくて
- 最初に統計検定に興味を持ったときに、2級の当時の最新問題(2018年11月)を公式サイトからダウンロードしてやってみた。
- ノー勉で6割(合格ラインあるかないか)くらいの出来だったので復習すれば大丈夫と確信した。
- 大学で講義の担当教員に指定されて使っていた教科書 統計学入門 (基礎統計学Ⅰ) | 東京大学教養学部統計学教室 をとりあえず発掘した。
- 2級を取ろうと9月に決めて、増税前に 日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年] を買った。
- 10月から教科書の5章~12章あたりを読んで章末の演習問題をぼちぼちやってみた。(明らかに2級で出ないと思われる内容はスキップ)
- 11月中旬に入ってから公式問題集に手を付ける。問題を解いていて初めて聞いた単語などは後で統計WEBとかで調べた。体調不良もあり4回分しかできず。
- 前日11月23日は特に何もせず。翌日のために寝ることを優先。
- 当日試験会場にも参考書やノートは持参せず。(直前にちょっと見たところで変わらないと思ったので)
- 試験の後は駅前でまぜそば食べて帰った。
各問題の印象
2019年11月の検定問題から。執筆時点(11月26日)では解答のみが掲載されています。
受験データ 2019年11月24日試験|統計検定:Japan Statistical Society Certificate
基本的な問題も多いのですが、毎回一部難しい問題が出るので、歯が立たない問題がいくつかあっても泣かなくていいらしいです。
統計検定2級に楽に合格する方法 - Qiita
統計検定2級の合格点は6割といわれています(公式ページでは7割)。
簡単そうに思われますが出題の2割くらいは相当実力が無いと解けない難問です。これには統計検定に上位合格者を表彰する制度があり、なんとしても受験者に得点差をつける必要があるという理由によるものと思われます。一般の受験者には迷惑な話ですが、そのかわり残りの8割については基本さえ出来ていれば解ける問題となっています。
気になった問題
- 出てくる統計データ、50歳時未婚率とかいかにも現代っぽいネタだと思うけど闇が深いですね。(問2)
- 同じく世帯の年間所得金額なんてのも闇が深い。中央値の半分に満たない所得の世帯は何%か、ですってよ…。(問14)
- ガッツリ一元配置分散分析出すんですね。(問17)
- Rの出力結果が2つ出てくるとは。(問18)
- 用語の意味を問う(だけの)問題が若干多めで萎える。(問4, 6, 11, 12あたり)
問1
例年問1でよく出るやつ。サクッと倒しましょう(類題:ほぼ毎回の問1)。
問2
〔2〕の散布図から選ぶ問題で、2005年の相関係数を0.22と0.40から選ばされるのはちょっと厳しくないですか…?0.3と0.8とかならわかるんですけど(類題:2016年11月 問4)。
…と思ったのですが、公式発表された正解を見ると1990年の相関係数は0.71であるらしい。0.71もあるように見えないのですが、外れ値が寄与しているのでしょうか。
外れ値と相関係数 | ブログ | 統計WEB
問3
一度に計算しようとすると間違えそうだったので、とりあえず平成31年1月の賃金指数を$X$などの文字でおいて変化率を$X$を用いて表し、あとから$X$の式を代入しました。平均変化率の計算式は過去問でたまに出てますね。(類題:2018年6月 問4)
問4
時系列データの変動について。過去問3年分の範囲でカバーできてなかったので勘でした。
マーケティングがわかる事典 オンライン版 | 日本リサーチセンター
問5
個人的にはコレログラム苦手なんですよね。
とりあえず12で正の相関があるものを残しつつ、1でいきなり負の相関になるということもないという考え方で1つに絞りました。それで合っていたみたいです。
32-4. 自己相関 | 統計学の時間 | 統計WEB
問6
抽出法の用語定義は2回に1回ぐらい聞かれている印象です。正直丸暗記になってしまうのですが、単純無作為抽出法の他に4つだけ覚えれば済むので…。
16-3. 標本の抽出方法 | 統計学の時間 | 統計WEB
問7
「標準誤差」という言葉を聞くと焦ってしまうのですが、
標準誤差は、一般的に「標本平均の標準偏差」を意味します。
18-5. 標準偏差と標準誤差 | 統計学の時間 | 統計WEB
ということで、あまり深く考えずに「標準偏差」に脳内変換しています。過去問やっててよく分からなくなり間違えたのでその反省として。(類題:2017年6月 問12)
$n$個の標本平均を取ると分散が元の$1/n$になることを押さえつつ、標準偏差(標準誤差)なので平方根をとるのを忘れなければOK。
問8
頻出の条件付き確率とベイズの定理を使う問題。落ち着いて計算すればいけるはず。(類題:2016年11月 問7)
10-6. ベイズの定理の使い方 | 統計学の時間 | 統計WEB
問9
確率密度関数のグラフが直線なので、積分計算しなくても図を描けば三角形の面積計算で定数$a$の値は出せますね。
〔2〕は観念して積分しました。
〔3〕は料金階級ごとの確率を面積計算で出すことができます。間違いそうな積分計算をしないに越したことはありません。
問10
普段は順番に問1から解いていくのですが、1周目でこの問は飛ばしました。最後までやって20分余ったので戻って処理。
〔1〕〔2〕は落ち着いて考えます。$F_Z(100) = 0.96$(つまり $P(Z\leq 100)=0.96$)なので、それより上の部分、0.04の確率で$X=0$となります。よって$X$の分布関数は$Z$より0.04ずれるわけです。$X$の下側95%点を$x$とすると、$F_X(x)=0.95$ですから、$F_Z(x)=F_X(x)-0.04=0.91$、すなわち$x=5$ですね。
〔3〕は$X$の期待値の式を定義通りに書いたあと、これを$Z$にまつわる要素で表さないといけないのですが、(累積)分布関数を$x$で微分すると確率密度関数が出てくるので、〔1〕の結果の両辺を$x$で微分して$f_X(x) = f_Z(x)$となることを利用しました。
($z=0$で定義されているのかどうかよく分からない$f_Z(z)$や$F_Z(z)$が含まれる式を、[0, 100]で積分する式になるのがちょっと気持ち悪い…。(5つの選択肢が全部そうなってる))
問11
歪度の定義が問われるとは思わなかった…。
ただし式を覚えていなくても「確率変数に定数を加えて新しい確率変数を作れば、平均は正にも負にも自由に動かせるけど、歪度は変わらない(ゆえに、平均の正負で歪度の正負は決まらない)」「右裾が長いときに歪度は正」くらいが頭に入っていればいけます。
歪度,尖度の定義と意味 | 高校数学の美しい物語
問12
一致推定量が分からなくて勘で書いたので間違えてます。実は公式問題集(2016~2018年)で唯一解いてなかった2016年6月の問題で「一致推定量」が出ていたのを知り、ちょっとショック。(類題:2016年6月 問10)
18-3. 推定量の性質 | 統計学の時間 | 統計WEB
問13
これも過去問でよく出るパターンの気がしますね。(類題:2018年11月 問12、2018年6月 問11など)
二項分布の分散が$np(1-p)$であるところから、得票率の分散は$p(1-p)/n$になり、さらに得票率を正規分布だと思って標準化→標準正規分布表から数字を持ってきます。
私自身は二項分布の分散をあまり覚えていなくて、ベルヌーイ分布(二項分布で$n=1$の場合)の分散$p(1-p)$をその場で導出して使うことも多いです。
問14
日本の闇。
〔2〕もとの分布が正規分布でなかったとしても、サンプルを増やせば、標本平均の分布は正規分布に近づくのですよね(中心極限定理)。
17-4. 中心極限定理2 | 統計学の時間 | 統計WEB
問15
問13に続いて二項分布の正規近似が登場しました。
サンプル数を$n$、支持率を$p$とすると、$\bar{X}$の95%信頼区間の幅は $2\times 1.96 \times \sqrt{p(1-p)/n}$(2倍するのを忘れそうになりました)で、ルートの中身が最大になるのは$p=0.5$のときなので、〔1〕は$p=0.5$の場合を考えて答えればOK。〔2〕は$p=0.8$で考えます。〔1〕より〔2〕のほうが必要な人数が少なくて済みます。
「支持率の区間推定」は↓の記事などで取り上げられています。
世論調査の内閣支持率を統計学的に解釈すると…? | Future Tech Blog - フューチャーアーキテクト
問16
問題のスタイルは2016年11月 問14に似ています。
「前-後」の値が十分大きいプラスの値だったらダイエット効果があるということなので、片側検定として対立仮説は$H_1: \mu>0$として、右側にだけ棄却域を取ります。
24-2. 母平均の検定(片側t検定) | 統計学の時間 | 統計WEB
問17
一元配置分散分析はちょくちょく出ているのですが、難問枠かもしれません。(類題:2018年6月 問12、2017年11月 問16、2017年6月 問14)
かくいう私も過去問に手をつけるまで一元配置分散分析はノーマークだった(大学の講義でも習った覚えがなかった→大学時代のノートを見たらしっかりやってました(汗))ので、慌てて勉強した分野です。
29-1. 分散分析とは | 統計学の時間 | 統計WEB
〔2〕(ア)は10だったか11だったか?とちょっと考えました(縦12、横11で、どちらから1を引いたらよかったか?)。本当は「水準(1月とか2月とか)の数 - 1」なので11が正解。しかし、2つの自由度(ア)(イ)の和は「データ数-1 = 131」になるはずのところ、それを満たす選択肢が1個しかありませんので、それを選べばOKです。
自由度の値を入れたあと、F-値を実際に計算してみて、計算済みの値「3.0471」が正しいことまで試験時間中に確認してみました。ここまでやればさすがに安心できます。
$ \frac{317441/11}{1136491/120} = 3.047092\cdots$
問18
〔1〕だけならいつものパターンなのですが、〔2〕で驚きました。回帰分析まともに押さえてなくて間違えました…。
最後に
自己採点の結果32/35だったので合格してるはずです。S評価が取れたらいいな。
(2019/12/19) Web合格発表にて無事合格を確認しました!しかもSを頂きました^^