はじめに
この記事はQualiArts Advent Calendar 2021の24日目の記事になります。
統計初心者が「統計検定」に向けて勉強をし、3級ではあるものの最優秀成績賞をいただけましたので、どういう勉強をしたかなどを紹介していきます。
これから統計学の勉強をしたいなと思っている方の参考に少しでもなれば幸いです。
時間がない方向けの概要
自分の勉強方法は同じ参考書を繰り返し読んでいく中で知識を深めていく勉強法です。
最初はざっくり全体像を把握し、繰り返し参考書を読んでいく中で、式の理解を深めたり、様々な概念同士の繋がりを認識したりして頭に刻み込んでいくイメージです。
本稿では統計検定に向けて実際にどういう方法で勉強をしたのかを細かく振り返りつつ紹介していきます。
統計学の話というより勉強法の話がメインです。
万人に合う方法かは分からないですが、個人的には統計検定以外でも(少なくとも理系科目では)使える勉強法だと思っています。
勉強の動機
弊社の所属部署で「分析周りを組織的に強化していきたい」という話が出ました。
ただ、何も分からないことにはどう強化すれば良いかも分からないので、最低限の知識を付けようと思い、統計学の勉強をすることにしました。
そして資格などを目標に据えて勉強する方がやりやすいかなと思って調べたところ「統計検定」という検定があったので、それを目標としました。
統計検定とは
「統計検定」とは、日本統計学会が2011年に始めた統計に関する知識や活用力を評価する全国統一試験です。
2021年12月の時点では全部で10種類の試験が存在しています。1
試験の種別 試験内容 統計検定 1級 実社会の様々な分野でのデータ解析を遂行する統計専門力 統計検定 準1級 統計学の活用力 ─ 実社会の課題に対する適切な手法の活用力 統計検定 2級 大学基礎統計学の知識と問題解決力 統計検定 3級 データの分析において重要な概念を身に付け、身近な問題に活かす力 統計検定 4級 データや表・グラフ、確率に関する基本的な知識と具体的な文脈の中での活用力 統計検定 統計調査士 統計に関する基本的知識と利活用 統計検定 専門統計調査士 調査全般に関わる高度な専門的知識と利活用手法 統計検定 データサイエンス基礎
(DS基礎)(CBT)具体的なデータセットをコンピュータ上に提示して、目的に応じて、解析手法を選択し、表計算ソフトExcelによるデータの前処理から解析の実践、出力から必要な情報を適切に読み取る一連の能力 統計検定 データサイエンス発展
(DS発展)(CBT)数理・データサイエンス教育強化拠点コンソーシアムのリテラシーレベルのモデルカリキュラムに準拠した内容 統計検定 データサイエンスエキスパート
(DSエキスパート)(CBT)数理・データサイエンス教育強化拠点コンソーシアムの応用基礎レベルのモデルカリキュラムを含む内容
1級以外の試験は、紙媒体で実施する会場試験を終了して全てCBT方式(コンピュータを使った試験方式)に移行するようです。2
2級までは100点満点中70点がだいたいの合格ラインで、出題形式はマークシート方式です。
ちなみに統計検定は電卓の持ち込みが可能です。
今回自分は1級〜4級の種類の統計検定を目標に据えました。
統計検定4級
4級はレベル感で言うと「中学卒業程度」なようです。
ゼロから勉強を行なっていこうと思ったので、4級から勉強することにしました。
4級の試験範囲は次の通りです。3
データと表やグラフ、確率に関する基本的な知識と具体的な文脈の中で求められる統計活用力を評価し、認証するために検定を行います。
(1) 基本的な用語や概念の定義を問う問題(統計リテラシー)
(2) 用語の基礎的な解釈や2つ以上の用語や概念の関連性を問う問題(統計的推論)
(3) 具体的な文脈に基づいて統計の活用を問う問題(統計的思考)
を出題します。【具体的な内容】
統計検定4級では、以下の内容を含みます。
- 統計的問題解決の方法
- データの収集(データの種類、標本調査)
- 統計グラフ(基本的なグラフ[棒グラフ・折れ線グラフ・円グラフなど]の見方・読み方)
- データの集計(度数分布表、ヒストグラム[柱状グラフ])
- データの代表値(平均値・中央値・最頻値)
- 分布の散らばりの尺度とグラフ表現(範囲、箱ひげ図)
- クロス集計表(2 次元の度数分布表、行比率、列比率)
- 時系列データの基本的な見方(指数・増減率)
- 確率の基礎(確率、樹形図)
統計検定4級に向けた勉強
統計検定には公式の教科書と問題集が存在します。
軽ーくネットで調べたところ「3級までは公式の教科書と問題集だけでOK」という情報が多かったので、自分もその2冊をメインに勉強することにしました。
・改訂版 日本統計学会公式認定 統計検定4級対応 データの活用
・日本統計学会公式認定 統計検定 3級・4級 公式問題集[2018〜2021年] 4
教科書1周目:全体像を把握する
まずは教科書を1周流し読みして全体像を把握します。
詳細を理解しようとするのではなく、教科書全体の流れをサラッとなぞる程度の軽い読み方をします。
内容を覚えようともせず、数式を細かく見ることもせずに「へー、そうなんだー」レベルで読み流してしまって大丈夫です。
途中に挟まっている問題も解かないで、さっさと読み終えることを優先します。
全体の流れを掴みたいので、日数をかけずに一気に読んでしまった方が良いです。
対象が中学生ということもあり、文字も大きくて絵も多くて分かりやすくて、数時間で読み終わりました。
教科書2周目:「要素の立ち位置」と「内容の繋がり」を把握する
2周目もサラッと読んでいきます。
1周目で全体像をざっくり把握しているので、今読んでいる箇所が全体の中でどういう立ち位置なのかが見えてくると思います。
なので1つ1つの「要素の立ち位置」や「内容の繋がり」を意識しながら読みます。
ただ、2周目でいきなり全ての立ち位置や繋がりが分かるものでもないです。
分かる範囲で大丈夫ですし、意識しすぎなくても大丈夫です。
読む回数が増えるたびに自然と分かる範囲が増え、繋がりも見えてきます。
また、2周目では数式の理解と途中に挟まっている問題を解くことも行いました。
そして、このタイミングでも暗記は意識しませんでした。
覚えるというより、立ち位置や内容の繋がりを自分の頭で考えることを意識していました。
「立ち位置」と「内容の繋がり」
「立ち位置」や「内容の繋がり」がそもそも何なのかという疑問があると思うので補足です。
たとえば「平均値」「中央値」「最頻値」を学ぶ際に、単純に定義だけを覚えるのではなく、データは「質的データ」と「量>的データ」の2種類に分けられて、そのうちの「量的データ」の分布を見る際に、分布の中央の位置を把握するための3つの手法として「平均値」「中央値」「最頻値」が存在していて、それぞれの定義は・・・・・。
のように「全体の中でどういう立ち位置なのか」や「他の内容とどう繋がっているのか」などを意識できると理解度がグッと上がると思います。
教科書3周目:「何故?」を考える
3周目では読みながらひたすら「何故?」を突き詰めていきます。
書いてある文章だけを鵜呑みにせずに、読み進めながらひたすら「何故?」という疑問を持ちつつ、腹落ちするまでそこの疑問を考えていきます。
たとえば2周目の時に挙げた例に関連した疑問は次のようになります。
- 「質的データ」と「量的データ」でデータを2種類に分けているのは何故?
- 「平均値」「中央値」「最頻値」が「量的データ」に対して使われるのは何故?
- 「平均値」「中央値」「最頻値」が「質的データ」に対して使われないのは何故?
- 「平均値」「中央値」「最頻値」で分布の中央の位置を把握する方法が3つあるのは何故?
ひたすら疑問を突き詰めていくことで、1つ1つの要素の理解が「教科書に書いてある文章」から「腹落ちするために考えた自分の言葉」に変わっていきます。
これが進むと1つ1つの要素を自分の言葉で人に教えられるようになります。
人に教えられるようにまでなると、理解度は一気に高まります。
2周目で解いたばかりだったので、3周目では間に挟まっている問題は解きませんでした。
問題集で過去問(2017年6月)を解く
そろそろ問題の出方を把握した上で教科書を読むのが良いと思い、過去問を1回分解きました。
思った以上にサクッと解けてしまったので、流石に4級の試験を受けるのは時間が勿体ないと思い、最初から3級の試験を受けることにしました。
4級の用語などはまだ覚えていないのですが、範囲も被ってるので3級の勉強をする中で覚えようということで4級の勉強は終了です。
本当はこの後に自分だったら更にこういう読み方をして勉強していくなどがあるのですが、それは3級の勉強法を紹介する中で触れていきます。
統計検定3級
3級はレベル感で言うと「高校卒業程度」なようです。
3級の試験範囲は次の通りです。5
大学基礎統計学の知識として求められる統計活用力を評価し、認証するために検定を行います。
(1) 基本的な用語や概念の定義を問う問題(統計リテラシー)
(2) 不確実な事象の理解、2つ以上の用語や概念の関連性を問う問題(統計的推論)
(3) 具体的な文脈に基づいて統計の活用を問う問題(統計的思考)
を出題します。【具体的な内容】
統計検定3級では、統計検定4級の内容に加え、以下の内容を含みます。
- データの種類(量的変数、質的変数、名義尺度、順序尺度、間隔尺度、比例尺度)
- 標本調査と実験(母集団と標本、実験の基本的な考え方、国勢調査)
- 統計グラフとデータの集計(1変数データ、2変数データ)
- 時系列データ(時系列グラフ、指数(指標)、移動平均)
- データの散らばりの指標(四分位数、四分位範囲、分散、標準偏差、変動係数)
- データの散らばりのグラフ表現(箱ひげ図、はずれ値)
- 相関と回帰(散布図、擬相関、相関係数、相関と因果、回帰直線)
- 確率(独立な試行、条件付き確率)
- 確率分布(確率変数の平均・分散、二項分布、正規分布、二項分布の正規近似)
- 統計的な推測(母平均・母比率の標本分布、区間推定、仮説検定)
ちなみに微積分は範囲外です。
統計検定3級に向けた勉強
4級に引き続き公式の教科書と問題種をメインに勉強していきます。
問題集は3級と4級が合わさって1冊になっていたお陰で無駄にならなくて良かったです。
・改訂版 日本統計学会公式認定 統計検定3級対応 データの分析
・日本統計学会公式認定 統計検定 3級・4級 公式問題集[2018〜2021年] 4
教科書1周目:全体像を把握する
4級の時と同様です。
まずは3級の教科書を1周流し読みして全体像を把握します。
1周目では全体の流れを掴みたいので、日数をかけずに一気に読んでしまった方が良いのですが、自分は集中力が続かずに2日かかってしまいました。
ちなみに自分はこの直前に4級の教科書をサラッともう一度だけ読みました。
4級と3級で被っている箇所が多かったので、4級の勉強をしていたことで3級の教科書はかなり読みやすく感じました。
自信があまり無い方は4級からやっていく方が、いきなり3級を勉強して難しくて挫折するとかにならなくて良いかなと思います。
また、このタイミングでは4級の教科書は30分ちょいで読めるようになっていました。
教科書2周目:「要素の立ち位置」と「内容の繋がり」を把握する
2周目も4級の時と同様です。
1つ1つの要素の立ち位置や内容の繋がりを意識しながら読みます。
2周目でいきなり全ての立ち位置や繋がりが分かるものでもないです。
分かる範囲で大丈夫ですし、意識しすぎなくても大丈夫です。
読む回数が増えるたびに自然と分かる範囲が増え、繋がりも見えてきます。
また、2周目では数式の理解と途中に挟まっている問題を解くことも行いました。
3級は4級よりも数式が複雑なものも多いので、数式の理解と同時に、必要に応じて数式の導出も行いました。
教科書3周目:「何故?」を考える
3周目では読みながらひたすら「何故?」を突き詰めていきます。
書いてある文章だけを鵜呑みにせずに、読み進めながらひたすら「何故?」という疑問を持ちつつ、腹落ちするまでそこの疑問を考えていきます。
4級の時と同様にひたすら疑問を突き詰めていくことで、1つ1つの要素の理解が「教科書に書いてある文章」から「腹落ちするために考えた自分の言葉」に変わっていきます。
これが進むと1つ1つの要素を自分の言葉で人に教えられるようになります。
問題集で過去問(2017年6月)を解く
ここからは問題の出方も把握した上で教科書を読もうと思い、過去問を1回分解きました。
この時点でも70点の合格ラインは取れるなという感じではあったのですが、目的は統計学をしっかり理解することだったので勉強を続けることにしました。
教科書4周目:「どう使われるの?」を考える
3周目では「何故?」を考えながら読みましたが、4周目では「どう使われるの?」を考えながら読み進めます。
「何故?」は定義を噛み砕いたりと内向きに深掘りしていくイメージだったのですが、「どう使われるの?」は外からどう参照されるのかという感じで外向きに視点を広げていくイメージです。
たとえば「標準偏差」が「どう使われるの?」ということを考えると、1つの使われ方としては「分布の散らばりの比較」があります。
その際に測定単位の異なる変数に関してそのままの比較は行えないので「変数の標準化」を行う必要があります。
という「どう使われるの?」という思考からは「標準偏差」から「変数の標準化」に視点を広げていくことができます。
逆に「変数の標準化」が「何故」必要なのかということを考えると、標準化を行わないと「標準偏差」を用いた「分布の散らばりの比較」が行えないからです。
という「何故?」という思考からは「変数の標準化」を深掘りして「標準偏差」に辿りつきます。
なので、「どう使われるの?」という視点を入れることで、「何故?」という視点だと一方通行だった繋がりを両方向に繋げることができるようになり、より頭の中で概念同士が強く結びつくようになります。
教科書5周目〜:スムーズに読めるようになるまで読み続ける
5周目からはひたすら自分の言葉に置き換えつつ「何故?」や「どう使われるの?」も意識しながら読み続けます。
読む回数が増すに連れて、次のようなことができるようになっていくはずです。
- ページを見ただけで読む必要のない部分が分かって飛ばし読みができる
- その章や節の内容を自分の頭の中でまとめてイメージできる
- そもそも文章を読まずとも頭の中で自分の言葉に置き換えて説明できる
- 書いてあることの行間に自分の言葉で補足説明を入れられる
- 細かな内容や式から「何故?」という深掘りができて根本の部分を自分の言葉で説明できる
- 細かな内容や式から連想ゲーム的にいろんな項目に思考を巡らせることができる
さらに、読めば読むほどスムーズに読めるようになって読む速度も上がってきます。
そして、そんな中でも読んでて詰まる箇所や時間が掛かる箇所があったら、そこが自分の理解がまだ浅い箇所です。
そのポイントを追加で重点的に深掘りしていって、あらためて自分の言葉で説明できるようにし、スムーズに読める状態まで持っていければ、自然と理解が浅い箇所は無くなっていきます。
また、暗記はそこまで意識しないでやってきましたが、ここまで何回も読むと結構な内容は頭に入っていると思います。
特に自分の言葉で説明できているものに関しては、表面だけでなく根本の部分から頭に入っていると思います。
特殊な用語など、そんな中でも覚え切れていないものだけ、意識して暗記すると良いです。
自分は結果的に1周を1時間ちょいで読めるようになり、通勤時間などの隙間時間を使っても十分読み進めていけるようになりました。
隙間時間を使って1日2日で1周読んで、数日置いて、また隙間時間を使って1日2日で1周読んで、というのを繰り返して、最終的には書籍を10周ほど読んだと思います。
問題集:残りの過去問(2017年11月〜2019年11月)を解く
残りの5回分の過去問を解きました。
3回分は教科書5周目以降を読んでいるのと並行して、気が向いたタイミングで解きました。
2回分は試験前日に解きました。
問題集をやる際は、選択肢で正解を選んで終わりではなく、他の選択肢が何故間違いだったのかまで理解するのがオススメです。
用語選択だったら他の選択肢の用語はどういう定義の用語だから違うのか、文章選択だったら文章のどの部分が間違っているのか、どう直せば正解になるのか、などを意識すると良いです。
そうすることで問題1個に対して正解の選択肢1つだけでなく、不正解の選択肢3つに関しても学習ができるので、より効率的に学習ができます。
また、選択肢が間違ってる理由まで言えるようになってると選択肢問題で迷いづらくなります。
確率がちょっと不安
ここまでやっておけば良いだろうと思ったのですが、確率周りの問題でしょうもないミスをするのが怖かったので数Aの問題集を買いました。
(この辺りから「満点を狙いにいくぞ」という思考になっています、正直ここまでやらなくて良いと思います)
・数学I・A入門問題精講 新装版
・数学I・A基礎問題精講 五訂版
当初の目的の「場合の数」と「確率」の章を解きました。
最近の高校生は「データの分析」という項目でそもそも統計の基礎をやっているんですね。
せっかくなので「データの分析」の章も解きました。
何周も解いて身体に染み込ませても良かったのですが、そこまではやりませんでした。
浮気
1つの書籍をずっとやり続けていたのですが、最後に不安になって1冊だけ浮気をしました。
ただ既に教科書の方をガッツリ読み込んでいたので、範囲外の部分は飛ばしつつ、特に詰まることもなくサラッと読めました。
自分の言葉に落とし込んでた部分を、別の観点からこういう説明もできるのだなというのを知れたのは良かったです。
いろんな書籍を読んで観点を広げるのは良いですが、全部を中途半端に1周しか読んでいないという状態になってしまうよりは、何かしら1冊は自分のベースとなる本を作った上でいろんな書籍を読むのが良いと思います。
試験当日
当日は1時間ほどで3級の教科書を読み直し、過去問で間違えた問題と正解だったけど自信がなかった問題を復習してから試験に臨みました。
おわりに
当初の目的の分析周りが何も分からない状態は脱しました。
統計検定は2級も受けようと思っていたのですが、会場での試験じゃなくなってCBT方式の試験になったので「いつでも受けられるじゃん」とか思っていたら半年も経ってしまいました。
ただ、今回この記事を書くにあたり、4級と3級の教科書を読み返したのですが、散々読み込んできたおかげで時間が経っても1回読むだけでガッツリ記憶が蘇ってきました。
そういう意味でもこの勉強法は個人的にはおすすめです。
ちなみに読む時間はちょっと増えて、4級の教科書は1時間ほど、3級の教科書は2時間ほどかかりました。
そしてあらためて読むと4級の教科書は説明が冗長で読みづらさを感じました。
成長したということですかね。
せっかくの機会なのであらためて2級取得に向けても勉強をしようかなと思います。
また2級からは教科書だけだと厳しいという話を聞くので、教科書をベースにしつつ、足りない知識を他の書籍で補う形で勉強してみようと思います。
統計学の話というよりも、勉強法自体の話がメインになってしまいました。
ガッツリ統計の話を読めると思っていた方には申し訳ないです。
この勉強法は高校時代からやっていて、大学受験でも役に立ったので個人的には汎用的に(少なくとも理系科目では)使える勉強法かなと思っています。
本稿が、これから統計学の勉強をしたいなと思っている方、これから何かしらの勉強をしたいなと思っている方の参考に少しでもなれば幸いです。