覚えることは本当に多いのか
統計検定の合格ラインをご存知でしょうか。6割です。半分とちょっと。
そして受験を検討しているあなた。国語は得意ですか?
もし得意なのであれば、もしかしたら覚えることはそれほど多くなくても済むかもしれません。
なぜなら統計というものの概念をまず抑えることで、選択肢を絞れる問題が複数存在しているためです。
……などと、書いてみましたが、どうしても数学が苦手な人が、どうにかして統計検定2級に合格するにはどうすればよいのか悪あがきをした記録です。
胸を張って書くような内容ではないのですが、やらないよりやったほうがマシ、数学苦手な人でもどうにか一緒に一歩踏み出しましょうよ、という気持ちで書いています。
やったこと・やらなかったこと
- 得点源
6割分しか学習していないわけですから、点が落とせない問題は複数あります。特に以下の問題は落とさないように留意します。- 変数の説明
- 確率分布、推測統計
- やらなかった範囲
一方で以下の範囲は全く学習をせず、出題された際には読解力とフィーリングで解いていたので、本記事で触れることはありません。
個人的には統計検定では勉強せずに違う資格で勉強しようと思います。- 積分を使わないと解けない問題(これまで触れてきてないので無理だった)
- 線形回帰(文章を見れば解けそうだったので。国語が得意なら大丈夫!)
- 分散分析(時間がなかったので)
私の考える最強のロードマップ(数学知識が中学レベルの人向け)
巷で言われる統計WEBは勿論素晴らしい教材ですが、短気でスタート位置がマイナスだった自分にとってはかなりの苦行でした。
-
完全独習 統計学入門(書籍)を読む
- この書籍はかなり柔らかい文体&飽きさせないので、統計の勉強というよりかは普通の読書で読めると思います。
- Udemy受講
- 中学生くらいでも理解できるレベルで教えてくれます。会社のアカウントから見てましたが、個人的には買っても損がないと思いました。
- いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】
- Excel(エクセル)による確率分布基礎講座【確率思考を身につけよう】
- ChatGPTと過去問を解く
- 過去問を解きます。当然わからないので、ChatGPTに解説を求めます。
- 過去問は8割解けるようにしておく。できるなら完璧にすればと思うけど、少なくとも上記で除外した範囲がある限り100%は無理…
知っておくべき図
グラフの軸をしっかり確認することも大事。
- 箱ひげ図:データのばらつきや外れ値がパッと見える
- 幹葉図:値の分布が数字のまま視覚化される
- コレログラム:時系列データがどれくらい自己相関してるかを見る
- 相関係数:2つの変数がどのくらい一緒に動くかの指標
覚えておく記号・式・言葉
日本語の部分を抑えておくと、意外と何とかなったりもする。
文系根性で数学は極端な概念化であることを意識し、何で割ることでどのような値を求めたいのかというのを考えておく。
多くの参考書ではサンプルと母集団で使う記号が異なる(そもそも同一のものでない※ので当然ではある)が、乱暴な言い方をすれば考え方としては似ているので、ここをまとめて考えれば学習が楽になる。気がする。
※同じというと、たくさんの人に怒られる気がするのですが、みそ汁の味見をしたときの小皿によそった少量の味噌汁と、鍋いっぱいの味噌汁が同義でない…って感じで、正確には異なります。記号も異なり、意味も厳密には異なりますが、サンプル統計量が母数の「推定値」であるという関係性を意識すると理解しやすくなるというのがいいのかな。
記述統計等
- 度数:その事が起こった回数
- 代表値と呼ばれる値の傾向を示す値
- 中央値
- データを小さい順に並べたときにちょうど真ん中に来る値
- 平均値
- 平均($\mu$) = $\bar{x}$ (サンプルの合計 ÷ サンプル数)
- 標本平均($\bar{x}$) は、全体の平均($\mu$)を推定するために使われる代表値
- 母比率の推定 $p ≒ \hat{p}$ (サンプルの該当数 ÷ サンプル数)
- 中央値
- 分散
- データの散らばりを示す指標
- データの平均との差を二乗してすべて足し合わせ、データ数で割る
- 複数のデータセットの各分散を足し算すると、足し合わせた分散は全体のデータセットの分散になる
- $\bar{x}$分布の分散 = $\frac{\sigma^2}{n}$(数値データの平均のばらつき)
- 母比率の分散の推定 = $\frac{p(1 - p)}{n}$(割合のばらつき)
- 標準偏差
- 分散の平方根=元のデータと同じ単位を持つデータのばらつき
- 標準誤差
- 多くのデータを集めたときに、そのデータがどれだけ正確に平均値の周りに集まっているか(=どれだけ正確に平均を推定できているか)を表す値。
- 小さいほど良い
- SE = $\sqrt{\frac{分散}{n}}$
- 変動係数
- 標準偏差が平均値に比べてどの程度大きいかを示す。($\sigma$:標準偏差)
- 異なるスケールのデータの比較に有用。
- $\frac{σ}{\bar{x}}$
- 相関係数
- 2種類のデータの関連性の強さ。1~-1の値を取る。
- 正の相関(0~1) :何かが増えるとこれも増える
- 負の相関(0~-1):何かが増えるとこれは減る
- $r = \frac{共分散}{σx × σy}$
- 平均変化率
- 例)1月から4月の計3か月間の平均変化率
- $r = {(\frac{4月の値\quad}{1月の値\quad})^{1/3} -1}\times 100$
- 例)1月から4月の計3か月間の平均変化率
知っておくべき指標
- ローレンツ曲線・ジニ係数:値平等か否かの話。上に膨れるか、下に膨れるかすると不平等になる。上下どちらに膨れるかはデータのソート順による。
- ライパレス指数:基準年と同じ数量を比較年も購入した場合の金額の比
確率・分布
- 過去問と以下のUdemyがすべてでした。(今後まとめるかもしれません)
- Excel(エクセル)による確率分布基礎講座【確率思考を身につけよう】
検定等
- 標準化&正規分布:
平均0, 標準偏差1に各データの単位(スケール)をそろえてあげる。
z = \frac{\bar{x}-μ}{σ}
- t検定、z検定:
t検定は母集団の分散が分からないときに使う…ということは分散のところは変えなくてはならない=標準誤差にする。
z検定は母分散が分かっているときなので、母分散にすればいい。
\frac{\hat{p}-\$p}{\sqrt{\frac{p(1-p)}{n}}}
- 母平均の差の検定
t = \frac{\bar{x1}-\bar{x2}}{\sqrt{s^2(\frac{1}{n1}+\frac{1}{n2})}
}
- 母平均の区間推定
自由度からt分布95%の範囲を確認したうえで、下記式で求める。
下側2.5%<\frac{\bar{x}-μ}{\sqrt{\frac{s^2}{n}}}<上側2.5%
- 母比率の差の検定
z = \frac{\hat{p1}-\hat{p2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n1}+\frac{1}{n2})}
}
- 母比率の区間推定
z = \hat{p}\pm1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}
}
- サンプルサイズの計算
信頼区間は95%とする場合
n = (1.96×\frac{σ}{標準誤差})^2
- カイ二乗分布とは
標準正規分布(平均0、標準偏差1)の値を2乗して、いくつか足し合わせたときにできる分布。
「ズレの大きさ(=2乗した値)」を複数集めたら、どれくらい全体としてズレているかがわかる。
- F分布
2つの分散を比べるときに使う分布。
ざっくり言うと「Aグループのばらつき」と「Bグループのばらつき」を比べて、「片方だけ極端にばらついていないか?」を見るときに使います。
F=\frac{\frac{X1}{n1}}{\frac{X2}{n2}}
以上!これでぎりぎり合格できる…かも?
第一歩を踏み出すことが大事と考えていますので、何かのとっかかりになればよいと思います。