はじめに:統計検定を受験する意義
こんにちは S です。
統計学はデータや解析手法、解析結果に対し誤った解釈をしないために有用となる知識の1つです。統計検定は統計学の基礎知識や応用力を評価する資格試験であり、参考書等も充実しているため統計学の基礎を習得するための道標としても活躍します。まず、私が思う統計検定を受験する意義を大きく2つ紹介したいと思います。
- データ解析の基礎となる統計学を効率的に学習するため
データ解析を適切に行うための知識として統計学を学ぼうと考えている方は多いかと思います。データを入力するだけでほとんど完結するような便利な解析ツールもありますが、ツールの誤用や結果の誤った解釈を防ぐためにも統計学は必要であると思います。例えば、回帰分析をする際に仮定した分布は現象と整合しているか、出力された偏回帰係数や有意性はどう解釈すべきか、標準化はすべきかなど、データや問題設定に応じてツール任せではなく自分で考えなくてはならない項目は山ほどあります。統計検定の資格取得を目指して勉強を進めれば、こういった実践的なポイントを抑えながら効率的に統計学を習得していけると思います。
- データサイエンティストに関する具体的な技術を取得・公表するため
一般的に、データ解析を主たる業務としたり、事業の課題をデータ解析で解決できるように落とし込んだりする職業は「データサイエンティスト」とよばれていると思います。しかし、具体的にどんなスキルや経験があれば「データサイエンティスト」だと自称できるでしょうか?「実務経験〜年以上」といっても、「データサイエンティスト」を定義していない以上、どの業務を実務経験とすれば良いのかが曖昧です。具体的な技術や査読つき論文の数など、部分的に能力を計る指標は色々ありそうですが、現在では明確な定義はありません。
このことは、例えばデータサイエンスのリテラシーのない採用側がどのような人材を取るべきかを明確にできずミスマッチしたり、データサイエンティストになりたい方々が何を習得するべきかわからないといった問題が生じます。
このような状況で、わかりやすく相手に「この程度の知識・スキルを持っている」と示せることはお互いにとって良いことだと思います。G検定にしろE資格にしろ、それぞれの資格が部分的にデータサイエンティストとしての能力を図る指標の1つになると思います。
以上のことと準1級のレベルを踏まえルると、統計検定準1級は以下に該当する方々におすすめできる資格です。
- 統計学を学んでいる学生
- 業務で統計解析を使用している、または使用する予定がある社会人
- 統計学を趣味にしている方々
どの程度の知識をつけるべきか
前置きが長くなりましたが本題です。まず、準1級では理論的な深さより、様々な解析手法とそれらの概要、使い方、解釈方法を理解できているか、という点を問われることが多いです。恐ろしいほどの範囲の広さから、もはや1級の方が簡単だと感じる方もいらっしゃるのではないでしょうか。この点を踏まえ、どの程度の知識をつけるべきかを私の経験から述べます。
-
準1級範囲表の単語で知らないものはゼロ、全てに関してどんなものであるかが説明できる
早速鬼門です。準1級の最大の難関ポイント「異常に広い範囲」がこれを見れば実感すると思います。ある程度過去問から当たりをつけるのも効率的ではあると思いますが、統計学を勉強するという本質からズレますし、何より出題されたら詰みます。「どんなものであるか」というのは、「〜するもの」「〜で計算される量」など、端的に説明できれば、というくらいです。 -
各手法の理論を大まかに説明できる
手法が多いので「大まか」という曖昧な表現になりますが、例えば線形の重回帰分析に関してだと、最小二乗法と最尤法によるパラメータ推定の計算くらいはできておくといいかと思います。PCA であれば固有値、固有ベクトルを計算して元の変数との内積を計算することで主成分を導出することくらいは知っておくべきだと思います。 -
データの性質に応じて、どの手法が適切なのかが答えられる
「この問題設定だと、集めるべきデータは〇〇で、解析手法は△△が適している」というように、ある課題を解決するためにどんなデータが必要で、どんな解析を行うべきかを把握しておきましょう。例えば、検定においては手元のデータや仮定に応じて使用する検定手法は異なります。回帰で言えば目的変数が離散値か、連続値か、打ち切りがあるか等で仮定する分布が異なってきます。状況に応じて適切な手法や確率分布を使うことはとても大切です。 -
各解析結果の「見せ方」を知っており、それらを適切に解釈できる(正しい解析が行われたという前提)
「見せ方」と言っているのは「この解析手法を使うのであれば結果は大体これを見る」といった、いわば適切な解釈のためのお作法のことです。例えば PCA を行うのであれば Biplot で図示したり、回帰分析であれば偏回帰係数の有意性を表示したり残差が異常な(仮定と合わない)挙動をしていないかを調べたりします。このような各種法に対する一般的な結果の表示方法を把握し、それらがどんな示唆を与えるかを確認しておくことが重要です。
また、代表的な解析手法に関しては実際に R を使って解析してみることをおすすめします。というのも、試験ではRで出力された結果そのままが出題されることが多いため、実際に出力して解釈方法を覚えておくことは大きなアドバンテージになります。
MECEではない上に抽象的な部分が多いですが、上記の項目に関して自信を持ってYesと言えるのであれば、合格の可能性は十分に高いと思います。
使った書籍やサイト
-
日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
この本で範囲の広さを実感しながら、網羅的に演習を行いました。出題範囲をほぼカバーしてあり大変有用な本ですが、簡単な説明で済まされている項目も多いので、追加で調べるべきものは多いです。 -
日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018~2019年]
余談ですが、2021年の統計検定準1級は過去に比べて難易度が高過ぎて、「過去問が全然役にたたん」という声を至るところで聞きました笑
これらをベースに、わからないところをググる。大抵のことは以下のサイトで解決しました。
おわりに
統計検定は統計学を効率的に学ぶ道標として非常に有用なものだと思います。準1級に関しては、多くの手法を学ばなければいけないので「知っている解析手法の数が増える→課題に対するアプローチが増える」という点は大きな利点になると思います。
余談
私は引き続き1級を目指します。準1級はその範囲の広さから、多くの手札を揃えるといった重要な利点がありますが、それゆえに1つ1つの手法に対して求められる知識は浅いものが多いです。正直「手法を使う」という点では準1級で事足りる場合が多いかと思いますが、数理的にしっかり統計学を学びたいという想いからも、1級の取得を目指します。