はじめに
先日、統計学のイベントに参加してきた。統計学をこれから学習・活用していくための準備や心得を得ることができたので、学んだ内容をまとめていきたい。
実務でデータ分析をする機会は多いけど、意外と正しい手法を知らずに進めてしまうことが多い。今回のイベントで「やってしまいがち」なミスや、データを正しく見るための視点を学べたのは非常にためになった。
データの種類を見極める
まず大前提として、扱うデータが質的データか量的データかを見極めることが大事だ。これによって分析の手法が変わってくる。
質的データと量的データ
- 質的データ: カテゴリや属性を表すデータ(性別、職業、好きな色など)
- 量的データ: 数値で表されるデータ(身長、体重、売上金額など)
質的データは基本的にカウントして、他の項目との関係性を見ることが中心になる。一方、量的データは平均値や標準偏差などの統計量を算出して分析していく。
データ分析の基本的な手順
データ分析には以下のような手順を踏んで実践すると効果的だ:
- データの種類を確認する(質的か量的か)
- データの特徴を把握する(中心傾向、散らばり具合)
- データを可視化する(グラフ化してパターンを発見)
- 仮説を立てて検証する(仮説検定)
この流れを意識するだけで、分析の質が大きく変わってくる。
量的データを扱うときの落とし穴
平均値を最初に出すのは間違い!
量的データを扱うとき、ついやってしまいがちなのがいきなり平均値を出してしまうこと。これは気をつけたい。
まず確認すべきは外れ値の有無だ。外れ値は最大値と最小値から算出するのが正しいアプローチ。平均値は外れ値の影響を大きく受けてしまうため、外れ値がある場合は平均値がうまく機能しないケースがある。
中央値の重要性
外れ値がある場合や、データの分布が偏っている場合は、**中央値(メディアン)**を使うと安定した値が出せる。平均値だけに頼らず、状況に応じて適切な代表値を選ぶことが重要だ。
標準偏差=リスクという視点
データの散らばり具合を表す標準偏差について、非常に分かりやすい説明があった。
標準偏差=データの散らばりの大きさ=リスク
平均値=リターン
この視点で考えると、例えば2つの投資商品があって:
- A商品:平均リターン5%、標準偏差10%
- B商品:平均リターン5%、標準偏差3%
平均値(リターン)が同じなら、当然リスク(標準偏差)が小さいB商品を選ぶよね、という話。標準偏差を出すことで、正しくデータを見ることができるようになる。
データの可視化が必須
数字だけ見せられても分かりづらいので、**データの可視化(ビジュアライズ)**が必要だ。
量的データの可視化
- ヒストグラム: データの分布を確認
- 箱ひげ図: 外れ値や四分位数を視覚的に把握
質的データの可視化
- 棒グラフ: カテゴリごとの数量を比較
- 100%積み上げ棒グラフ: 質的データと量的データの関係を見るときに特に有効
質的と量的のグラフはだいたい100%積み上げ棒グラフを使うことが多いというのも、実務で使えるTipsだと思った。
仮説検定で検証する
データを眺めてだいたい推測が立ったら、それを仮説検定で検証しないといけない。感覚だけで判断せず、統計的に有意な差があるのかを確認することが重要だ。
💡 仮説検定とは?
「その差は、たまたま(誤差)か? それとも意味がある(必然)か?」を判定する統計的な決着の付け方です。
判定のルール
仮説を立てる: 「差なんてない(偶然だ)」と仮に決める。
P値を出す: その現象が「偶然起きる確率」を計算する。
結論: 確率(P値)が 5%以下 なら、「偶然とは言い切れない(意味がある差だ!)」と認定する。
🛠️ Excel・スプシでのやり方
2つのグループ(例:A案とB案)の平均を比べるなら、この関数1つでOK。
=T.TEST(範囲1, 範囲2, 2, 2)
出た数字が 0.05 以下 = 「意味のある差がある」
出た数字が 0.05 超え = 「ただの誤差(誤差の範囲内)」
まとめ
今回のイベントで学んだことをまとめると:
- データの種類(質的/量的)を見極めることから始める
- 平均値を最初に出すな、外れ値の確認が先
- 標準偏差=リスクという視点を持つことでデータを正しく見られる
- データの可視化は必須
- 仮説検定で推測を検証する
他にもいくつかデータ分析の実例が出てきて非常にためになった。実務でも正確に統計学を活用して、より良い意思決定に生かしていきたいと思う。
統計学は難しそうに見えるけど、基本的な考え方を押さえれば実務でもすぐに活用できる。特に「平均値だけ見ない」「標準偏差でリスクを測る」という2点は、明日から使える知識だと思う。
参考
- 「【無料】数式なしでわかる!「統計のキホン超入門」仕事で差がつく“数字の読み方・伝え方”」主催 : WAKARA.CO https://datascience-wakara.connpass.com/event/380333/(2026年2月4日参加)