0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

統計学イベントに参加して学んだ、実務で使える統計の基礎知識

Posted at

はじめに

先日、統計学のイベントに参加してきた。統計学をこれから学習・活用していくための準備や心得を得ることができたので、学んだ内容をまとめていきたい。

実務でデータ分析をする機会は多いけど、意外と正しい手法を知らずに進めてしまうことが多い。今回のイベントで「やってしまいがち」なミスや、データを正しく見るための視点を学べたのは非常にためになった。

データの種類を見極める

まず大前提として、扱うデータが質的データか量的データかを見極めることが大事だ。これによって分析の手法が変わってくる。

質的データと量的データ

  • 質的データ: カテゴリや属性を表すデータ(性別、職業、好きな色など)
  • 量的データ: 数値で表されるデータ(身長、体重、売上金額など)

質的データは基本的にカウントして、他の項目との関係性を見ることが中心になる。一方、量的データは平均値や標準偏差などの統計量を算出して分析していく。

データ分析の基本的な手順

データ分析には以下のような手順を踏んで実践すると効果的だ:

  1. データの種類を確認する(質的か量的か)
  2. データの特徴を把握する(中心傾向、散らばり具合)
  3. データを可視化する(グラフ化してパターンを発見)
  4. 仮説を立てて検証する(仮説検定)

この流れを意識するだけで、分析の質が大きく変わってくる。

量的データを扱うときの落とし穴

平均値を最初に出すのは間違い!

量的データを扱うとき、ついやってしまいがちなのがいきなり平均値を出してしまうこと。これは気をつけたい。

まず確認すべきは外れ値の有無だ。外れ値は最大値と最小値から算出するのが正しいアプローチ。平均値は外れ値の影響を大きく受けてしまうため、外れ値がある場合は平均値がうまく機能しないケースがある。

中央値の重要性

外れ値がある場合や、データの分布が偏っている場合は、**中央値(メディアン)**を使うと安定した値が出せる。平均値だけに頼らず、状況に応じて適切な代表値を選ぶことが重要だ。

標準偏差=リスクという視点

データの散らばり具合を表す標準偏差について、非常に分かりやすい説明があった。

標準偏差=データの散らばりの大きさ=リスク

平均値=リターン

この視点で考えると、例えば2つの投資商品があって:

  • A商品:平均リターン5%、標準偏差10%
  • B商品:平均リターン5%、標準偏差3%

平均値(リターン)が同じなら、当然リスク(標準偏差)が小さいB商品を選ぶよね、という話。標準偏差を出すことで、正しくデータを見ることができるようになる。

データの可視化が必須

数字だけ見せられても分かりづらいので、**データの可視化(ビジュアライズ)**が必要だ。

量的データの可視化

  • ヒストグラム: データの分布を確認
  • 箱ひげ図: 外れ値や四分位数を視覚的に把握

質的データの可視化

  • 棒グラフ: カテゴリごとの数量を比較
  • 100%積み上げ棒グラフ: 質的データと量的データの関係を見るときに特に有効

質的と量的のグラフはだいたい100%積み上げ棒グラフを使うことが多いというのも、実務で使えるTipsだと思った。

仮説検定で検証する

データを眺めてだいたい推測が立ったら、それを仮説検定で検証しないといけない。感覚だけで判断せず、統計的に有意な差があるのかを確認することが重要だ。

💡 仮説検定とは?

「その差は、たまたま(誤差)か? それとも意味がある(必然)か?」を判定する統計的な決着の付け方です。

判定のルール
仮説を立てる: 「差なんてない(偶然だ)」と仮に決める。

P値を出す: その現象が「偶然起きる確率」を計算する。

結論: 確率(P値)が 5%以下 なら、「偶然とは言い切れない(意味がある差だ!)」と認定する。

🛠️ Excel・スプシでのやり方
2つのグループ(例:A案とB案)の平均を比べるなら、この関数1つでOK。

=T.TEST(範囲1, 範囲2, 2, 2)

出た数字が 0.05 以下 = 「意味のある差がある」

出た数字が 0.05 超え = 「ただの誤差(誤差の範囲内)」

まとめ

今回のイベントで学んだことをまとめると:

  1. データの種類(質的/量的)を見極めることから始める
  2. 平均値を最初に出すな、外れ値の確認が先
  3. 標準偏差=リスクという視点を持つことでデータを正しく見られる
  4. データの可視化は必須
  5. 仮説検定で推測を検証する

他にもいくつかデータ分析の実例が出てきて非常にためになった。実務でも正確に統計学を活用して、より良い意思決定に生かしていきたいと思う。

統計学は難しそうに見えるけど、基本的な考え方を押さえれば実務でもすぐに活用できる。特に「平均値だけ見ない」「標準偏差でリスクを測る」という2点は、明日から使える知識だと思う。

参考

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?