0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【データサイエンス】分析の分類・確率分布

Last updated at Posted at 2023-05-25

0.はじめに

大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)

データサイエンス学習全体像

【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率

1.統計・分析・検定

それぞれの意味についてなんとなく理解しておく

名称 意味
統計 データから規則性や不規則性など性質や傾向を読み解く
分析 データから要因を読み解き原因を明確にする、解析と似てる気がする
検定 データから基準を元に判定をする、事前に理論値がある

2.分類

ここでは以下のように分類する

名称 意味
探索的データ分析 データを解析し主な特徴を要約する
統計的検定 仮説を情報に基づいて検証する
予測モデリング 統計を使用し未知のデータの予測や予測を行う
確率分布 確率変数に対して、各々の値をとる確率全体を表したもの

探索的データ分析

  • 散布図
  • クラスター分析
  • 主成分分析
  • 因子分析
  • アソシエーション分析
  • 探索木

統計的検定

  • t検定
  • 分散分析(ANOVA)
  • 仮説検定
  • 適合度検定
  • カイ二乗検定

予測モデリング

  • 回帰分析
  • 線形判別
  • 非線形判別
  • ロジスティック回帰
  • 決定木

予測モデリング

  • 正規分布

3.確率分布

確率の関係性を追求するジャンル

3-1.正規分布

予測モデリングのひとつ
平均を0、ばらつきを1とした図
ばらつきが少ないと「尖り」ばらつきが大きいとふわっとしてる図になる

3-2.正規分布は標準偏差によって性質がある

名称 意味
平均値±1σ 全体の68%の濃度がある
平均値±2 σ全体の95%の濃度がある
平均値±3σ 全体の99.7%の濃度がある

例:日本人の平均が170cm、標準偏差が10cmの正規分布
平均値を0とする図のため真ん中が170cmと想像すればいい
標準偏差10cmなので160~180cmは全体の約68%以上が含まれると分かる
身長150cm以下は全体の5%以下の密度であると理解できる

image.png

3-3.正規化とは

正規分布側のメモリの幅に合わせるようにデータを変形・調節すること
データ上単位がバラバラの場合に用いるときがある(クラスタリング_データポイント間の距離計算時に使用)
データの平均を全てのデータポイントから引きそのデータを標準偏差で割る
正規化した値は平均が0になる

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?