More than 1 year has passed since last update.

【データサイエンス】分析の分類・確率分布

Last updated at 2023-11-21Posted at 2023-05-25

０．はじめに

大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
（齟齬がある場合はご指摘いただけると助かります。）

それぞれの意味についてなんとなく理解しておく

名称	意味
統計	データから規則性や不規則性など性質や傾向を読み解く
分析	データから要因を読み解き原因を明確にする、解析と似てる気がする
検定	データから基準を元に判定をする、事前に理論値がある

ここでは以下のように分類する

名称	意味
探索的データ分析	データを解析し主な特徴を要約する
統計的検定	仮説を情報に基づいて検証する
予測モデリング	統計を使用し未知のデータの予測や予測を行う
確率分布	確率変数に対して、各々の値をとる確率全体を表したもの

確率の関係性を追求するジャンル

予測モデリングのひとつ
平均を0、ばらつきを1とした図
ばらつきが少ないと「尖り」ばらつきが大きいとふわっとしてる図になる

例：日本人の平均が170cm、標準偏差が10cmの正規分布
平均値を0とする図のため真ん中が170cmと想像すればいい
標準偏差10cmなので160~180cmは全体の約68%以上が含まれると分かる
身長150cm以下は全体の5%以下の密度であると理解できる

正規分布側のメモリの幅に合わせるようにデータを変形・調節すること
データ上単位がバラバラの場合に用いるときがある（クラスタリング_データポイント間の距離計算時に使用）
データの平均を全てのデータポイントから引きそのデータを標準偏差で割る
正規化した値は平均が0になる