0.はじめに
大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)
データサイエンス学習全体像
【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率
1.統計・分析・検定
それぞれの意味についてなんとなく理解しておく
名称 | 意味 |
---|---|
統計 | データから規則性や不規則性など性質や傾向を読み解く |
分析 | データから要因を読み解き原因を明確にする、解析と似てる気がする |
検定 | データから基準を元に判定をする、事前に理論値がある |
2.分類
ここでは以下のように分類する
名称 | 意味 |
---|---|
探索的データ分析 | データを解析し主な特徴を要約する |
統計的検定 | 仮説を情報に基づいて検証する |
予測モデリング | 統計を使用し未知のデータの予測や予測を行う |
確率分布 | 確率変数に対して、各々の値をとる確率全体を表したもの |
探索的データ分析
散布図
クラスター分析
主成分分析
因子分析
アソシエーション分析
探索木
統計的検定
t検定
分散分析(ANOVA)
仮説検定
適合度検定
カイ二乗検定
予測モデリング
回帰分析
線形判別
非線形判別
ロジスティック回帰
決定木
予測モデリング
正規分布
3.確率分布
確率の関係性を追求するジャンル
3-1.正規分布
予測モデリングのひとつ
平均を0、ばらつきを1とした図
ばらつきが少ないと「尖り」ばらつきが大きいとふわっとしてる図になる
3-2.正規分布は標準偏差によって性質がある
名称 | 意味 |
---|---|
平均値±1σ | 全体の68%の濃度がある |
平均値±2 | σ全体の95%の濃度がある |
平均値±3σ | 全体の99.7%の濃度がある |
例:日本人の平均が170cm、標準偏差が10cmの正規分布
平均値を0とする図のため真ん中が170cmと想像すればいい
標準偏差10cmなので160~180cmは全体の約68%以上が含まれると分かる
身長150cm以下は全体の5%以下の密度であると理解できる
3-3.正規化とは
正規分布側のメモリの幅に合わせるようにデータを変形・調節すること
データ上単位がバラバラの場合に用いるときがある(クラスタリング_データポイント間の距離計算時に使用)
データの平均を全てのデータポイントから引きそのデータを標準偏差で割る
正規化した値は平均が0になる