0.はじめに
大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)
データサイエンス学習全体像
【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率
1.統計・分析・検定
それぞれの意味についてなんとなく理解しておく
| 名称 | 意味 |
|---|---|
| 統計 | データから規則性や不規則性など性質や傾向を読み解く |
| 分析 | データから要因を読み解き原因を明確にする、解析と似てる気がする |
| 検定 | データから基準を元に判定をする、事前に理論値がある |
2.分類
ここでは以下のように分類する
| 名称 | 意味 |
|---|---|
| 探索的データ分析 | データを解析し主な特徴を要約する |
| 統計的検定 | 仮説を情報に基づいて検証する |
| 予測モデリング | 統計を使用し未知のデータの予測や予測を行う |
| 確率分布 | 確率変数に対して、各々の値をとる確率全体を表したもの |
探索的データ分析
散布図クラスター分析主成分分析因子分析アソシエーション分析探索木
統計的検定
t検定分散分析(ANOVA)仮説検定適合度検定カイ二乗検定
予測モデリング
回帰分析線形判別非線形判別ロジスティック回帰決定木
予測モデリング
正規分布
3.確率分布
確率の関係性を追求するジャンル
3-1.正規分布
予測モデリングのひとつ
平均を0、ばらつきを1とした図
ばらつきが少ないと「尖り」ばらつきが大きいとふわっとしてる図になる
3-2.正規分布は標準偏差によって性質がある
| 名称 | 意味 |
|---|---|
| 平均値±1σ | 全体の68%の濃度がある |
| 平均値±2 | σ全体の95%の濃度がある |
| 平均値±3σ | 全体の99.7%の濃度がある |
例:日本人の平均が170cm、標準偏差が10cmの正規分布
平均値を0とする図のため真ん中が170cmと想像すればいい
標準偏差10cmなので160~180cmは全体の約68%以上が含まれると分かる
身長150cm以下は全体の5%以下の密度であると理解できる
3-3.正規化とは
正規分布側のメモリの幅に合わせるようにデータを変形・調節すること
データ上単位がバラバラの場合に用いるときがある(クラスタリング_データポイント間の距離計算時に使用)
データの平均を全てのデータポイントから引きそのデータを標準偏差で割る
正規化した値は平均が0になる
