0.はじめに
大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)
データサイエンス学習全体像
【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率
1.統計的検定
主に仮説を扱う
仮説に対して統計的に差異があるかどうかをポイントとしている
ここでは以下を扱う
t検定
分散分析(ANOVA)
仮説検定
適合度検定
カイ二乗検定
2.t検定
2つのグループの差を求める検定
独立変数の平均に差があるかどうかの検定を行う
-
独立変数とは
説明変数、要因となるか否かの変数 -
ざっくりと計算方法
mA-mB(m:mean平均)
3.分散分析(ANOVA)
3つ以上のグループの際に使用する分析
注意点としては「3つの群の間に差があるという点しか判断ができない」
よってペアずつの差を確かめる為には事後分析が必要
3-1.ざっくりと計算方法
グループ間の分散/グループ内全体の分散
3-2.仮説検定
仮説が真であるかどうかを検証する検定
帰無仮説と対立仮説の二つを立てる必要がある
言葉通り「無に帰す」、まず先に立てられる仮説
否定されるかされないかで仮説を立てる基準のようなもの
帰無仮説が成立する確率
が一定以上あれば成り立つ
帰無仮説ではないもの
有意義な差が認められる仮説
3-3.確率とは
有意水準、alpha(0.05,0.01,0,001)
帰無仮説が5%以下ならば帰無仮説は「棄却される」、対して5%以上ある場合は採用のため「棄却できない」となる
3-4.採用か棄却か
例題:カイ二乗検定の結果は0.5、有意水準が0.05(5%)とする
この場合結果は50%と有意水準の5%以上ある。よって帰無仮説(5%以上あれば採用)は採用される
4.適合度検定
文字通り適合されているかどうか検定する
データが論理値と適合してるのか異なっているのか確かめたい検定
事前に決めた値を元に比較を行う
5.カイ二乗検定
「帰無仮説が正しければ」を前提とした検定
2つの選択肢を使用し仮説を立てる
適合検定は事前に定められた値、カイ二乗検定は帰無仮説を元に定められた値(差がないと仮定した時の値)