統計学の学習記録
統計とは
データを理解するための数学的手法。
統計学はばらつきの学問。分散、標準偏差の指標を見ることが重要。
統計基礎
外れ値に弱い
沢山のサンプルサイズが必要
サンプルサイズが多いと、一つや二つの外れ値の影響が無視できるほど小さくなる。
一番基本的な外れ値の判断方法は、正規分布と仮定した上で、平均値±3×標準偏差から外れた値を除外すること。
共分散
2つの変数がその平均から、どの程度離れているかを示す
【共分散の問題点】
1 共分散は2つのデータの相関関係を数値で表したものですが、その値が大きいのか小さいのかよくわからないので
2 スケールが変わると数値が大きく変わって、数字の意味がさらにわからなくなる
相関係数
「相関」というのは、2つ以上のもとがあるときに、それらが「どれぐらい類似しているか」という「類似度」を意味する。
そして、相関係数とは、「類似度」の強さを「−1から1」までの範囲を取る数字として表現したものです。
【共分散の問題点の解決が相関係数】
1の解決
-1 ~ 1の間にすれば、数字の意味が解釈しやすい!!
→共分散を標準偏差で割って正規化する(=単位をそろえる)というイメージ。
2の解決
比べるものの、スケールが変わろうが、-1 ~ 1の中に入るので問題無し
機械学習において、使われ方
相関係数は主に前処理で使われます。具体的には、目的変数に対してどの説明変数を使用していくかの検討(=特徴量選択)に使われます。
(1)目的変数と相関が高い項目を選び、説明変数に選ぶ
正規分布について
ほとんどの機械学習モデルは個々の特徴量(データにどのような特徴があるかを数値で表現したもの)がだいたいガウス分布に従っているときに最も上手く機能するという前提がある。
そしてこのガウス(正規)分布を次のように複数重ね合わせた(線形重ね合わせ)もの、言い換えれば混ぜ合わせたものが混合ガウス分布
確率と統計
データサイエンスの基礎の部分。
確率の役割・・現実世界の不確実性の定量化する
条件付き確率 (B|A)
ポイント 全体が変わる (全ての事象Uではなくて、事象Aが全体となり、その中で事象Bが起こる確率を考える)
普通の確率 P(A)(= 事象Aの確率) = 事象(A)が起こる回数/全事象
条件付き確立 事象P(B|A) (事象Aが起こった上で事象Bが起こる確率) = P(A、B) / P(A)
大事なのでポイントを再度言うと、 事象Aが全体となる。全体が変わるという視点を持って考えると、すんなり入ってくると思う。
「ビッグデータ」という言葉。
Qビッグデータを扱うとは?
・・つまり、「統計解析」のことである。
堅苦しいので、クールな感じに「ビッグデータ」と「データサイエンティスト」と呼び、マーケティングしたら、バズったようです。
「AI」という言葉。
もともと、AI(Artificial Intelligence)は人間の認識昨日の再現という科学的探究として使われてた用語。
最近、ビジネスサイドへ適用され、統計学との連結により、幅が広がっている。
ビジネスインテリジェンス(BI)
ビジネスにおける統計学を応用した手法。企業の市場競争における情報戦略
ただ大量にデータがあればいいわけではない。
▲ビッグなまま扱う 手間・コストがかかる
○統計的に正しく標本抽出 楽・正確性も悪くない(正しい手法ならば)
標本、母集団、標準偏差、標準誤差などの理解が必要
標準誤差とは?
A推定量のばらつきの値(★標本平均の標準偏差)
標本≠母集団であるため、標本から母集団の性質を推定する
推定量 ・・前提として誤差を含む ★重要なのは、どれだけの誤差であるのか正確に推定すること。
標準誤差という尺度を用いる
標準誤差が小さい・・推定量の精度が高い
標準誤差が大きい・・推定量の精度が低い
ポイント 正しい判断に必要十分のデータを扱うこと
統計学とは?
データと扱う学問→答えを出す(正確な意思決定に貢献する)
カッコよくいうと、因果、相関、予測から事象の真相を推理する。
何故統計学なのか?
統計学が有益な所
騙されやすい世の中
・肝心なデータは公表しないことが多い。
見せ方、見栄にこだわる企業や個人も多い。
ex 広告、統計データ(偏った)、〜率(投票率、支持率、離職率)、〜%(健康食品など)
データの裏に、何が真の原因にあるのか特定する(=データサイエンス)
真の原因を特定する姿勢は、まさしくサイエンス(科学)の姿勢でもある。 なのでサイエンティストという
サイエンス
データサイエンスの「サイエンス」とは正確には何を言うのか?
データとデータを生成するプロセスに関する仮説を立て、検定を行うこと
(仮説例「A商品の売り上げるの好(不)調の原因はBだ」、「現在社員の生産性が下がっているのは、Bによるもだ」などなど)
仮説が真であることを示すために、統計値(量)を出し、どの程度確からしいか示す。
具体的
カイ二乗値 結果は誤差の範囲と言えるか? ”独立性の検定”と言われる。
観測された値(ポテトが何個売れたか)と期待される値(ポテトは確率的に何個売れそうか?)を比較し、
ズレ(誤差)が大きい カイ二乗値は大きくなる
ズレ(誤差)が小さい カイ二乗値は小さくなる (* ズレなしで0)
”独立性の検定”は、二つの変数に関連が言えるのか否かを判断するためのもの。
実際に観測された確率と期待確率との乖離が大きいほど、独立していない(関連がある)ということになります。
この乖離の程度を評価するのが独立性の検定です
を示す
p値
t検定とt分布
正規分布について、データの散らばり(分散)がわからない場合、
たまたま、偏ったデータを取得する可能性がある! その可能性をt検定で求める