統計学
標本
母集団の中の一部のデータ
標本平均
標本の平均
標本分散
それぞれのデータの標本平均からのズレの2乗の平均
{(A-平均)^2+(B-平均)^2}/個数
標本標準偏差
s
√標本分散
るーとになると絶対値になる
標本不偏分散
標本のデータのばらつきだが、より母分散に近い値。
u^2 = 標本分散*データの個数/データの個数-1
標本不偏分散の標準偏差(標本不偏標準偏差)
u = √標本不偏分散
るーとになると絶対値になる
母集団
ターゲット集団全体。
この中の一部が標本。
母平均
母集団の平均。
X
主題
x
データ一つ
確率変数
X=x
密度関数
統計データを曲線にする関数
確率分布
密度関数によってあらわされる図
確率分布の面積(積分)
実際の確率
ガウス分布
もっとも有名でよく使われる密度関数
N(μ, σ^2)
母平均
ガウス分布の中央値
μ
分散
σ^2 = {(A-母平均)^2+(B-母平均)^2}/個数
ガウス分布における中央値からのズレ
x = μ+σの時に曲線の角度が90度になる(積分が0)
標準偏差
σ = √母分散
x = μ+3σの時のy
ほとんど0
標準正規分布
ガウス分布が複雑すぎて積分できないので、シンプルにした密度関数。
μを0、σを1としたガウス分布。
ガウス分布のxを標準正規分布のzとする。
z = x - μ / σ
これを標準化という。
-3σから+3σまでの範囲でほとんど100%になる。(実値:0.997)
それを外れると「外れ値」と呼ばれることになる。
-5σから+5σを外れると「異常値」と呼ばれることになる。
人間が決めた誤差を「仕様」という。
仕様を外れた商品は販売できない。
仕様は人間が決める
仕様(SP) = μ-+ERROR (ERRORは人が決める)
自然なばらつき:μ-+3σ (正方向の3σと負方向の3σでシックスシグマと呼ばれる)
SPがシックスシグマより外にある場合には、
シックスシグマを出ても外れ値にも異常値にもならない。
X~N(μ, σ^2)のとき
avg(X)~N(μ, σ^2/n)
(x1 + x2 + ... + xn) / n == avg(x)
x1 + x2 + ... + xn を めもりにするとき、山形になる。
写真参照
パーソナルデータ
個人データ。
その個人の過去データがビッグデータになる。
projection(射影)
2次元から1次元には落とせるが逆は不可
F={1,2}, X={1,2} のとき P(F=1) の確率は P(X=1, F=1)+P(X=2, F=1)
条件付き確率
F=1という条件の下で(F=2という可能性を排除した世界で)、P(X=1) である可能性を P(X=1|F=1) と書く。これを条件付き確率という。
そのとき、 P(X=1|F=1) = P(X=1, F=1)/P(F=1)。
パーソナルデータを統計するときに条件付き確率はよく使われる。
データ同化
モデルをデータに近づけること
世界の統計結果と自分の体験知識をくっ付ける
ベイズの定理
DのもとでHである確率 = HのもとでDである確率 / Dである確率
ベイズ更新
ベイズの定理を利用して出した確率を、「事前確率」として更にベイズの定理を計算すること。
これを繰り返せば繰り返すほど、精度が上がっていく。
ニューラルネットワーク
統計学によく使われる、人間の脳と似た構造のネットワーク。
その中にベイジアンネットという、ベイズ統計学によく使われる考え方がある。
統計学とベイズ統計学
母集団 = ターゲット集団
母集団の平均を母平均という。
母平均は統計学では一つの固定した値。
母平均はベイズ統計学では確率変数で、確率分布に従う。
統計学:設備の温度の平均は時によってまばらだが、「確率1で100度」というように(月に毎週朝、温度を測って)仮定して、その仮定の集まり(標本)を使用して推定する。
ベイズ統計学:設備の温度は確率変数で100度である確率は90%、100度でない可能性も存在する。標本を取り、温度を推定するのではなくて、温度と確率密度関数のセット"確率分布"(x%でy度)を使用して推定する。
ベイズ統計学の基礎
データをD、モデルmにおけるパラメータをwとする。
モデル:統計の主題。例えば「浮気の確率について」など。
パラメータ:モデルのパラメータ。例えば浮気をしてるかしてないか。
事前分布
p(w|m)。
証拠が見つかる前の浮気してる確率。
尤度
p(D|w,m)。
あるパラメータにおけるデータの尤も(もっとも)らしさ。
事後分布
p(w|D,m)。
証拠が見つかった後の浮気してる確率。
エビデンス
p(D|m)。
データの周辺尤度。
データに対するモデルの尤もらしさ。
ベイズの定理
事後分布 = (尤度*事前分布)/エビデンス
推定
統計学(ベイズは含めない)でよく使われる。
白黒つけたがる。
最尤推定
あるデータからパラメータを推定すること。
データから浮気をしてるかしてないかを推定すること。
MAP推定
最大事後確率推定。
事後確率の高い方の確率をとるということ。
予測分布
新たなデータ(新たな浮気の証拠の存在)を予測する分布。
ベイズ推定
事前分布を考えて事後分布を推定すること。
ニューラルネットとベイジアンネットの違い
NNは一つ一つのニューロンに対して数値が設定されるが、
BNは数値ではなく、確率分布が設定される。
BNはパラメータの事前分布を考えるNN。
ライブラリ
クロス集計は
棒グラフ
変化の様子もみたいときは
面グラフ
帯グラフ
結果が1種類の時は
比較が目的->棒グラフ
変化の様子(トレンド)->折れ線グラフ
結果が複数種類の時は
比較が目的 -> 折れ線グラフ(多分)(もしかしたら棒グラフかも?)
変化の様子(トレンド)-> 帯グラフ(|面グラフ)
回帰直線
散布図に線を引いたやつ
無作為標本抽出
無作為に取り出したデータ
母平均や母分散は一般には測定不可能(未知)。
標本平均や(標本分散|標本不偏分散)から推定する。
根源事象
サイコロの確率で例えれば
1,2,3,4,5,6。
標本空間
サイコロの確率で例えれば
U={1,2,3,4,5,6}
事象
Uの一部
例:偶数の出目
数学的確率
Uのうちの何%か。
統計的確率
サイコロを何回も投げて偶数が何回出たか数える
確率の公理
0以上1以下、ある事象が起きる確率は重複しない事象の要素の確率の和
確率平均・期待値(母平均の近似)
U = {1,2,3,4,5,6}のとき
P(1) = 1/6
P(2) = 1/6
...
P(6) = 1/6
で、そのときの母平均の近似(確率平均/期待値)は
1P(1)+2P(2)+3P(3)+...6P(6)