2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

統計学 メモ

Last updated at Posted at 2018-04-19

統計学

標本

母集団の中の一部のデータ

標本平均

標本の平均

標本分散

それぞれのデータの標本平均からのズレの2乗の平均
{(A-平均)^2+(B-平均)^2}/個数

標本標準偏差

s
√標本分散
るーとになると絶対値になる

標本不偏分散

標本のデータのばらつきだが、より母分散に近い値。
u^2 = 標本分散*データの個数/データの個数-1

標本不偏分散の標準偏差(標本不偏標準偏差)

u = √標本不偏分散
るーとになると絶対値になる

母集団

ターゲット集団全体。
この中の一部が標本。

母平均

母集団の平均。

X

主題

x

データ一つ

確率変数

X=x

密度関数

統計データを曲線にする関数

確率分布

密度関数によってあらわされる図

確率分布の面積(積分)

実際の確率

ガウス分布

もっとも有名でよく使われる密度関数
N(μ, σ^2)

母平均

ガウス分布の中央値
μ

分散

σ^2 = {(A-母平均)^2+(B-母平均)^2}/個数
ガウス分布における中央値からのズレ
x = μ+σの時に曲線の角度が90度になる(積分が0)

標準偏差

σ = √母分散

x = μ+3σの時のy

ほとんど0

標準正規分布

ガウス分布が複雑すぎて積分できないので、シンプルにした密度関数。
μを0、σを1としたガウス分布。
ガウス分布のxを標準正規分布のzとする。
z = x - μ / σ
これを標準化という。

-3σから+3σまでの範囲でほとんど100%になる。(実値:0.997)

それを外れると「外れ値」と呼ばれることになる。
-5σから+5σを外れると「異常値」と呼ばれることになる。

人間が決めた誤差を「仕様」という。

仕様を外れた商品は販売できない。

仕様は人間が決める

仕様(SP) = μ-+ERROR (ERRORは人が決める)

自然なばらつき:μ-+3σ (正方向の3σと負方向の3σでシックスシグマと呼ばれる)

SPがシックスシグマより外にある場合には、

シックスシグマを出ても外れ値にも異常値にもならない。

X~N(μ, σ^2)のとき

avg(X)~N(μ, σ^2/n)

(x1 + x2 + ... + xn) / n == avg(x)

x1 + x2 + ... + xn を めもりにするとき、山形になる。
写真参照

パーソナルデータ

個人データ。
その個人の過去データがビッグデータになる。

projection(射影)

2次元から1次元には落とせるが逆は不可

F={1,2}, X={1,2} のとき P(F=1) の確率は P(X=1, F=1)+P(X=2, F=1)

条件付き確率

F=1という条件の下で(F=2という可能性を排除した世界で)、P(X=1) である可能性を P(X=1|F=1) と書く。これを条件付き確率という。
そのとき、 P(X=1|F=1) = P(X=1, F=1)/P(F=1)。
パーソナルデータを統計するときに条件付き確率はよく使われる。

データ同化

モデルをデータに近づけること
世界の統計結果と自分の体験知識をくっ付ける

ベイズの定理

DのもとでHである確率 = HのもとでDである確率 / Dである確率

ベイズ更新

ベイズの定理を利用して出した確率を、「事前確率」として更にベイズの定理を計算すること。
これを繰り返せば繰り返すほど、精度が上がっていく。

ニューラルネットワーク

統計学によく使われる、人間の脳と似た構造のネットワーク。
その中にベイジアンネットという、ベイズ統計学によく使われる考え方がある。

統計学とベイズ統計学

母集団 = ターゲット集団
母集団の平均を母平均という。
母平均は統計学では一つの固定した値。
母平均はベイズ統計学では確率変数で、確率分布に従う。
統計学:設備の温度の平均は時によってまばらだが、「確率1で100度」というように(月に毎週朝、温度を測って)仮定して、その仮定の集まり(標本)を使用して推定する。
ベイズ統計学:設備の温度は確率変数で100度である確率は90%、100度でない可能性も存在する。標本を取り、温度を推定するのではなくて、温度と確率密度関数のセット"確率分布"(x%でy度)を使用して推定する。

ベイズ統計学の基礎

データをD、モデルmにおけるパラメータをwとする。
モデル:統計の主題。例えば「浮気の確率について」など。
パラメータ:モデルのパラメータ。例えば浮気をしてるかしてないか。

事前分布

p(w|m)。
証拠が見つかる前の浮気してる確率。

尤度

p(D|w,m)。
あるパラメータにおけるデータの尤も(もっとも)らしさ。

事後分布

p(w|D,m)。
証拠が見つかった後の浮気してる確率。

エビデンス

p(D|m)。
データの周辺尤度。
データに対するモデルの尤もらしさ。

ベイズの定理

事後分布 = (尤度*事前分布)/エビデンス

推定

統計学(ベイズは含めない)でよく使われる。
白黒つけたがる。

最尤推定

あるデータからパラメータを推定すること。
データから浮気をしてるかしてないかを推定すること。

MAP推定

最大事後確率推定。
事後確率の高い方の確率をとるということ。

予測分布

新たなデータ(新たな浮気の証拠の存在)を予測する分布。

ベイズ推定

事前分布を考えて事後分布を推定すること。

ニューラルネットとベイジアンネットの違い

NNは一つ一つのニューロンに対して数値が設定されるが、
BNは数値ではなく、確率分布が設定される。
BNはパラメータの事前分布を考えるNN。

ライブラリ

クロス集計は

棒グラフ

変化の様子もみたいときは

面グラフ
帯グラフ

結果が1種類の時は

比較が目的->棒グラフ
変化の様子(トレンド)->折れ線グラフ

結果が複数種類の時は

比較が目的 -> 折れ線グラフ(多分)(もしかしたら棒グラフかも?)
変化の様子(トレンド)-> 帯グラフ(|面グラフ)

回帰直線

散布図に線を引いたやつ

無作為標本抽出

無作為に取り出したデータ

母平均や母分散は一般には測定不可能(未知)。

標本平均や(標本分散|標本不偏分散)から推定する。

根源事象

サイコロの確率で例えれば
1,2,3,4,5,6。

標本空間

サイコロの確率で例えれば
U={1,2,3,4,5,6}

事象

Uの一部
例:偶数の出目

数学的確率

Uのうちの何%か。

統計的確率

サイコロを何回も投げて偶数が何回出たか数える

確率の公理

0以上1以下、ある事象が起きる確率は重複しない事象の要素の確率の和

確率平均・期待値(母平均の近似)

U = {1,2,3,4,5,6}のとき
P(1) = 1/6
P(2) = 1/6
...
P(6) = 1/6
で、そのときの母平均の近似(確率平均/期待値)は
1P(1)+2P(2)+3P(3)+...6P(6)

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?