統計学とは
昨日は先物取引を例に金融データをモデル化・シミュレーションする例を説明しました。
統計学はそもそも様々な応用分野で成熟してきたものです。その源流は主に次の 3 つに大別されます。
- 国の実態をとらえるための「統計」
- 大量の事象をとらえるための「統計」
- 確率的事象をとらえるための「統計」
19 世紀の半ばにアドルフ・ケトレーによって社会現象・自然現象いずれも数量的にとらえる「統計」として成立しました。「近代統計学の父」の功績からまだ 150 年前後しか経過していないというわけです。
今日はここで再び基本に立ち返り、様々な分野におけるキーワードを整理し、データ分析における基礎知識を固めて行きましょう。
統計的手法
人文・社会科学の分野ではアンケートなどの社会調査、自然科学の分野では実験によりデータが集められます。これらは変数として扱われます。
-
実験計画
どのようなデータを収集して変数として取り扱うか、どのような評価をするか検討することです。
統計の世界の格言に GIGO (garbage in, garbage out.) 「ゴミを入れたらゴミしか出てこない」という言葉があり、実験計画はとくに重要視されます。 -
記述統計と推定統計
記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。
推測統計とは、記述統計によって要約されたデータから母集団全体の特徴や性質を推測することです。 -
尺度水準
変数の尺度はその性質について次のような水準に分類されます。
これは以前にも書いた通りですね。質的データ 名義尺度:単なる番号で順番の意味はない。電話番号、背番号など。 順序尺度:順序が意味を持つ番号。階級や階層など。 量的データ 間隔尺度:ゼロを起点としない連続変数で、間隔には意味がある。 比率尺度:ゼロを起点とする連続変数で、間隔だけでなく比率にも意味がある。
理工学分野で使われる統計の基本的なキーワード
医療、物理化学など自然科学・理工学分野でよく使われる用語とその説明をしていきます。
多変量解析
データ分析に際してはいくつかの確率変数が同時に得られることが常です。このときには多変量解析をおこないます。一般的に確率変数は正規分布に従っていることを仮定することが多く、正規分布以外での多変量解析にはかなりの困難が伴います。
確率過程
確率変数 X が時間変化をともなう X(t)と記述されるときこれを確率過程と言います。
ランダムウォーク
離散的な値 i に対する確率変数を Xi (d 次元) とします。 Xi (i = 1,...,n) が独立で同一の分布に従うとき、次の式をランダムウォークと言います。
S_n = X_1 + ... + X_n
再帰確率とは、原点から出発したランダムウォークが有限回数後再び原点に帰ってくる確率です。
d = 1 の 1 次元で Xi がプラスマイナス 1 の場合には右に動く確率を p, 0 < p < 1 とするとき、再帰確率 R は次式に従います。
R = 1 - |p - q| > 0
マルコフ過程
未来の X 条件付き分布が現在の状態だけに依存して過去の履歴には無関係であるとき、これをマルコフ過程と言います。
マルコフ過程には、離散的な値に対して動く離散マルコフ過程、時間に関して連続的に動く連続マルコフ過程などがあります。マルコフ過程の分布は遷移確率によって決まります。
ポアソン過程
ある事象は時間的にどのタイミングで発生するかわからない、しかし平均的に見ると一定の割合 λ で発生するとします。このとき、ある時間間隔 t の間に事象が何回発生するかカウントしてみます。このカウントの回数 N = N(t) は離散確率変数でありその分布は P(N(t) = k) と記述できます。
Nt を時刻 t より前に発生した事象の回数とすると次式が得られます。
P(N_t = k) = \frac{e}{k!}
この計算過程を待ち時間のほうから考えてみます。最初の事象が発生するまでの待機時間 T は指数分布による連続確率変数になります。この確率分布は次式で表されます。
P(T > t) = P(N_t = 0)
マルコフ連鎖
離散時間マルコフ過程のうち、とりうる状態が有限または可算である場合、これをマルコフ連鎖と言います。次式で示されます。
Pr(X_{n+1} = x|X_n = x_n,...,X_1 = x_1,X_0 = x_0) = Pr(X_{n+1} = x|X_n = x_n)
とりうる値の集合は連鎖の状態空間と呼ばれます。マルコフ連鎖は有向グラフで表現され、ある状態から他の状態へ遷移する確率によって挙動が決まります。
状態空間が有限のとき、連続確率分布は行列 P で表されます。これを遷移行列と言います。
線形推測
興味ある確率変数の値 y が変数 x によってコントロールされて決まる。すなわち次式の関係にある場合を考えてみます。
y = f(x)
x と y が対になって観測されるとき f を推定しておいて新しい x に対する y を予測したいというケースは多々あります。特に f が線形関係で表されるときに線形推測と言います。
線形モデル
独立変数 (説明変数) X1,...,Xp をパラメータβ0,β1,...,βp によって線形結合させて応答変数 Y を次式で表すモデルはよく使われます。
E(Y) = \beta_0 + \sum_{j=1}^{p}X_j\beta_j
βを求める方法については昨今の機械学習ブームの影響もありいくつかの典型的なパターンがあります。その一つが正則化法で最小二乗法で用いる残差平方和にペナルティ関数を加えることで予測誤差を安定的に最小化しようとするものです。
一般化線形モデル
応答変数 Y は指数型分布族に従うと仮定します。一般化線形モデルとは、 Y の平均や確率をある関数で変換したとき、それがパラメータ 1 次結合
g(\mu_i) = X_i^T\beta
で表されるモデルです。この関数 g() をリンク関数と言います。
線形対比
対比とは、処理間の比較 (差) を表現するために各水準での処理の平均と与えた係数をかけた合計を表したものです。 (ただし係数の和を 0 とする)
たとえば 3 つの処理法 A, B, C を考えた時、処理 A と処理 B の平均と処理 C の差は次式として対比をおこなうことができます。
C_A = 0.5, C_B = 0.5, C_C = -1
線形制約
下記モデルについて考えます。
y = X_{\beta} + \varepsilon
これにおいて、予測式 ^y = X^β と観測値 y の残差 RSS
RSS = {\sum}(\widehat{y}-y_i)^2
の最小解は
{\widehat{\beta}} = (X^T X)^{-1}X^Ty
で与えられます。
パラメータ間に r 個の線形制約条件 Lβ = C をもうけて RSS を最小化する場合を考えてみます。 L は r x p 行列、 C は r 次のベクトルです。この時の解 `B は
{\grave{\beta}} = {\widehat{\beta}} - (X^T X)^{-1}L^T(L(X^T X)^{-1}L^T)^{-1}(L{\widehat{\beta}} - C)
で与えられます。
漸近理論
観測される確率変数の数が大きくなると、たとえば標本平均は真の平均値に近づくなど、統計量に良い影響を与えます。またサンプルが得られた時の確率に対応した尤度に基づいて未知パラメータを推定することができ、また測定誤差を求めることができます。
中心極限定理
Xi が独立同一分布に従うとします。
E[X_i] = {\mu}Var[X_i] = {\sigma}^2
とします。
S_n = {\sum_{i=1}^n}X_i
とするとき
(S_n - n{\mu}) / \sqrt{n{\sigma}^2} {\xrightarrow[]{D}} N(0,1), (n {\xrightarrow[]{}} {\infty})
となります。これを中心極限定理と言います。
考察
理工系分野に応用される統計学のキーワードを駆け足で説明しました。いずれも統計解析でよく登場するものなのでしっかり把握しておく必要があります。また数式が読み書きできないと、なにを分析しようとしているのか、どんなコードを書けばいいのか、把握することができません。基本的な数式の読み書きにも慣れておきましょう。
参考
今回の記事では以下の書籍を参考にしました。
ブログ記事ではとても統計学についてすべてを説明しきれませんから教科書を読んで学びましょう。
日本統計学会公式認定 統計検定1級対応 統計学 [単行本]
http://www.amazon.co.jp/dp/448902150X