言語と統計
言語処理において統計が必要となる背景には、変異の存在と大量のデータ処理という二つの側面があります。
変異とはバリエーションとも言い、たとえば年齢や性別、出身地などによって用いる言葉が異なる、そのような差異を重視するときに統計が重要な役割を果たすことがあります。
言語と統計の関わりにはさまざまなパターンがあり、対象とする問題領域と手法に応じて統計の使い方も変わってきます。
大量データ処理と統計
自然言語処理のように工学的な見地から言語を取り扱う場合、コーパスと呼ばれる大量の言語データを用います。
例えばどの単語が何回出てくるかを数えるワードカウントという処理は、やることは単に数えるだけとはいえ、出現頻度を集計する統計処理であると言えます。
またある文書が与えられたとき、それがどういった分野に属するかを分類するといったときに、多変量解析などの手法が用いられます。
確率の定義
試行 (trial) とは同じ条件のもとで実験や観察をすることを言い、試行を繰り返したことで出てきた現象を 事象 (event) と呼びます。これ以上わけることのできない事象を根源事象と言います。
事象 A が起こる確率を P(A) とし以下のように定義します。
P(A) = \frac {A の起こる場合の数} {全体の場合の数}
このような定義は根源事象に基づいて考えています。しかし根源事象 (単集合) には場合の数が等しいこと、すなわち等確率がその前提に含まれています。根源事象が等確率であることを定義するためには確率が必要ですから、これでは定義が循環してしまいます。
そこで現実的な考え方として代わりに実際に試行を繰り返すことで確率を捉える経験的確率で定義します。
P(A) = \frac {A の観測された回数} {試行をおこなった回数}
これは直感的です。たとえば、サイコロを 100 回振って奇数が出た回数が 49 回なら、奇数が出る確率は 49% となります。
言語処理において確率を算出する場合、このように経験的確率を取り扱うものであることが多いと言えます。
確率の範囲
どんな確率でも値は 0 から 1 の間に収まります。任意の事象 A について P(A) = 1 は必ず発生する、 P(A) = 0 は全く発生しないことを示します。
0 \gt P(A) \gt 1
余事象
事象 A が起きない事象のことを A の 余事象 (complementary event) と呼びます。
P(\overline{A}) = 1 - P(A)
条件付き確率
自然文書で「阜」という漢字の登場回数は非常に少ないでしょう。しかしながら「岐」という漢字の直後であれば「阜」が出現する確率は非常に高くなります。
このように、ある一定の条件の下では確率が大きく変動することがあります。このようなある条件の下での確率が「条件付き確率」です。
B を条件とする A の条件付き確率 P(A|B) は次のように定義されます。
P(A \mid B) = \frac {P(A \cap B)} {P(B)} \\
ただし P(B) \neq 0
同時確率
事象 A と事象 B がどちらも起こることを次のように表します。
A \cap B
あるいは P(A,B) とも表記します。この確率を A と B の 同時確率または結合確率 (joint probability) と呼びます。
周辺確率
条件付き確率に大して、条件のない普通の確率を 周辺確率 (marginal probability) と呼びます。
これは要するに P(A) と等価であり、条件付き確率との対比としての呼び名を付けたに過ぎません。
ベイズの定理
確率の乗法定理が次のように求まります。
P(A \cap B) = P(A \mid B)P(B) = P(B \mid A)P(A)
これを変形すると次のようにベイズの定理が得られます。
P(B \mid A) = \frac {P(A \mid B)P(B)} {P(A)}
ベイズの定理は直接求めることの難しい P(B|A) を導くことができます。
独立
ある事象 A が起こる確率が他の事象 B に影響されないとき A と B は独立であると定義されます。
つまり
P(A \mid B) = P(A)
となることを指します。しかしこの定義では P(B) = 0 のときに条件付き確率が定義できないため、独立も定義できなくなります。したがって独立とは
P(A \cap B) = P(A)P(B)
となることであると定義します。
排反
事象 A も 事象 B も両方起こることがないことを排反と言います。すなわち排反とは
P(A \cap B) = 0
となることを指します。
確率の加法定理
事象 A と事象 B の少なくとも一方が起きる確率について
P(A \cup B) = P(A) + P(B) - P(A \cap B)
が成り立ちます。とくに A と B が排反であるとき
P(A \cup B) = P(A) + P(B)
となります。
まとめ
今回は言語現象を確率的にとらえるための確率の考え方について基礎的な定理をまとめました。