0.はじめに
大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)
データサイエンス学習全体像
【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率
1.概要
機械学習の本質をより詳しく学ぶため確率の講義を受講した
機械学習アルゴリズムはパターン予測を行うため確率と密接な関係がある
統計学においてもいくつか計算を学んだため別途投稿する予定
記述方式
確率はP(probability)
結果がA、それに伴う原因がBとするとき
P(結果、原因)
と表す
2.実世界の不確実性
ボールを投げると想定通りの放物線は描けない
現実世界の問題を取り扱う際は不確実性が伴う
そこでベイズ理論を用いる解決策がある
ベイズ理論
結果から原因が何かを求めることができる理論
事前知識は新しいデータを吸収することによってさらに優れた事後知識へと変わる
確率論の枠組みに基づき推論・決定を行う
機械学習や自然言語処理等のデータを扱う分野で多く使われる
3.種類・定理
種類
-
同時確率
事象Aと事象Bがともに起こる確率
P (A,B)
と表す
高校数学ではP (A ∩ B)
同時確率は乗法定理を用いることができる -
条件付き確率
事象Aが事象Bが起こった条件のもとに起こる確率
P (A | B)
と表す
高校数学ではPB(A)
A given B
と読む
定理
-
乗法定理
同時確率は以下の数式で表わすことができる
P(A,B) = P (A | B) P(B)
-
加法定理
AとBの重なっている所はP (A ∩ B)
確率Aと確率Bを足して引くことの数式が以下になる
P( A U B ) = P(A) + P(B) - P(A ∩ B)
-
周辺化
事象Aの確率 P(A)は以下の数式で表す
P(A) = ΣB,P(A,B)
システム
確定を有するシステム
B→Aの場合、 「Bが起こったらAになる」 と解釈する
状態が確率的になるため関数の表現では不可能なため確率分布による表現を用いる
不確実性を有するシステム
P(A|B)
確定システムはBが起こったらAになると一方的だが不確実性を有するシステムは
必ずそのような結果を導き出すとは限らない
「濡れている地面を見て雨が降ったか」 雨は降ったかもしれないが誰かが水を撒いたかもしれない
よって確定システムのようにP(A|B) =1
ではなく P(A|B) ≠1
となる
不確実性を伴っているので1とはならず0.5%などの確率に終着する
「100人中10人が感染する確率は10%」だが別の条件を重ねることで確率が更新される
4.マルコフ過程
P(元の状態,変化した後の状態)として表す
P(A.B)であればAからBに変化したということ
P(A,A)もありうる、Aのまま変化せずの状態ということ
マルコフ過程は「行列の形」になる
A,B,Cの過程を表に表す
推移するパターンが考えられる
A | B | C | |
---|---|---|---|
A | P(A,A) | P(A,B) | P(A,C) |
B | P(B,A) | P(B,B) | P(B,C) |
C | P(C,A) | P(C,B) | P(C,C) |
このテーブル行列の形式に表すことが可能
P =
\begin{pmatrix}
P(A,A) \;\;\;P(A,B) \;\;\;P(A,C)\\
P(B,A) \;\;\;P(B,B) \;\;\;P(B,C)\\
P(C,A) \;\;\;P(C,B) \;\;\;P(C,C)\\
\end{pmatrix}
5.変数
量的変数について
「離散」と「連続」に分類することができる
以下E(x)を確率密度関数
と呼ばれる
離散型確率変数
離散的に測定されるもの
離散数やテストの点数など確定的なものが挙げられる
計算方法
E(x) = \sum_{i=1}^{m} a_i・p_i
連続型確率変数
連続数、身長など140cmでも表せるが140.33432など連続的に表せられる
形状はいろいろあるが曲線状になる
積分と同じく係数を増やしていくほど滑らかになる
計算方法
E(x) = \int_{-∞}^{∞}x・f(x)dx
積分より面積を算出することにより確率の範囲を把握することが可能
備考
条件付確率の考え方のコツ
管理職 | 非管理職 | 合計 | |
---|---|---|---|
男性 | 20 | 40 | 60 |
女性 | 10 | 30 | 40 |
合計 | 30 | 70 | 100 |
Q. 「男性である」中で「管理職」は?
A. 個数÷全体で確率が求められる
男性であるは60/100・・・全体
管理職なのは20/100・・・個数
「男性であり管理職」を全体の「男性である」人数で割ればいい
よって20/100 ÷60/100で求められる
乗法定理の簡単な考え方のコツ
Q. 10人のうち4人が女性、6人が男性の集団から2人を無作為で選んだ場合の女性の確率
A. 2人目を選ぶ際は1人目を除外した確率を考えればいい
1人目:4/10
2人目:3/9
両者を掛け合わせると
4/10 × 3/9 = 2/15
1回目の確率と2回目の確率(1回目を除外した確率)を掛け合わせればいい
確率変数の考え方のコツ
Q.コインを3回投げて表が出る確率
A.「裏しか出ない確率」を1から引く
あくまで考え方だが全体の1から目的以外の確率を引くことで
目的の確率が求められる
コイン(1/2)を3回投げるので1/2^3 = 1/8
各々の確率は1/8となる
裏しか出ない確率は1/8
1- 1/8 =7/8
よって表が出る確率は7/8となる