4
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

【数C】文系卒社会人が統計・機械学習を理解するために勉強した

Last updated at Posted at 2016-11-19

#サマリ
統計・機械学習を理解するために数学の知識が足らず勉強を始めました。その経緯などは「文系卒が統計・機械学習を理解するための数学勉強方法」を参照ください。
参考リンク

項目 内容
総勉強時間 16.5h(約1.5か月)
使用教材 長岡先生の授業が聞ける高校数学の教科書数学 (考える大人の学び直しシリーズ)
数Ⅲは約160ページの内容です(うち、約30ページは付属DVD内のPDFファイルにしかありません)。
勉強開始前の状態 数学の勉強は高校以来やっていない状態。数学は嫌いではないが、高校2年生くらいで授業についていくのが辛くなり始めていました。ちなみに高校が付属校なので大学受験はしていません。
数Ⅰ、数A、数Ⅱ、数B、数Ⅲは同じ教材で学習済み。
#やった内容
###1. 行列とその応用
プログラミングで配列をやっている人からすると馴染みやすいです。↓のように数を行と列で並べたっ物を行列と呼びます。

\left(
\begin{array}{cc}
1 & 22 \
333 & 4 \
\end{array}
\right)


行列を足したり、掛けたりをしていきます。行列の積では、通常の数同士の席と異なり、順序性により計算結果が変わるので注意が必要です。
そして、行列を使って連立1次方程式を解いたりグラフ上の対称移動・回転移動をします。
###2. 式と曲線
####2次曲線
$y=f(x)$を満たす点の集合体として、軌跡という考え方で方程式を捉えます。放物線、楕円、双曲線をここでは学びます。
####媒介変数表示と極座標
$x=f(t), \; y=f(t)$のように媒介変数$t$を介して関数を表示する場合、**媒介変数表示**と言います。
今まで平面上の点の位置を表すのに直交座標を使っていましたが、ここでは極座標という考え方を学びます。詳しくは[リンク先](http://mathtrain.jp/kyokuzahyo)を参照ください。また、極座標における$r$と$\theta$を使った**極方程式**で直線や曲線を表すこともできる(例:$r=1, \; \theta$は任意で半径1の円を示す)。
###3. 確率分布
####確率の計算
**まずは基本の和事象($A\cup B$)、積事象($A\cap B$)です。**AまたはBの和集合で表されるのが和事象、AかつBの場合が積事象です。
**条件つき確率**$P_A(B)$や*確率の乗法定義**$P(A\cap B)=P(A)P_A(B)$を学びます。
####確率分布
確率変数とその平均・分散・標準偏差は、それぞれ以下の式で表します。

>```math
平均:E(X)=m\\
分散:V(X)=E((X-m)^2)=\sum_{k=1}^n(x_k-m)^2p_k\\
標準偏差:\sigma(X)=\sqrt{V(X)}

####二項分布
二項分布は2種類の確率にわけられた場合の確率分布です。数学Aでやった二項定理の発展版です。二項分布$B(n,p)$の平均・分散・標準偏差はそれぞれ以下の式で表します。

平均:E(X)=np\
分散:V(X)=npq\
標準偏差:\sigma(X)=\sqrt{npq}\
*q=1-p


###4. 統計処理
####標本調査
この辺りは統計学の初歩として学ぶ内容です。標本平均の平均・分散・標準偏差を学びます。
####正規分布
正規分布について学びます。平均$m$と標準偏差$\sigma$とする確率密度関数は以下の式となります(残念ながら、証明まではテキストに載っていませんでした・・・)。

>```math
f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-m)^2}{2\sigma^2}}

そして、平均0、標準偏差が1の標準正規分布は上記の式が簡便になって以下の式で表せます。

h(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}


また、正規分布の標準化$N(m,\sigma^2)$に従うとき、$Z=\frac{X-m}{\sigma}$で計算される確率変数$Z$は、標準正規分布$N(0,1)$に従います。
####推定
母平均の推定をします。信頼区間を使って区間推定をします。よく使われる信頼度95%では$\overline{X}\pm1.96\frac{\sigma}{\sqrt n}$の範囲が母平均$m$の信頼区間となります。
そして、母比率の推定もします。大きさ$n$の標本の標本比率が$\overline{p}$であるとき、母比率$p$の信頼区間は95%の信頼度で、$\overline{p}\pm1.96\sqrt{\frac{\overline{p}(1-\overline{p})}{n}}$となります。
#感想
第2章の式と曲線は難しかったですが、**他はそんなにも難しく感じませんでした。**ようやく、**高校数学から統計学につながった**と思いましたが、正規分布の式がなぜ$f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-m)^2}{2\sigma^2}}$となるかが理解できていません。どうもガウス積分というものを前提として理解しないといけないようです・・・
#「文系卒社会人が統計・機械学習を理解するために勉強した」シリーズの最後に
ようやく数学Cを終えて、高校数学の勉強を終えました:grinning:
ひとつの達成感を得ました。その結果、どうなったかは、また別途記事を投稿しようかと思います。そして、まだまだ勉強を続けているのでその内容も投稿します。
4
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?