More than 5 years have passed since last update.

The Vision/統計・機械学習日誌～斯くして、私はデータサイエンティストになるのか～

Last updated at 2019-03-23Posted at 2019-03-22

　統計学を学びはじめる　#2

Hi!

2回目データサイエンス活動、略して”デーかつ”。いっきまーす☆

本日の内容は、、、、、、

記述統計

⑴前回紹介した

大学4年間の統計学が10時間でざっと学べる(以降は”大学4年間”と略)

のP.75まで。

マセマなら講義6。

統計学基礎なら大体P.35ぐらい。

⑵目的は
各用語の整理、共分散(covariance)、標準偏差(S.D. or standard deviation)
盲点ついてくぜ

良し行くぞ

＜＜＜用語の整理＞＞＞

・記述統計(descriptive statistics)→データ集団の性質を統計的記述方法で理解する方法。
もう一個は推測統計(inferential statistics)っていって、母集団についての情報の推測をする。

！「母集団」＝「データの元集団」

⇒つまり、
[記述統計：データの特徴を理解]⇔[推測統計：データの母集団について考察]

一般的に世間で言われる「統計～調査」とかは推測統計のことをさすことが多い。

・データ

観測とかして数値的なデータ→量的データ
属性、項目、カテゴリー→質的データ

の2種類

・名義尺度、順序尺度、間隔尺度、比尺度とかってあるんだけど重要なのは、比尺度には原点があるということ。

名義尺度、順序尺度が質的変量で、間隔尺度、比尺度が量的変量。

・量的データを表現するのにあたって、"度数分布表"と"ヒストグラム"は超重要。

・平均(mean)

\overline {x}=\dfrac {1}{n}\sum ^{n}_{i=1}x_{i}

・平均からの偏差(deviation：平均からどんだけ離れてるか)を分散(variance)っていう

s^{2}=\dfrac {1}{n}\sum ^{n}_{i=1}\left( x_{i}-\overline {x}\right)^{2} = \dfrac {1}{n}\sum ^{n}_{i=1}x^{2}_{i} - \overline{x}^{2}

こうすることで、データがどのくらいの割合で分布しているか見れる。"右端の式は今後よく出てくるから覚えておくように！"計算はマセマのP.145よんでね。

分散の値のままだと、次元(単位)が2乗のまんまだから、平方根をとって標準偏差(S.D.)とする

S.D=s=\sqrt {s^{2}}=\sqrt {\dfrac {1}{n}\sum ^{n}_{i=1}\left( x_{i}-\overline {x}\right) ^{2}}

こうすりゃ、元データとの単位もあいますと。

・メディアンはデータを大きさ順に並べた時、中間の位置にある値。
・モードは最頻値のことで、要は度数の一番高いやつ

ヒストグラムる

まずはExcelでつくってみる

・
・
・

こんなデータがありますと。

度数分布表は最大値(MAX)と最小値(min)の間をいくつかの階級(class)に分けて、それぞれの階級に含まれる度数(frequency)をカウント。
今回はMAXが150000で、minが68000。俺の家賃は最小値笑

実際、こんな風にして、

度数分布表ができまして、

ヒストグラムがこんな感じ。

こういう基礎は、後々習えなくなるもんだから、今のうちに習熟しておこうね。

次回はいよいよ、最小二乗法！！

乞うご期待！

Go Beyond the limits

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

The Vision/統計・機械学習日誌～斯くして、私はデータサイエンティストになるのか～

統計学を学びはじめる #2

＜＜＜用語の整理＞＞＞

ヒストグラムる

　統計学を学びはじめる　#2