個人的なまとめ。2016/03/02に実施。
connpass
概要
イントロダクション
- 統計流行ってる
- でもp値とかよくわからない
- 統計の前の数学が欠けているからだよね
- 初頭統計学の前に数学
- だから数学を基礎からやるお
本勉強会のゴール
- SVMとか回帰とかベイズ統計とかがある程度理解できるといいね
勉強会の範囲
- 統計的手法の基礎である数学の理解
- 記述統計について理解
- Σ記号の処理とか
- 基本的な確率論とか
- 極限・積分とか
やらないこと
- 推測統計を超える範囲はやらない
- Pythonなどでの実装方法
- 大学数学の範囲
- 線形代数(ベクトル・行列)
- 偏微分・多重積分
- 対数関数
進め方
- 輪読形式
- インフォーマル
- 1か月に1回くらいを目安
- ページ数的に10回くらい
テキストp1-16
- 脱ゆとり世代は統計学を学んでいる
- 代表値とデータのばらつきが記述的統計学ではよく出る
平均とは
- 数学的には、合計 / 個数
- 外れ値の影響を受ける
割り算の意味
- 6/3 =2 の解釈は二つに分かれる
-
等分除
- 6個の饅頭を3セットに分けると2個ずつ
- 一つ当たりの量を求める計算
-
包含除
- 6個の饅頭を3個ずつに分けると1セットは2個
- 一つ当たりの量を求める計算
異なる単位同氏は等分除(400mlで120円)
同じ単位同士は包含除(60人中50人など)
この概念は算数を学ぶこどもが持ってほしいものらしい
統計の時は単位の意識づけにかかわる部分
テキストp17- ( @f_nishiharaさん)
グラフの目的
- データをわかりやすく伝える
- データの中から情報を見つけ出す
グラフを学ぶときの注意点
- グラフがどんなデータを表すか(what)
- グラフはデータをどのように表すのか(how)
グラフの種類
棒グラフ
-
対象データ
- 定点から積み上げていく大小のあるデータ
-
どのようにして
- 棒の長さで表現
折れ線グラフ
- 時系列(等)で変化を表現するグラフ
- 単位をいじって傾きを誇張するとゆがむ
円グラフ
- 比率を表現する
- 中心角の角度で表現
帯グラフ
- 割合を比べるグラフ
-
円グラフとの違いは
- 棒の長さで表現
- 単独使用では円グラフとそこまで変わらない
- 複数並べて比較しやすい
-
人間は角度より長さのほうが識別しやすい
- 円グラフで微量な差は識別しづらい
- 円グラフは統計の分野ではあまり積極的には使われない
- 正方形のスペースいるし・・
グラフこぼれ話
- 3Dのグラフの視点を変えて表示すると遠近法も重なって数字以上に伸びて見える
- 2軸のデータに3Dを使う理由はある
ヒストグラム
- データ全体の分布を表すグラフ
- 平均が同じでも傾向が違うことを明らかにする
- 棒グラフは要素の量を表し、ヒストグラムはデータ全体を示す
-
ヒストグラムはデータを長さだけでなく、面積で表すこともある
- 疎な区間の複数の棒をまとめて表示したりする
- 参考
棒グラフは要素が連続していないので、本来はそれぞれの棒を離すべき
ヒストグラムは値が連続しているのでつなげる