データの種類
- 質的データ
- 「好き」「嫌い」、「男」「女」など、数字で表現が出来ないもの
- 上記は二値変数、「大好き」「好き」「普通」「嫌い」「クソ嫌い」は5値変数となる
- 量的データ
- 身長、体重等の数字で表せるもの
- 多次元データ
- 1つの観測対象に対して1つのデータの場合、1次元データという
- 1つの観測対象に対してn個のデータの場合、主1次元以上のデータについて、多次元データという
- 多次元データでは属性値の分析だけではなく、属性間の相互関係分析が行われる事が一般的
- 時系列データ
- 同じ調査項目を一定時間毎に同じ場所で計測し、取得できるデータ
- 前後の値に相関があるため、個々のデータを独立したものとして扱うと分析を誤る可能性があるので注意。
- クロスセクションデータ
- 同じ調査項目を異なる場所で計測し、取得できるデータ(例:各国の人口)
- 同じ調査項目を異なる場所で計測し、取得できるデータ(例:各国の人口)
- パネルデータ
- 同じ調査項目を一定時間毎に異なる場所で計測し、取得できるデータ(例:各国の人口の年推移とか?)
統計学(頻度主義)における分析プロセス
- まずやる事
何を対象にどのようなことを分析するか考えることでなければならない
分析を行うべき仮説を考えることである
仮説がないままに、むやみにデータを集めてそれを分析しても何の意味もない
- データ収集してから事後分布を考える様なベイズ推論になるとこの限りでなさそうだが・・・・一旦受け入れる
業務に使うには・・・統計データの定義に注意!
以下の項目は常に明確にせよ。
- [ ]誰がそのデータを集めたのか?
- [ ]全数調査か?標本調査か?
- [ ]だれ(何)を対象にした物か?
- [ ]いつ収集したデータか?
- [ ]地域は限定されているか?
- [ ]分類がある場合、それはどんな定義か?
得られた結果の表現は正確に、誤解が無いようにすべき
今日使ったRコマンドまとめ
ワーキングディレクトリを知りたい!
getwd()
実施結果
getwd()
[1] "/Users/hirudai/Documents/rwork/yasaR"
ワーキングディレクトリを変えたい!
setwd("path")
実施結果
setwd("../")
getwd()
[1] "/Users/hirudai/Documents/rwork"
ファイル読みたい!
read.csv("file_path")
実施結果
read.csv("tes.csv")
name height weight
1 bababa 179 70
2 gagaga 140 50
3 vsi 250 120