前回の続きです。
今回取り上げる内容
- データセット読み込み・確認
- 外部からのデータセット読み込み
データセット読み込み
データセットとは
データセットを読み込もう
今回は"iris"というデータを読み込んでみます
データ・セットの読み込み
- コンソール(Rstudioの左下ウィンドウ)に
data(iris)
と入力し、Enter
console
>data(iris)
- データセット"iris"が読み込まれます
- Rstudioの右上ウィンドウの[Environment]項目を選択した状態で、
iris
という項目が増えることを確認
読み込んだデータセットの確認
- コンソールにデータセット名(今回は
iris
)を入力し、Enter
console
>iris
- データセットの内容がコンソール部分に出力される。ずらずらずら〜
データセットを表の形で確認(Rstudio)
方法は2つ
- 右上ウィンドウの
iris
の行左端にある表っぽいアイコンをクリック - または、コンソールに
View(iris)
を入力
console
>View(iris)
するとあら簡単、エクセルみたいな形でデータの確認ができます。Rstudioの有り難み。
データセットを要約
- Rに入っているsummary関数を使用します
console
>summary(iris)
- 平均値、中央値など計算して出力してくれます
データセットの説明を確認する
- データセットの説明をブラウザから確認しても良いのですが、Rstudioの中でも確認できます
- コンソールに以下を入力
console
>help(iris)
- 右下ウィンドウがヘルプ表示に切り替わって、データセットの説明を表示してくれます(英語で!)
- このhelp関数は、データセットだけでなく関数の詳細を知るのにも役立つので覚えておくと便利です
外部からのデータセット読み込み
Rからのデータセットで統計の勉強をしたら、自分が測定したデータセットを読み込んで実践してみましょう
注意
- 今回はエクセルファイルではなくcsvファイルを読み込む場合の説明をします
- 日本語が含まれるファイルを使用する場合、文字コードに注意。普通にエクセルで編集したファイルをcsv形式で保存しても、Rにインポート(読み込み)することができません。
- 文字コードがUTF-8ではなくShift-JISになってしまうので、
「不正なマルチバイト文字が含まれます」
というエラーが出る。 - 詳しい保存方法の説明はこちらを見てください
- 間違ってShift-JIS保存してしまった場合の対処はこちらをどうぞ
自分で作成したデータセットを読み込もう
Rstudioを使用する場合、読み込み方法は2通り
- コンソールから読み込み(普通のRの方法, CLI)
- "データをインポート"(Rstudioのみ可, GCI)
コンソールから読み込み(CLI)
プログラミングに慣れていないと難しいかも
console
> data1 <- read.csv("~/Documents/testdata.csv", header=TRUE)
- Documentsに保存されている"testdata.csv"というファイルをdata1という変数に入れています
-
header=TRUE
の部分で、データの一行目を見出しとして読み込みます。書かなかった場合、データセットの一行目から全てデータセットとして扱われます - csvを読み込む関数について、詳しくは以下をコンソールに入力して説明を読んでみてください。
列の名前の指定なども関数の入力に従えばいろいろカスタマイズできます
console
> help("read.csv")
- 一旦読み込んでしまえば後は前述と同様の方法でデータの確認ができます。
iris
と入力していたところをdata1
と書き換えて作業してみてください
"データをインポート"(GUI)
- Rstudioの右上の
Import Dataset
をクリック -
From Text File...
を選択 - 読み込みたいcsvファイルを選んで
open
→サンプルが表示されるので確認。 -
Heading:Yes
で見出しを設定 -
Row Names:Automatic
でデータの1列目を見出しとして設定。ただしデータ名が重複していない場合のみ設定可能 - あとの設定はそのままで一旦大丈夫。読み込みましょう
- データセット読み込み後、左上のウィンドウに表の形でデータが表示される
- データセットを格納している変数名は、表の上のタブやコンソール中の最初の単語で確認可能。基本はcsvのファイル名そのままのはず
とりあえずデータの読み込みまで!