この記事はRStudio Advent Calendar 2016の1日目の記事です。
Rによるデータの読み込み
Rでデータを読み込むには様々な方法があります。一般的によく使われるのがCSVファイルに対してread.csv()
を実行するものがあります。
最近では読み込みのためのパッケージも色々開発されており,高速にCSVファイルを読み込むreadr
パッケージや,Excelのファイル(.xlsや.xlsx)を読みむreadxl
パッケージ,あるいはSASやSPSS,Stataなどのデータを読み込むhaven
パッケージなどを利用して読み込むこともできます。
RStudioのGUIによる読み込み
RStudioにはGUIによるデータ読み込み機能がついています。これまでは.csvぐらいしか読み込めませんでしたが,RStudio v1.0ではreadr
パッケージ・readxl
パッケージ,haven
パッケージを利用して各種データセットを読み込めるようになりました。今回はこれをご紹介します。
Import Datasetボタン
RStudioのEnvironmentタブをクリックし,ImportDatasetをクリックします。
展開されたメニューから,読み込ませたいファイル形式を選択してください。この時,readr
・readxl
・haven
パッケージのどれかがインストールされていない場合,パッケージをインストールするかどうかを尋ねてきます。問題がなければそのままインストールしてください。
From CSV
CSVファイルを読み込む際には,readr
パッケージが利用されます。
"From CSV..."を選択するとダイアログウィンドウが開くので,まずは読み込むファイルを指定します。すると以下のような画面となります:
ファイルを指定すると,Data Previewにデータが表示されます。なお,このPreviewのところで列名をクリックすると,以下のようにデータ型を変更したり除外したりできます:
このData Previewの下にあるImport Optionsで,格納するオブジェクト名(Name:)など各種設定が可能です。大抵のことはこれでカバーできるはずです。
そして最大の特徴は,Code Previewの箇所です。これは読み込み設定した内容を実行するコードを表示しています。よく「GUIだと読み込みのコードが残らなくて不都合が多い。だからダメだ。」という意見を聞きますし,私もそう思います。でもこれならあまり慣れていないユーザーでも読み込みのためのコードを生成できます。ぜひ活用してもらいたいです。
From Excel
Excelファイルを読み込む際には,readxl
パッケージが利用されます。
"From Excel..."を選択するとダイアログウィンドウが開くので,まずは読み込むファイルを指定します。すると以下のような画面となります:
基本的な見方・考え方は考え方は同一で,こちらにもCode Previewが表示されます。またreadxl
パッケージは「どのSheetから読み込むか」を指定することが可能で,そのためのオプションもついています。地味に便利です。
SAS, SPSS, Stataのファイルについて
SAS, SPSS, Stataを選択すると,haven
パッケージを利用して読み込みます。例えば,"From SPSS..."を選択すると,以下のようなダイアログボックスが表示されます:
使い方はこれまでのパターンと同様です。
以上です。せっかくの機能なので,試しに使ってみてください。Enjoy!