RStudioのGUIからデータ読み込み

  • 10
    いいね
  • 0
    コメント

この記事はRStudio Advent Calendar 2016の1日目の記事です。

Rによるデータの読み込み

Rでデータを読み込むには様々な方法があります。一般的によく使われるのがCSVファイルに対してread.csv()を実行するものがあります。

最近では読み込みのためのパッケージも色々開発されており,高速にCSVファイルを読み込むreadrパッケージや,Excelのファイル(.xlsや.xlsx)を読みむreadxlパッケージ,あるいはSASやSPSS,Stataなどのデータを読み込むhavenパッケージなどを利用して読み込むこともできます。

RStudioのGUIによる読み込み

RStudioにはGUIによるデータ読み込み機能がついています。これまでは.csvぐらいしか読み込めませんでしたが,RStudio v1.0ではreadrパッケージ・readxlパッケージ,havenパッケージを利用して各種データセットを読み込めるようになりました。今回はこれをご紹介します。

Import Datasetボタン

RStudioのEnvironmentタブをクリックし,ImportDatasetをクリックします。

Import_Dataset_menu.png

展開されたメニューから,読み込ませたいファイル形式を選択してください。この時,readrreadxlhavenパッケージのどれかがインストールされていない場合,パッケージをインストールするかどうかを尋ねてきます。問題がなければそのままインストールしてください。

From CSV

CSVファイルを読み込む際には,readrパッケージが利用されます。

"From CSV..."を選択するとダイアログウィンドウが開くので,まずは読み込むファイルを指定します。すると以下のような画面となります:

Import_Dataset_from_CSV.png

ファイルを指定すると,Data Previewにデータが表示されます。なお,このPreviewのところで列名をクリックすると,以下のようにデータ型を変更したり除外したりできます:

Import_Dataset_select_class.png

このData Previewの下にあるImport Optionsで,格納するオブジェクト名(Name:)など各種設定が可能です。大抵のことはこれでカバーできるはずです。

そして最大の特徴は,Code Previewの箇所です。これは読み込み設定した内容を実行するコードを表示しています。よく「GUIだと読み込みのコードが残らなくて不都合が多い。だからダメだ。」という意見を聞きますし,私もそう思います。でもこれならあまり慣れていないユーザーでも読み込みのためのコードを生成できます。ぜひ活用してもらいたいです。

From Excel

Excelファイルを読み込む際には,readxlパッケージが利用されます。

"From Excel..."を選択するとダイアログウィンドウが開くので,まずは読み込むファイルを指定します。すると以下のような画面となります:

Import_Dataset_From_Excel.png

基本的な見方・考え方は考え方は同一で,こちらにもCode Previewが表示されます。またreadxlパッケージは「どのSheetから読み込むか」を指定することが可能で,そのためのオプションもついています。地味に便利です。

SAS, SPSS, Stataのファイルについて

SAS, SPSS, Stataを選択すると,havenパッケージを利用して読み込みます。例えば,"From SPSS..."を選択すると,以下のようなダイアログボックスが表示されます:

Import_Dataset_From_SPSS.png

使い方はこれまでのパターンと同様です。

以上です。せっかくの機能なので,試しに使ってみてください。Enjoy!