R

業務でも使える RStudio + github で作る解析環境のひとつの理想形

More than 5 years have passed since last update.


概要

業務でぶつかるデータ解析関連の「困ったさん」をコストを掛けずに解決する方法を示す.

コストを掛けずに実現するひとつの理想形として,RStudio + github の利用方法を紹介する.


データ解析をしていて困ること

2人以上でデータ解析をするとき,みなさんはどういうことに困るでしょうか?

おそらく多くの方は,「共有」と「再現・訂正」に困るかと思います.


  • 「共有」


    • データの共有:解析に利用するデータをどのように利用するか?

    • データ解析結果の共有:解析した結果をどのように共有するか?



  • 「再現・訂正」


    • データ解析の再現:他の人のデータ解析をどのように再現するか?

    • データやデータ解析の訂正:自分あるいは他の人のデータ解析の誤りをどのように訂正するか?



データ解析は,その結果を他の人にどう見せるか困ります.

またデータ解析を複数人でやっていたりするときに,ほかの人のデータ解析を再現あるいは検証したり,その結果誤りを見つけたときにどうするか困ったりします.

そんな困ったことを簡単に解決する方法が欲しいですよねー.

そんなとき,RStudio + github がかなり使える!

データ解析結果を簡単に共有できる!データ解析の処理方法を簡単に共有できる!!ほかの人とのデータ解析結果を再現・訂正できる!!!そう RStudio + github ならね!!!

なかなかイメージがつかないのでどういうことかというと,こういうことです↓↓↓

github 上でデータ解析のレポートが,閲覧することができます.

(https://github.com/hereticreader/test-RStudio-github/blob/master/sample.md)


補足:この記事で想定すること・触れないこと

この記事では,とても素晴らしい BI ツールを持っていて必要ないという方にはいらないノウハウです.

この記事で紹介する RStudio + github を利用したより便利な共有方法までは触れません.あくまで,ひとつの作業フローを示すにとどめます.

この記事では,knitr の細かい使い方までは触れません.


用意するもの

RStudio はサーバ版でも構いませんが,今回の記事ではデスクトップ版を想定して書きます.

github のアカウントをお持ちでなければ,アカウントを作成してください.


RStudio ってなに?

RStudio とは,オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境である R 言語の IDE である.

スクリーンショット 2013-10-15 17.01.20.png


knitr パッケージってなに?

R の knitr パッケージを使うと,markdown 中に R のソースコードを埋め込み実行結果を HTML として出力できます.

なにが便利かというと,データ解析の結果の図やその説明を見れることはもちろん,どういう処理をしたのかをコードベースで一緒に見られることです.

単なるカウント以上のデータ解析で困ることは,どの用に処理したのかの確認と再現です.

knitr を利用することで,これらの問題を解決することができます.

また,RStudio では knitr 対応がされていて,ボタンをクリックするだけで knitr 用のファイル(.Rmd ファイル)を生成することができます.


R markdown の例


sample.Rmd

データ解析をマークダウンに埋め込む

================================

## マークダウンのコード要素として R を埋め込める

` ``{r}
data <- read.csv("user.csv")
summary(data)
hist(data$hoge)
` ``



作業フロー


  1. github に新規ブランチを作る

  2. RStudio で新規プロジェクトを作る


    • "Project" => "Create Project"



  3. R markdown ファイル(Rmd ファイル)でデータ解析をする

  4. Rmd ファイルを knitr で HTML に変換する

  5. 解析に使ったデータと Rmd ファイルとその結果(cache はいらないかも)を github に push する

  6. データ解析の結果の markdown などを github で共有

  7. 課題を github の issue として上げる

  8. 課題に沿ったデータ解析をする

  9. 結果を github に上げる(これをぐるぐる繰り返す)

pull request なども利用すると,また違った便利なことができるかもしれません.


まとめ

この記事では,2人以上でデータ解析をするときの「困ったさん」をコストを書けずに解決する方法として,RStudio + github がかなり使えるということを紹介しました.

RStudio では R の knitr パッケージで R markdown ファイルをボタンひとつで HTML に変換できます.

github では,データやデータ解析の処理を共有でき,結果を markdown としてブラウザ上で確認できます.

データ解析の課題は,github の issue としてあげ,議論や進捗の管理ができます.

ここまでできれば結構お腹いっぱいな感じだと思います.