本記事では、超入門初心者向けに、そもそもR(アール)言語は何をするのに適しているの?何に役立つの?基本的な分析(ここでは散布図作成方法を紹介します。)をするのにどんなコードを書くの?などといった基礎的な疑問に答えていきますこれからRを始めたい方、漠然とRに興味がある方におすすめです!!
R言語は、統計解析に特化したプログラミング言語で、分析をするために必要なパッケージを無料で使うことができます。1995年に開発され、現在までパッケージが追加され続けているため、最先端に近い統計手法を使うことができます
しかしここで、そもそも"統計解析"ってなに?何のためにする必要があるの?と思っている読者さんもいらっしゃるかもしれません。簡単に例を用いて説明していきます!
"統計解析"とは、膨大な量のデータを分析して、データの特徴やパターンなどさまざまな視点から仮説を立てたり検証したりする方法です。仮説が立証され、物事の傾向や関わりを見つけることで、研究やビジネスの発展に貢献することができます!
具体的な例を見ていきましょう
あなたは遊園地でアイスクリームを売っているとします🎢🍦アイスクリームの廃棄が多いと不利益に繋がるので、廃棄を減らし必要な分だけを入荷するためにアイスの売り上げをできるだけ正確に予測したいとあなたは考えました。こんな時に役に立つのが"統計解析"です!統計解析をR言語を使って行うには、まず日々の売り上げ、気温、天気、湿度、遊園地への来場者数、熱中症患者数など、アイスの売り上げに関係がありそうなデータを集める必要があります。そして、統計ソフトRにデータを読み込ませ、コードを書くことで、それぞれのデータがソフトクリームの売り上げと関係があるのか、また売り上げの予測をすることができます👍このように、Rを使いこなし、データに基づいた売り上げ予測ができれば、利益を最大化することができますね!!
実際に簡単な分析をRStudioというRを実行するためのアプリを使ってこの例を元にしてみましょう
まずExcelに打ち込まれた以下のデータをRStudioに読み込んでデータ解析をすることにしましょう。RStudioは日本語がうまく認識されないことがあるので、ここでは、売り上げ(円)をsales、気温(度)をtemperature、来場者数(人)をattendanceとします。
ExcelファイルをRStudioで読み込むための便利な機能”read.csv()”があるので、今回はこの機能を使ってみましょう。(このように何か入力に対して処理を行ってくれるものを関数と言います。)この関数を使うには、まずExcelファイルをcsv形式でフォルダーに保存します。
そしてRStudioを開き、
Session→Set Working Directory→Choose Directory→csvファイルを保存したフォルダーを選択→Open の順に選択していきます。
Excelファイルの読み込み完了までもう1ステップです!
コードを書いていく中でExcelのデータを使うために
毎回"amusementparkdata.csv"と入力するのは手間がかかるので、
"amusementparkdata.csv"という名前を簡素化して、データをamusedataという名前で保存することにしましょう。そのためには、以下のように「<-」:代入演算子を使う必要があります。
コードを実行するためには、windowsではcontrol+R、macではcommand+return、または右上に表示されているRunをクリックする方法があります。
これでExcelファイルのデータ読み込みは完了です
それでは簡単な統計分析をして、気温と来場者数がそれぞれアイスの売り上げと相関関係があるのかみていきましょう!RStudioのコーディングの導入として、散布図を作成し、図から相関関係があるか考察をしてきます。
散布図を作成するコードは、X軸をアイスの売上、Y軸を気温とする場合、以下のようになります。
xlab、ylabはそれぞれX軸のラベル、Y軸のラベルを表しています。
そして以下に表示されているのが気温とアイスの売り上げについての散布図です。なんだか値がバラバラに散らばっていますね。
それでは同じように、X軸をアイスの売り上げ、Y軸を来場者数として散布図を作成しましょう!
来場者数が増加するにつれて売り上げも増加しているということが読み取れますね!
よって、アイスの売り上げには気温よりも来場者数の方が影響することが考察されます。
Rの導入解説は以上です!
この記事を通して、Rを使うとできることに対する皆さんの理解が深まれば幸いです
参考文献
"統計解析とは何かをわかりやすく解説!主な活用例や役立つツールも紹介".マネケル.2021年9月30日.https://www.i-nobori.com/media/3113 .2022年4月15日