0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

RStudio - R言語の基礎 #01、パルマーペンギンのデータを分析

Last updated at Posted at 2023-02-05

Googleデータアナリティックスプロフェッショナルを受講しています。
今回は途中のコースを飛ばして、R言語・RStudioのパラシュート学習をして見ました。

データ分析の基礎

Googleデータアナリティックスで学んだデータ分析の基礎を復習してみました。
Rと統計について学ぶ際はこれらの内容を踏まえた記事にしたいと思います。

これまでに学習したこと

  • データ分析の基礎
    1、 データ分析の6段階(問いかけ、準備、処理、分析、共有、行動)
    2、課題解決につながる思考(5回の問いかけ、ギャップ分析、データ主導の意思決定)

  • データ分析に用いるツール
    1、Excel、Googleスプレッドシート(表計算)
    2、SQL、BigQuery(データベース)
    3、PowerBI(視覚化、レポート)

  • データ分析の手法
    1、データクリーニング(Excel関数・SQLを使った処理)
    2、視覚化(PowerBI・RStudioを使った分析)

パルマーペンギンのデータを分析

R言語はデータ分析やデータクリーニングに便利な言語です。
R言語を使うには、デバイスもしくはサーバーにRStudioをインストールして統合開発環境(IDE)として用います。

今回はプログラミングとR 言語の基礎について、R言語で簡単なデータ分析やクリーニング・視覚化をする方法を学んでみました。パルマーペンギンを研究したデータのインストールとggplotによる視覚化を行ってます。

#まずはパッケージと視覚化に用いるggplot2をインストール
install.packages("palmerpenguins")
library("palmerpenguins")

install.packages("ggplot2")
library("ggplot2")
#ペンギンデータをペインに表示する
View(penguin)

R000.png
ペンギンデータは種類、出身島、くちばしの長さ・深さ、翼の長さ、体重、性別、観測年といったデータから成ります。

#ペンギンデータの基礎統計量を表示する
summary(penguin)

R000-2.png
基礎統計量を表示すると、最大・最小値、平均と中央値、第一・第三四分位数、空データの数を表示することができます。

#散布図を描く
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point()

R001.png
散布図を描くには、ggplot2のメソッドを使います。
ggplotによる解析結果を見やすくするには、様々なメソッドを使えます。

#散布図を描く際、ペンギンの種類ごとに点の種別・色を変える
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point(aes(shape=species, color=species))

#facet機能を使うと、ペンギンの種類ごとの散布図を描ける
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point(aes(shape=species, color=species))+facet_wrap(~species)

R003.png
R004.png

使用したコード集

#まずはパッケージと視覚化に用いるggplot2をインストール
install.packages("palmerpenguins")
library("palmerpenguins")

install.packages("ggplot2")
library("ggplot2")

#ペンギンデータをペインに表示する
View(penguin)

#ペンギンデータの基礎統計量を表示する
summary(penguin)

#散布図を描く
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point()

#散布図を描く際、ペンギンの種類ごとに点の種別・色を変える
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point(aes(shape=species, color=species))

#facet機能を使うと、ペンギンの種類ごとの散布図を描ける
ggplot(data=penguins, aes(x=flipper_length_mm, y=body_mass_g)) + geom_point(aes(shape=species, color=species))+facet_wrap(~species)

RStudio の真価が発揮されるとき

データが複数のカテゴリーやグループにまたがっている場合、ExcelやPythonでは分析の管理や傾向の可視化が難しくなります。
RStudio では基本的なコードを使って、特定の分析ステップを各グループに対して簡単に実行できます。複雑なデータの要約統計値の算出・ビジュアライゼーションに向いている言語です。

R言語リンク集

The R Project for Statistical Computing
RProject のサイト。Rの関連ドキュメントとヘルプページ
https://www.r-project.org

Coding Club R Tutorials
R のコーディングチュートリアル
https://www.r-project.org

社会人のためのデータサイエンス演習
Rを使ったデータ分析の特別週がある
https://lms.gacco.org/courses/course-v1:gacco+ga063+2022_12/courseware

r/Rlanguage
R言語のRedditサーバー
https://www.reddit.com/r/Rlanguage/

R4DS オンライン学習コミュニティ
R の受講者やメンターが集まる Slack チャンネルを利用できる
https://www.rfordatasci.com

#rstats
TwitterのRユーザーのハッシュタグ
https://twitter.com/hashtag/rstats?lang=jp

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?