Edited at

データサイエンスの可視化 #1 Unit 1: データ可視化への導入(R)- [MOOC/edX]


はじめに

何回かに分けて、大規模オープンオンライン講座MOOCの講座で学んだことをまとめていきます。

この記事では、edXの「Data Science: Visualization(データサイエンスの可視化)」をまとめます。


シラバス


  • データに基づく発見に強くなるための、データ可視化の理論

  • ggplot2の使い方とカスタムプロットの作り方

  • 広く使われているプロット手法の弱点と、それを避けるべき理由

Unit1 1: データ可視化とデータ分布の導入(R)

Unit 2: ggplot2の導入とプロットの作り方

Unit 3: dplyrを使ったデータの要約

Unit 4: Gapminderというデータセットを使ったggplot2とdplyrの例

Unit 5: データ可視化についての一般理論

(この講座は2018年7月に終了しているので、2018年10月現在Certificationを取ったり課題を出すことはできません。なので、この講座に関しては軽く動画や資料の内容をまとめるくらいにしようと思っています。)


Unit 1 - 1. データ可視化への導入


  • Data Visualizationは、データかドリブンな発見に必要不可欠。扱えるデータやソフトウェアツールが増えたことで、明確で信頼性の高い手法として産学官で用いられている。

    ex.)

    Picture1.png


  • ちなみに、探索的データ解析(Exploratory data analysis: モデルありきではなく、 モデルを仮定する(仮説を作る)ためにデータを様々な切り口から眺めて傾向を探ること→こちらの記事が分かりやすかった)はとても大切だが見落とされがち。

    ex.) 貧困層の健康と経済活動について変化を如実に示すアニメーション(by Hans Roslings)

    output.gif



データの種類


  • 数値データ(numeric)


    • 離散データ(discrete) ex.) 人口=丸められている整数

    • 連続データ(continuous) ex.) 身長=小数点以下までの正確な値2



  • カテゴリカルデータ(categorical)


    • 順序データ(ordinal) ex.) 辛さ(辛口-中辛-甘口)=リッカート尺度とか

    • 非順序データ(non-ordinal) ex.) 地域(北区-中央区-南区)



それぞれ統計用語の量的データ(間隔尺度、比率尺度)、質的データ(名義尺度、順序尺度)と明確な違いがよく分からない...。


Unit 1 - 2. データ分布への導入

次回


今後の予定

随時リンク追加予定


  • Unit 1: データ可視化とデータ分布の導入(R)



  • Unit 2: ggplot2の導入とプロットの作り方

  • Unit 3: dplyrを使ったデータの要約

  • Unit 4: Gapminderというデータセットを使ったggplot2とdplyrの例

  • Unit 5: データ可視化についての一般理論

(いつか)まとめる予定の講座の記事一覧

- 学習ゲームのためのデザインと開発 [MOOC/edX]

- データサイエンスの可視化 [MOOC/edX]

- マルチモーダル学習分析 [MOOC/edX]

- 機械学習の理論 Python編 [MOOC/edX]

- プログラミングのための線形代数 [書籍まとめ]





  1. この講座は"Unit"ではなく"Section"で区切られているようですが、別の講座と揃えてUnitで表記します。 



  2. ずいぶんざっくりしてますが...。統計学では、丸められている整数以外は連続データと呼ぶっぽいです。逆に、整数に丸めたら、身長データも離散と呼べるようになるとのこと。