英語でデータ可視化を学ぼう:第1回 での報告資料です。この勉強会では、Claus O. Wilke, Fundamentals of Data Visualization を輪読しています。今回の担当箇所は Preface と Introduction で、この文書では内容の要約を行います。
Preface
この本の全体像
図表は文書の出来・不出来を左右するほど大事であるのに、説得的な作図の方法を教える資料は少ない
- 大学で作図を専門に教える講義は稀
- 文献も少ない
可視化ツールのチュートリアルはあるものの、それらは
- 特定の可視効果を実現する方法は教えてくれるが・・・
- なぜある可視化が他の選択肢と比べて望ましいのかが説明してくれない
にも関わらず、分析者は良い図表を作れるはずだと期待されてしまう・・・
編集者が文章の質を感じる「耳」が必要なように、
可視化のためには図表の質を感じ取る「目」が必要:
- バランスは取れているか
- わかりやすいか
- 説得的か
そして、目は鍛えられる: 多くの単純なルールと原則を意識して細部に注意することが必要
一方、一昼夜で身につくものでもなく、経験によって身につくものでもある
著者の今の考えも絶対のものではないから、鵜呑みにせず自分の感覚に合うかどうかを考えるべき
この本の読み方
基本的には論理的な順序で書かれているが、順不同で読んでも良いようになっている
直近の関心のある箇所をつまんで実践してみるのもおすすめ
この本の図表のほとんど全ては R言語のggplot2ライブラリにより作られているが、
Rのハウツー本ではない
→ 可視化の原理原則を示すのが主題
*コードを知りたいときはGitHubレポジトリclauswilke/dataviz に公開している
Thoughts on graphing software and figure-preparation pipelines
作者の意見では、可視化のパイプラインにおいては 自動化が肝
図表はデータ分析のパイプラインの中で自動で生成されるべきで、手作業での編集(Illustratorなど)を挟むべきではない
*ところで、Nathan Yau, Visualize This という別の本では、Rで作図したあとIllustatorなどで洗練させていく方法が取られていました。時期が大分古いというのと、こちらの著者は新聞紙に載せる図を作っていたという違いもあるかもしれません
自動化すべき理由
- 手作業を挟むと再現性が失われる
- 手作業が多いと、図表を改善するのが面倒になる
- 自分のやった手作業を忘れてしまう
結果、対話的な可視化ツールは避けるべき。Excelも対話的
BIツールはどうだろう?
Introduction
データ可視化は、芸術であり科学でもある(その両立が難しい)
- いちばん大切なのは正しさ(ミスリーディングであったり歪曲しては駄目)
- 同時に、見た目に美しいである必要がある
- メッセージを強調するものであるべき
科学者の傾向としては、審美性で苦労することが多い
デザイナーは逆に美しい可視化をするがデータに疎いことが多い
この本が扱うのは、出版物やプレゼン向けの可視化における「原則」「手法」「概念」
ただし、静的なものにフォーカス(アニメーションや対話的なグラフを含まない)
各パートについて
Part I. From data to visualization
- 様々なグラフタイプを解説(棒グラフ、散布図、円グラフなど).
- 可視化の種別を「対象となるデータ型」ではなく「伝えたいメッセージ」で分類(統計学者以外にはこちらのほうが良いとのこと)
以前、仕事で可視化の手法について技術紹介したときに、データ型で分類して紹介したことを思い出しました
Part II. Principles of figure design
- データ可視化で生じるデザイン問題を説明(可視化における審美性 (aesthetic) の側面)
- 色、シンボル、大きさなどの選択問題を取り上げる
Part III. Miscellaneous topics
- その他のトピック
- ファイル形式
- ソフトウェア
- etc.
Ugly, bad, and wrong figures
この本では、同じ図表の複数バージョンを作り、良い例と悪い例を両方示す
悪い例には次の3つの分類が付されている:
- Ugly: 美的な問題はあるが、それ以外は明瞭で有益な図。
- Bad: 知覚に関する問題のある図。不明確, わかりにくい、複雑過ぎ、欺瞞的。
- Wrong: 数学的な問題のある図。客観的に間違っている。