Pythonで解析した内容を可視化するにあたって様々な可視化ツールがありまして、入門として色々触ってみました。
入門的な内容なので、Pythonでデータ分析を始めたい人はもちろん、そもそもこれからPythonを始めたい方や、新人プログラマなど参考になれば幸いです。
#本記事の対象者
・Pythonの初心者、これからPythonを始めたい方
・Pythonの可視化ツールっていろいろあるけど、結局どれを使っていいのかわからない人
・Pythonでデータサイエンスに入門したい方
など
なお、以下のサイトをベースにして作りました。以下にもっといろいろな方法でPythonの可視化ツールを比べているので、興味のある方は是非参考にしてください。
https://dansaber.wordpress.com/2016/10/02/a-dramatic-tour-through-pythons-data-visualization-landscape-including-ggplot-and-altair/
#序章と環境作り
##簡単な用語説明
以下の用語はPythonを知らない人は当然知らないことなので、さっと解説をします。(用語を抑えるのが習得する近道だと思います。)
####Python3
2008年に公開されたバージョンで、その前のpython2の機能で使えなくなった機能があるために、2か3であるかは区別されることが多いです。python2は2020年ごろサポートが終了するために、これから始める方はPython3を使いましょう。
####pip
pythonのパッケージ管理ツールです。pythonは簡単にデータ分析を実行できるツールが多いですが、これらのツールをを用いてパッケージをインストールします。
####Jupyter notebook
今一番流行っている(?)、エディターです。従来のエディターは書いたものをまとめて実行するタイプがのものが多かったのでしたが、こちらのエディターは、その都度実行して結果を確認することができます。かっこよく言えば、インタラクティブに実行できるエディターなのです。
インストール方法は
$ pip install jupyter
インストール後にコマンドラインから
$ jupyter notebook
で起動できます。
####Anaconda
pipで必要なパッケージをインストールするのですが、いちいちインストールするのが面倒なので、統計解析で必要なものをまとめたものがAnacondaです。よくわからないけど、とりあえずインストールしていただければ、データ分析のコンペに出るような、すごい方々と同様の武器が手に入ったと言えます(笑)
今回の記事では以下のツールを使って、
可視化してみました。
・matplotlib
・seaborn
・ggplot
・Altair
以下に、簡単な概要とインストールのコマンドを書きますが、詳しいpythonの環境作りなどは以下のサイトを参考にしてください。
http://qiita.com/y__sama/items/5b62d31cb7e6ed50f02c
##matplotlibとは
matplotlibとはhttp://yubais.net/doc/matplotlib/によると
Python でグラフ描くツールの定番です。 Gnuplot と比較すると
・データ解析からグラフ描写までを全て1個のpythonスクリプトで行える
・やたら色々なグラフが描写できる (参照: [http://matplotlib.org/gallery.html](http://matplotlib.org/gallery.html))
・Pythonの高度な数値計算ツール NumPy と連携できる
などの利点があります。
※NumPyとはざっくり言うと、行列を高速で計算できるツールです。
matplotlib は、Pythonで一番スタンダードな可視化ツールでありますが、以下で紹介するツールと比べて、コードが冗長になりやすくなります。
pipでのインストールは
$ pip install matplotlib
上記の参考URL以外にも詳しい使い方は
http://bicycle1885.hatenablog.com/entry/2014/02/14/023734
(というか個人的にmatplotlibについて一番わかりやすかった記事)
##seabornとは
matplotlibをベースにしていて、美しいグラフを簡単に書くことができます。
インストールはpipで、
$ pip install seaborn
##ggplotとは
ggplotはRで一般的に使われている、ggplot2をPython用に移植したものです。
Rは、一般的な分析に対しても、少ないコード量でかけることが利点で、グラフに関してもggplotで綺麗なグラフを簡単に書くことができます。
インストールは
$ pip install ggplot
##Altairとは
最近出てきた可視化ツールで、多分この中で、一番簡単に描画することができると思います。
vega-liteというツールと合わせてJSON形式や辞書型として値を表現することもできます。
インストールはAltairと合わせて
Anacondaが入っている場合は(こちらが推奨されています)、
$ conda install vega --channel conda-forge
一般的な方法は、
$ pip install altair
$ pip install --upgrade notebook
$ jupyter nbextension install --sys-prefix --py vega
#簡単なグラフを描画してみた
まずは今回のグラフ描画に必要なパッケージをインポート(呼び出すということ)します。
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import font_manager
import seaborn as sns
#Altair
from altair import *
#ggplot
from ggplot import *
#%matplotlib inlineでこのnotebook内に画像を埋め込む
%matplotlib inline
Jupyter notebookを使っていれば、上記を入力して[shift]+[enter]で実行し、以後宣言しなくて使えるようになります。
サンプルデータとしてAltairのチュートリアルにあったcarsというデータを使います。
cars = load_dataset('cars')
このデータは各車の、詳細な情報(原産国(Origin)、燃費(Miles_per_Gallon)、排気量(Displacement)、馬力(Horsepower)など)を表しています。
※ちなみに1 Miles per Gallon (MPGと表現する) = 0.42518[km/L]のようです。
こちらのデータを使って幾つかのツールを使いました。
#matplotlib
縦軸に燃費(Miles_per_Gallon)、横軸に馬力(Horsepower)のグラフを書いていきます。
#matplotlib
plt.plot(cars['Horsepower'], cars['Miles_per_Gallon'],"o")
plt.xlabel("Horsepower")
plt.ylabel("Miles_per_Gallon")
馬力が高い車は燃費が悪いことがグラフから見ることができます。
#seaborn
sns.jointplot(cars["Horsepower"], cars["Miles_per_Gallon"])
各軸の分布も表してくれます。
#ggplot
ggplot(cars, aes(x='Horsepower',y='Miles_per_Gallon' ))+ geom_point(size=20.0)
#Altair
Chart(cars).mark_point().encode(x='Horsepower',y='Miles_per_Gallon')
#もう少し難しいグラフは
前回のグラフだとほとんど差はありませんでしたが、原産国別にグラフを書いてみます。
##matplotlib
names = set(cars['Origin'])
x,y = cars['Horsepower'], cars['Miles_per_Gallon']
for name in names:
cond = cars['Origin'] == name
plt.plot(x[cond], y[cond], linestyle='none', marker='o', label=name)
plt.xlabel("Horsepower")
plt.ylabel("Miles_per_Gallon")
plt.legend(numpoints=1)
plt.show()
http://stackoverflow.com/questions/9740806/pylab-map-labels-to-colors
大したことやっていないのに長い(笑)
namesという配列に['Japan', 'USA', 'Europe']という文字列が入っていて、それらをforで一つ一つわたして、可視化しているイメージ。以下のを見ていただければわかりますが、こういう図を描きたかったらmatplotlibで書いちゃダメだと思います。(笑)
##seaborn
# seaborn
g = sns.FacetGrid(cars, hue='Origin', size=5)
g.map(plt.scatter, 'Horsepower', 'Miles_per_Gallon').add_legend()
アメリカ産の車は馬力があって燃費が悪い、一方で、日本産のは馬力はないが、燃費がいいということがわかります。
##ggplot
#ggplot
ggplot(cars, aes(x='Horsepower',
y='Miles_per_Gallon',
color='Origin')) + \
geom_point(size=40.0)
画像のアップできる上限を超えてしまった。(初投稿なのですみません)各自やってみてください(笑)
##Altair
#Altair
Chart(cars).mark_point().encode(
x='Horsepower',
y='Miles_per_Gallon',
color='Origin'
)
また、Jupyter上で
Chart(cars).mark_point().encode(
x='Horsepower',
y='Miles_per_Gallon',
color='Origin'
).to_dict()
で辞書型で表現できます。
#結論として
まだまだ、紹介したいことはありましたが、初めての投稿なので、何も考えず画像アップしまくっていたら上限2MBを超えてしまった.....。きりがいいので紹介はこの辺にして。(Qiita、一度投稿すれば上限100MBになるらしい!!)
その他、各種ツールに興味のある人は、チュートリアルや、Qiitaの記事など参考にしてください。
結局のところ、いろいろ比べてみて,
・Pythonで難しい分析などガンガンやりたいのであれば、matplotlibの進化系と言えるseabornを!(無駄におしゃれでハイテク!!)
・以前、Rでggplot2を使っていた方で、新しい概念覚えるのが面倒な方は、Python用のggplotを!
・とにかく簡単に可視化したい面倒くさがり屋の人や、最新のツールに興味がある人はAltairを!
てな感じですかね。
#最後に
以上、Pythonの可視化ツールについて紹介しました。どのツールも散布図だけではなく、その他ヒストグラムなど様々なグラフも自由自在に書くことがでます。
Pythonはコーディングがしやすいにもかかわらず、ライブラリーの豊富さからデータ分析、深層学習などを始めとするデータサイエンス界隈で強烈な印象を残しております。
しかし可視化ツールにについて私自身、最もスタンダードなmatplotlibという存在と、それを補助する形のseabornがごちゃまぜになっていて、可視化するにあたり、Rなどと比べて、ややめんどくさい印象がありました。本記事でそれぞれのツールの利便性や立ち位置やわかったと思います。