はじめに
当記事はkaggleのLearnのData VisualizationのChoosing Plot Types and Custom Stylesを翻訳して備忘としたものです。
拙い英語力なので間違い等あればご指摘いただけたらと思います。
まとめ:【kaggle】翻訳記事まとめ【備忘翻訳】
前:【kaggle】データの視覚化 - 分布【備忘翻訳】
次:【kaggle】特徴量エンジニアリング - 特徴量エンジニアリングとは【備忘翻訳】
当記事に含まれるコードはkaggle内のnotebook内で正常に動作します。動作を試したい場合はkaggleのnotebookで試してください。
プロットタイプとカスタムスタイルの設定
チャートをカスタマイズして見栄えを良くしましょう。
このコースでは、様々な種類のグラフを作成する方法を学習しました。次に、グラフのスタイルを変更するために使用できる簡単なコマンドを学習する前に知識を整理します。
何を学んできましたか?
データの背後にあるストーリーを最も効果的に伝える方法を決めるのは必ずしも簡単ではないため、これをサポートするために、グラフの種類を3つの大きなカテゴリに分類しました。
-
トレンド - トレンドは変化のパターンとして定義されます。
-
sns.lineplot
- 折れ線グラフは一定期間の傾向を示すのに最適で、複数の線を使用して複数のグループの傾向を示すことができます。
-
-
関係 - データ内の変数間の関係を理解するために使用できる様々な種類のグラフがあります。
-
sns.barplot
- 棒グラフは、異なるグループに対応する量を比較するのに役立ちます。 -
sns.heatmap
- ヒートマップを使用すると、数字の表の表で色分けされたパターンを見つけることができます。 -
sns.scatterplot
- 散布図は、2つの連続変数間の関係を示します。色分けすると、3番目のカテゴリ変数との関係も表示できます。 -
sns.regplot
- 散布図に回帰線を含めると2つの変数間の線形関係を確認しやすくなります。 -
sns.lmplot
- このコマンドは、散布図に複数の色分けされたグループが含まれている場合に、複数の回帰線を描画するのに役立ちます。 -
sns.awarmplot
- カテゴリ散布図は、連続変数とカテゴリ変数の関係を示します。
-
-
分布 - 分布を視覚化して、変数に表示されている可能性がある値と、その可能性を示します。
-
sns.histplot
- ヒストグラムは単一の数値変数の分布を表示します。 -
sns.kdeplot
- KED プロット (または2D KEDプロット )は、単一の数値変数(または2つの数値変数)の推定された滑らかな分布を示します。 -
sns.joinplot
- このコマンドは、2D KEDプロットと、個々の変数に対応するKEDプロットを同時に表示するのに役立ちます。
-
seabornでスタイルを変える
全てのコマンドは、各プロットに適切なデフォルトのスタイルを提供します。ただし、プロットの外観をカスタマイズすると便利な場合があります。ありがたいことにこれはコードを1行追加するだけで実現します。
いつものように、コーディング環境の設定から始めます。
setup
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")
Setup Complete
前回のチュートリアルで折れ線グラフを作成する単に使用したのと同じコードを使用します。以下のコードでデータセットを読み込み、グラフを作成します。
# Path of the file to read
spotify_filepath = "../input/spotify.csv"
# Read the file into a variable spotify_data
spotify_data = pd.read_csv(spotify_filepath, index_col="Date", parse_dates=True)
# Line chart
plt.figure(figsize=(12,6))
sns.lineplot(data=spotify_data)
<AxesSubplot:xlabel='Date'>
たった1行のコードで、図のスタイルを別のテーマに簡単に変更できます。
# Change the style of the figure to the "dark" theme
sns.set_style("dark")
# Line chart
plt.figure(figsize=(12,6))
sns.lineplot(data=spotify_data)
<AxesSubplot:xlabel='Date'>
seabornには5つの異なるテーマ:(1)"darkgrid"
, (2)"whitegrid"
, (3)"dark"
, (4)"white"
, and (5)"ticks"
があります。テーマを変更するには上記のコードにあるコマンドと同様にコマンドを使用するだけです。