pythonで群間の分布を比較する際に箱ひげ図を利用した時の事。
データをそのままカテゴリ毎に箱ひげ図を描画すると・・・
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
df = load_data() # データの読込
sns.boxplot(df["sim_free_flg"], df["price"])
外れ値があまりにも大きくて、大事なところが潰れてしまい、比較がしにくい・・・
そんなときに外れ値を除去して表示する方法がないか調べたところ
matplotlibのドキュメントでこんなパラメータを見つけました
フライヤーポイントのデフォルトシンボルです。空の文字列('')はフライヤーを隠します。Noneの場合、フライヤーのデフォルトは'b+'となります。より詳細な制御は flierprops パラメータで行います。
引数にsym=""
を設定すると外れ値を表現しないらしい
sns.boxplot(df["sim_free_flg"], df["price"], sym="")
簡単にできた!!