自分が分析レポートを作るときに、機械学習や統計の知識がない人にもわかりやすいレポートを心がけるの備忘録。
A Data Science Framework: To Achieve 99% Accuracy
常に分析を始める前にdescribe()で綺麗にきちんとデータの情報を把握してから分析するようにしたい
カテゴリカルな変数と目的変数もきちんと相関出してる。真似したい!
このカーネル、とにかく可視化が綺麗!コードは引用元見てください!
カテゴリカルな説明変数と目的変数のヒストグラムと、連続値の箱ひげ図。箱ひげ図はこれよりもseaborn使った方が綺麗かもしれない。
同じ説明変数でも、分類ごとに目的変数との関係の棒グラフや折れ線グラフ
説明変数同士で分析しても面白いですね。真ん中のカテゴリカルな変数VS連続値の変数のグラフめちゃ綺麗
3つの要素をこんな風に盛り込むのも面白い
これもわかりやすい
こんなにたくさんモデル試したことないけど、こんな風にしたら面白い。
本当に綺麗な可視化だな〜こんなレポート作りたい
Comprehensive data exploration with Python
![Screen Shot 2019-04-10 at 22.18.11.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F248886%2Ff2bb1a44-87bd-8f0e-cf98-da8597e4f058.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=aef3afaf8d8f4e4509d153870fc68ab3)
等間隔の時系列データがある場合はこれやったら面白いな〜 あとシンプルにめちゃ綺麗
このカーネルで、データを扱うときの注意点が書いてあって、正規分布かをきちんと見るときは、skewnessとかを見る他に
こんな風に正規分布とfitして可視化するオプションがあるらしい
他にprobability plotできちんと沿っているか確認したりする
一番目のタイタニックの可視化だと、目的変数のsurvivedだけがプロットしてあったけど、これみたいにnon survivedもプロットしても面白いかも
![Screen Shot 2019-04-10 at 22.27.48.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F248886%2Fc7c1d18b-a72c-f12c-f669-1dd6bb41d145.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=9f80fcff86f96e64fde330409d756964)
Python Data Visualizations
説明変数を縦横軸にして、カテゴリカルな目的変数をこんな風にプロットする
特徴量を2次元にプロっトしたやつらしい、tSNEとかPCAと似たやつなのかな?
Head Start for Data Scientist
Exploration of data step by step
![Screen Shot 2019-04-10 at 22.38.41.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F248886%2Ff7df355a-c7f8-63c9-abb6-ae2a9ad97def.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=474ea12e3143d0637f86aa278781978b)
![Screen Shot 2019-04-10 at 22.39.56.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F248886%2F21c26706-e506-9722-28ee-5f1d851ddbc1.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=440771e4524d6eb79921d190b35af3be)
###NYC Taxi Fare - Data Exploration
これ画像データなんだけど綺麗すぎる
![Screen Shot 2019-04-10 at 22.43.22.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F248886%2Fbfc117f2-7be6-3849-b2ee-4017f4b42210.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=7bbef70dafbc0341d7ba6e63da7f3289)
これくらいですかね、data visualizationでカーネルでVote400票まで探してみて、気になったのをあげてみました。あとはこの可視化をどんな風にするかはデータサイエンティストの裁量な気がします、がんばろー
特徴量エンジニアリングでももう一つ記事作ります