自分が分析レポートを作るときに、機械学習や統計の知識がない人にもわかりやすいレポートを心がけるの備忘録。
A Data Science Framework: To Achieve 99% Accuracy
常に分析を始める前にdescribe()で綺麗にきちんとデータの情報を把握してから分析するようにしたい
カテゴリカルな変数と目的変数もきちんと相関出してる。真似したい!
このカーネル、とにかく可視化が綺麗!コードは引用元見てください!
カテゴリカルな説明変数と目的変数のヒストグラムと、連続値の箱ひげ図。箱ひげ図はこれよりもseaborn使った方が綺麗かもしれない。
同じ説明変数でも、分類ごとに目的変数との関係の棒グラフや折れ線グラフ
説明変数同士で分析しても面白いですね。真ん中のカテゴリカルな変数VS連続値の変数のグラフめちゃ綺麗
3つの要素をこんな風に盛り込むのも面白い
これもわかりやすい
こんなにたくさんモデル試したことないけど、こんな風にしたら面白い。
本当に綺麗な可視化だな〜こんなレポート作りたい
Comprehensive data exploration with Python
skewnessとkurtosisもきちんと求めて正規分布なのか見極めたい等間隔の時系列データがある場合はこれやったら面白いな〜 あとシンプルにめちゃ綺麗
このカーネルで、データを扱うときの注意点が書いてあって、正規分布かをきちんと見るときは、skewnessとかを見る他に
こんな風に正規分布とfitして可視化するオプションがあるらしい
他にprobability plotできちんと沿っているか確認したりする
一番目のタイタニックの可視化だと、目的変数のsurvivedだけがプロットしてあったけど、これみたいにnon survivedもプロットしても面白いかも
Python Data Visualizations
説明変数を縦横軸にして、カテゴリカルな目的変数をこんな風にプロットする
特徴量を2次元にプロっトしたやつらしい、tSNEとかPCAと似たやつなのかな?
Head Start for Data Scientist
Exploration of data step by step
これすごい、このコードだけでそれぞれの目的変数のカテゴリーごとへの説明変数のContributionとネガティブかポジティブに働いてるかが一目でわかる、絶対使いたい###NYC Taxi Fare - Data Exploration
これ画像データなんだけど綺麗すぎる
これくらいですかね、data visualizationでカーネルでVote400票まで探してみて、気になったのをあげてみました。あとはこの可視化をどんな風にするかはデータサイエンティストの裁量な気がします、がんばろー
特徴量エンジニアリングでももう一つ記事作ります