本日は,あまり難しいことは考えずに,
とりあえず「タイタニックデータ」を使って,
統計的分析をしていきます.
※本日は,超初心者向けです!
(棒グラフ,散布図,相関係数 程度まで)
##■はじめに
###<私の実行環境>
Microsoft Windows Version:10.0
Python Version:3.8.1
※コマンドプロンプト使用
(Linuxの方が適しているという噂を聞いたのですが,私が持っているのはwindowsのPCだし...
ということでとりあえず,windowsで頑張っています.)
↓(参考)windowsのバージョン確認
C:\Users\ユーザ名>ver
↓(参考)Pythonのバージョン確認
C:\Users\ユーザ名>python
###<仮想環境について>
Pythonは仮想環境上で実行していくと都合がいいらしいので,
私も仮想環境を使っています.
※仮想環境の作り方についてはまた後日紹介できればと思います.
↓(参考)仮想環境の立上げ
C:\Users\ユーザ名>仮想環境名\scripts\activate
↓(参考)仮想環境を立上げたらこのように表示される
(仮想環境名)C:\Users\ユーザ名>
##■必要なパッケージのインストール
今回使用するパッケージは,
・numpy
・pandas
・matplotlib
・seaborn
です.
↓インストール
(仮想環境名)C:\Users\ユーザ名>pip install パッケージ名
↓インストール済みのパッケージ一覧表示
(仮想環境名)C:\Users\ユーザ名>pip list
##■pythonの起動
(仮想環境名)C:\Users\ユーザ名>python
↓(参考)Pythonが起動したらこのように表示される
(>>>しか表示されなくなった...)
>>>
##■データの読込み
今回は,世界的なデータコンペ「Kaggle」から入手可能な「タイタニックデータ」を使います.
※こちらも詳細は後日紹介できればと思います.
###<データの保存フォルダ>
私自身が超初心者なもので,よく分からなかったので,
一旦,「C:\Users\ユーザ名」フォルダ直下にデータを保存しました.
(絶対パスとか相対パスとか試したのですが,なぜか上手くいきませんでした...(TT))
###<データ読込み>
↓パッケージのインポート
import pandas as pd
※完了すると,再び「>>>」が出てくる.
↓「train.csv」を,「pandas(pd)」の「read_csv」クラスを使って,
「df」に格納する.
df = pd.read_csv("train.csv")
##■いよいよデータ分析をやってみる!
ここまで来たら,あとは,好きなようにデータを見ていきます.
###<生存・死亡者数>
必要なパッケージをインポートをしてから,
「df」に格納したデータの項目「Survived(生存者=1,死亡者=0)」を棒グラフに表示してみます.
import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()
↓「plt.show()」実行結果
上下左右のずれの調整とか,画像の保存もここからできて便利でした!
###<相関係数行列(ヒートマップ)>
sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()
###<ペアプロット図>
sns.pairplot(df)
plt.show()
##■最後に
本日はお読みいただきありがとうございました.
本投稿が初投稿なもので,いろいろ分かりにくいところもあったかと思いますが,
ご容赦ください.
ご指摘があれば受け付けますので,(受付方法がよくわかっていませんが...)
どうぞよろしくお願いいたします.
自分でも誤りを見つけましたら都度修正します.
ご質問もできる限り回答しますので,(これも受付方法がわかりませんが...)
どうぞご自由にご質問ください.
ではまたどこかでお会いしましょう~(^^)♪