#はじめに
社会人1年目のyappiです!
最近は仕事おわりにすぐさまpythonの勉強をしています!
kaggleやpythonの学習を進める中で、よく使ったライブラリについてまとめておきます。
今回はPandasについてまとめます。今後も使用したメソッドについてはここに追記していきます。
##Pandas
kaggleの分析をする際に、1番初めに使用したPandasです!
ファイルの読み込みの際には、欠かせないライブラリですよね。
まぁ、Udemyなどで学習をしている中でも様々なライブラリは出てきましたが...。
ファイルの読み込み
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
先頭5行を表示
test.head()
最後尾5行の表示
test.tail()
任意の列だけ表示
test[['Fare', 'Age']].head()
任意の行だけ表示
#10~15までの行を表示
test[10:16]
条件を指定して値を表示
test[test['Age'] > 20]
欠損値の穴埋め、削除
train['Fare'] = train['Fare'].fillna(train['Fare'].median())
train['Age'] = train['Age'].fillna(train['Age'].median())
train['Embarked'] = train['Embarked'].fillna('S')
train.dropna(subset=['Fare'])
train.dropna(subset=['Age'])
train.dropna(subset=['Embarked'])
値の変換
train['Embarked'] = train['Embarked'].map({'S':0, 'C':1, 'Q':2}).astype(int)
平均値の取得
train.mean()
欠損値の抽出
train['Fare'].isnull()
train['Age'].isnull()
##おわりに
まだまだ使えるメソッドはあるかと思いますが、今回はTitanicを進めていく中で、使用したライブラリ、また、基本的なメソッドについてまとめました。
今後も新しいメソッドやデータの加工について調査する機会があればここに追記していきます。
##更新履歴
vol.01 初めての投稿(2021/12/02)
vol.02 Pandasの基本的な文法の追記(2021/12/06)