More than 3 years have passed since last update.

python初心者の備忘録~Pandas編~※2021/12/06更新

Last updated at 2021-12-06Posted at 2021-12-02

はじめに

社会人1年目のyappiです！
最近は仕事おわりにすぐさまpythonの勉強をしています！
kaggleやpythonの学習を進める中で、よく使ったライブラリについてまとめておきます。
今回はPandasについてまとめます。今後も使用したメソッドについてはここに追記していきます。

Pandas

kaggleの分析をする際に、1番初めに使用したPandasです！
ファイルの読み込みの際には、欠かせないライブラリですよね。
まぁ、Udemyなどで学習をしている中でも様々なライブラリは出てきましたが...。

ファイルの読み込み

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

先頭5行を表示

test.head()

最後尾5行の表示

test.tail()

任意の列だけ表示

test[['Fare', 'Age']].head()

任意の行だけ表示

# 10~15までの行を表示
test[10:16]

条件を指定して値を表示

test[test['Age'] > 20]

欠損値の穴埋め、削除

train['Fare'] = train['Fare'].fillna(train['Fare'].median())
train['Age'] = train['Age'].fillna(train['Age'].median())
train['Embarked'] = train['Embarked'].fillna('S')

train.dropna(subset=['Fare'])
train.dropna(subset=['Age'])
train.dropna(subset=['Embarked'])

値の変換

train['Embarked'] = train['Embarked'].map({'S':0, 'C':1, 'Q':2}).astype(int)

平均値の取得

train.mean()

欠損値の抽出

train['Fare'].isnull()
train['Age'].isnull()

おわりに

まだまだ使えるメソッドはあるかと思いますが、今回はTitanicを進めていく中で、使用したライブラリ、また、基本的なメソッドについてまとめました。
今後も新しいメソッドやデータの加工について調査する機会があればここに追記していきます。

更新履歴

vol.01　初めての投稿(2021/12/02)
vol.02　Pandasの基本的な文法の追記(2021/12/06)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up