はじめに
Pandasの分析前のデータ確認に関しての備忘録です。
初心者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇
🦁結論🦁
Pandasを使ったデータ分析をする前に行うべきこと
「データの概要確認」
「カラム名の確認(取得)」
「データ型の確認(取得)」
この操作を理解する必要がある。
押さえておくべき点
- Pandasでの分析する前に正しいデータなのかを確認することは重要。
注意点
- .describe()では基本は整数値の列の情報を取得できる。
- .describe()文字列の情報はinclude='all'を加える必要がある。
Pandas 分析前の関数一覧
.head()
データフレームの最初の数行を表示させる。
デフォルトは5行。
print(df.head(2)) # 最初の2行を表示
.tail()
データフレームの最後の数行を表示させる。
デフォルトは5行。
print(df.tail(2)) # 最後の2行を表示
数値データ .describe()
数値列のデータから8つ統計データに当てはまるセル(値)を得ることができる。
- count: 非欠損値の数
- mean: 平均値
- std: 標準偏差
- min: 最小値
- 25%: 第一四分位数(25パーセンタイル)
- 50%: 中央値(メディアン、50パーセンタイル)
- 75%: 第三四分位数(75パーセンタイル)
- max: 最大値
非数値列のデータから4つ統計データに当てはまるセル(値)を得ることができる。
- count: 非欠損値の数
- unique: ユニークな値の数
- top: 最頻値(データ中で最も多く出現する値)
- freq: 最頻値の出現頻度
# サンプルデータフレームの作成
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
# 全ての列取得
print(df.describe(include='all'))
Name Age City
count 3 3.0 3
unique 3 NaN 3
top Alice NaN New York
freq 1 NaN 1
mean NaN 30.0 NaN
std NaN 5.0 NaN
min NaN 25.0 NaN
25% NaN 27.5 NaN
50% NaN 30.0 NaN
75% NaN 32.5 NaN
max NaN 35.0 NaN
.keys()
データフレームのカラム名を取得。
print(df.keys())
.dtypes
各列のデータ型を表示。
# データ型の確認
print(df.dtypes)
.astype()
列のデータ型を変換をする。例えば、文字列を整数型に変換する場合などに使用します。
# 'Age'列をfloat型に変換
df['Age'] = df['Age'].astype(float)
まとめ😺
事前準備は重要だなと再認識。
データがあってるかあってないか?それが漏れただけで、やり直しは時間の無駄になる。