More than 1 year has passed since last update.

Pandasの分析前のデータ確認

Posted at 2024-02-25

はじめに

Pandasの分析前のデータ確認に関しての備忘録です。
初心者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇

🦁結論🦁

Pandasを使ったデータ分析をする前に行うべきこと
「データの概要確認」
「カラム名の確認（取得）」
「データ型の確認（取得）」

この操作を理解する必要がある。

押さえておくべき点

Pandasでの分析する前に正しいデータなのかを確認することは重要。

注意点

.describe()では基本は整数値の列の情報を取得できる。
.describe()文字列の情報はinclude='all'を加える必要がある。

Pandas 分析前の関数一覧

.head()

データフレームの最初の数行を表示させる。
デフォルトは5行。

print(df.head(2))  # 最初の2行を表示

.tail()

データフレームの最後の数行を表示させる。
デフォルトは5行。

print(df.tail(2))  # 最後の2行を表示

数値データ .describe()

数値列のデータから8つ統計データに当てはまるセル（値）を得ることができる。

count: 非欠損値の数
mean: 平均値
std: 標準偏差
min: 最小値
25%: 第一四分位数（25パーセンタイル）
50%: 中央値（メディアン、50パーセンタイル）
75%: 第三四分位数（75パーセンタイル）
max: 最大値

非数値列のデータから4つ統計データに当てはまるセル（値）を得ることができる。

count: 非欠損値の数
unique: ユニークな値の数
top: 最頻値（データ中で最も多く出現する値）
freq: 最頻値の出現頻度

# サンプルデータフレームの作成
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

# 全ての列取得
print(df.describe(include='all'))

         Name   Age      City
count       3   3.0         3
unique      3   NaN         3
top     Alice   NaN  New York
freq        1   NaN         1
mean      NaN  30.0       NaN
std       NaN   5.0       NaN
min       NaN  25.0       NaN
25%       NaN  27.5       NaN
50%       NaN  30.0       NaN
75%       NaN  32.5       NaN
max       NaN  35.0       NaN

.keys()

データフレームのカラム名を取得。

print(df.keys())

.dtypes

各列のデータ型を表示。

# データ型の確認
print(df.dtypes)

.astype()

列のデータ型を変換をする。例えば、文字列を整数型に変換する場合などに使用します。

# 'Age'列をfloat型に変換
df['Age'] = df['Age'].astype(float)

まとめ😺

事前準備は重要だなと再認識。
データがあってるかあってないか？それが漏れただけで、やり直しは時間の無駄になる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up