0
0

Pandasの分析前のデータ確認

Posted at

はじめに

Pandasの分析前のデータ確認に関しての備忘録です。
初心者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇

🦁結論🦁

Pandasを使ったデータ分析をする前に行うべきこと
「データの概要確認」
「カラム名の確認(取得)」
「データ型の確認(取得)」

この操作を理解する必要がある。

押さえておくべき点

  • Pandasでの分析する前に正しいデータなのかを確認することは重要。

注意点

  • .describe()では基本は整数値の列の情報を取得できる。
  • .describe()文字列の情報はinclude='all'を加える必要がある。

Pandas 分析前の関数一覧

.head()

データフレームの最初の数行を表示させる。
デフォルトは5行。

print(df.head(2))  # 最初の2行を表示

.tail()

データフレームの最後の数行を表示させる。
デフォルトは5行。

print(df.tail(2))  # 最後の2行を表示

数値データ .describe()

数値列のデータから8つ統計データに当てはまるセル(値)を得ることができる。

  • count: 非欠損値の数
  • mean: 平均値
  • std: 標準偏差
  • min: 最小値
  • 25%: 第一四分位数(25パーセンタイル)
  • 50%: 中央値(メディアン、50パーセンタイル)
  • 75%: 第三四分位数(75パーセンタイル)
  • max: 最大値

非数値列のデータから4つ統計データに当てはまるセル(値)を得ることができる。

  • count: 非欠損値の数
  • unique: ユニークな値の数
  • top: 最頻値(データ中で最も多く出現する値)
  • freq: 最頻値の出現頻度
# サンプルデータフレームの作成
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

# 全ての列取得
print(df.describe(include='all'))

         Name   Age      City
count       3   3.0         3
unique      3   NaN         3
top     Alice   NaN  New York
freq        1   NaN         1
mean      NaN  30.0       NaN
std       NaN   5.0       NaN
min       NaN  25.0       NaN
25%       NaN  27.5       NaN
50%       NaN  30.0       NaN
75%       NaN  32.5       NaN
max       NaN  35.0       NaN

.keys()

データフレームのカラム名を取得。

print(df.keys())

.dtypes

各列のデータ型を表示。

# データ型の確認
print(df.dtypes)

.astype()

列のデータ型を変換をする。例えば、文字列を整数型に変換する場合などに使用します。

# 'Age'列をfloat型に変換
df['Age'] = df['Age'].astype(float)

まとめ😺

事前準備は重要だなと再認識。
データがあってるかあってないか?それが漏れただけで、やり直しは時間の無駄になる。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0