Python pandasまとめ

Posted at 2025-02-05

概要

pandas は、Pythonで表形式のデータ（ExcelやCSVなど）を扱うためのライブラリで、以下のようなことができる。

1. データの読み書き

🔹 様々なファイル形式に対応
• CSV, Excel, JSON, SQL などを読み書きできる。

python

import pandas as pd

# CSVの読み込み
df = pd.read_csv('data.csv')

# CSVへの書き出し
df.to_csv('output.csv', index=False)

# Excelの読み込み（openpyxlが必要）
df = pd.read_excel('data.xlsx')

# JSONの読み込み
df = pd.read_json('data.json')

2. データの確認・探索

🔹 データの内容を素早くチェックできる

python

print(df.head())  # 最初の5行を表示
print(df.tail())  # 最後の5行を表示
print(df.info())  # データの型や欠損値の確認
print(df.describe())  # 数値データの統計情報

3. データの抽出・フィルタリング

🔹 条件に合うデータを取り出せる

python

# "点数" が 80 以上の行を取得
high_scores = df[df['点数'] >= 80]

# "名前" だけ取得
names = df['名前']

4. データの加工・変換

🔹 列の追加・削除、データの変換

python

# 新しい列を追加（例: 合格判定）
df['合格'] = df['点数'] >= 80

# 列の削除
df = df.drop(columns=['不要な列'])

# データの型を変換
df['年齢'] = df['年齢'].astype(float)

5. データの集計

🔹 グループごとの集計や統計

python

# 平均値の計算
print(df['点数'].mean())

# 学年ごとに平均点を出す
print(df.groupby('学年')['点数'].mean())

# 値のカウント（頻度集計）
print(df['学年'].value_counts())

6. 欠損値の処理

🔹 データの抜け（NaN）を処理

python

# 欠損値の確認
print(df.isnull().sum())

# 欠損値を削除
df = df.dropna()

# 欠損値を平均値で埋める
df['点数'] = df['点数'].fillna(df['点数'].mean())

7. データの並び替え

🔹 特定の列でソート

python

# "点数" の降順に並び替え
df = df.sort_values(by='点数', ascending=False)

8. データの可視化

🔹 グラフを作成

python

import matplotlib.pyplot as plt

df['点数'].plot(kind='hist')  # ヒストグラム
plt.show()

df.plot(x='名前', y='点数', kind='bar')  # 棒グラフ
plt.show()

🔍 pandas の使用タイミング

• CSVやExcelのデータを処理・分析したい
• Webスクレイピングしたデータを整理したい
• データを集計・加工してレポートを作りたい
• グラフを作ってデータを可視化したい

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up