概要
pandas は、Pythonで 表形式のデータ(ExcelやCSVなど)を扱うためのライブラリ で、以下のようなことができる。
1. データの読み書き
🔹 様々なファイル形式に対応
• CSV, Excel, JSON, SQL などを読み書きできる。
python
import pandas as pd
# CSVの読み込み
df = pd.read_csv('data.csv')
# CSVへの書き出し
df.to_csv('output.csv', index=False)
# Excelの読み込み(openpyxlが必要)
df = pd.read_excel('data.xlsx')
# JSONの読み込み
df = pd.read_json('data.json')
2. データの確認・探索
🔹 データの内容を素早くチェックできる
python
print(df.head()) # 最初の5行を表示
print(df.tail()) # 最後の5行を表示
print(df.info()) # データの型や欠損値の確認
print(df.describe()) # 数値データの統計情報
3. データの抽出・フィルタリング
🔹 条件に合うデータを取り出せる
python
# "点数" が 80 以上の行を取得
high_scores = df[df['点数'] >= 80]
# "名前" だけ取得
names = df['名前']
4. データの加工・変換
🔹 列の追加・削除、データの変換
python
# 新しい列を追加(例: 合格判定)
df['合格'] = df['点数'] >= 80
# 列の削除
df = df.drop(columns=['不要な列'])
# データの型を変換
df['年齢'] = df['年齢'].astype(float)
5. データの集計
🔹 グループごとの集計や統計
python
# 平均値の計算
print(df['点数'].mean())
# 学年ごとに平均点を出す
print(df.groupby('学年')['点数'].mean())
# 値のカウント(頻度集計)
print(df['学年'].value_counts())
6. 欠損値の処理
🔹 データの抜け(NaN)を処理
python
# 欠損値の確認
print(df.isnull().sum())
# 欠損値を削除
df = df.dropna()
# 欠損値を平均値で埋める
df['点数'] = df['点数'].fillna(df['点数'].mean())
7. データの並び替え
🔹 特定の列でソート
python
# "点数" の降順に並び替え
df = df.sort_values(by='点数', ascending=False)
8. データの可視化
🔹 グラフを作成
python
import matplotlib.pyplot as plt
df['点数'].plot(kind='hist') # ヒストグラム
plt.show()
df.plot(x='名前', y='点数', kind='bar') # 棒グラフ
plt.show()
🔍 pandas の使用タイミング
• CSVやExcelのデータを処理・分析したい
• Webスクレイピングしたデータを整理したい
• データを集計・加工してレポートを作りたい
• グラフを作ってデータを可視化したい