こんにちは!家計簿管理のための高度なPandasの使い方について、わかりやすく解説していきます。サンプルデータを使って、実践的な例を交えながら説明していきますので、ぜひ最後までお付き合いください。
まずは、50行のサンプルデータを作成しましょう。このデータを使って、以降の章で様々な分析と可視化を行っていきます。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 日本語フォントの設定
plt.rcParams['font.family'] = 'MS Gothic'
# サンプルデータの作成
np.random.seed(42)
dates = pd.date_range(start='2024-01-01', periods=50)
categories = ['食費', '住居費', '光熱費', '交通費', '娯楽費', '医療費', '教育費', '衣服費', '雑費', '収入']
data = {
'日付': dates,
'カテゴリ': np.random.choice(categories, 50),
'金額': np.random.randint(-50000, 100000, 50)
}
df = pd.DataFrame(data)
print(df.head())
このサンプルデータには、日付、カテゴリ、金額の3つの列があります。金額は、支出をマイナス、収入をプラスで表現しています。
第1章:データの基本的な操作
Pandasを使用したデータフレームの基本的な操作方法を学びましょう。データの読み込み、表示、基本的な統計情報の取得などを行います。
# データの基本情報を表示
print(df.info())
# 基本的な統計情報を表示
print(df.describe())
# カテゴリごとの集計
category_summary = df.groupby('カテゴリ')['金額'].agg(['count', 'sum', 'mean'])
print(category_summary)
このコードでは、データフレームの基本情報、統計情報、そしてカテゴリごとの集計結果を表示しています。これにより、データの全体像を把握することができます。
第2章:時系列データの扱い
家計簿データは時系列データの一種です。Pandasには時系列データを扱うための便利な機能がたくさんあります。
# 日付をインデックスに設定
df.set_index('日付', inplace=True)
# 月ごとの集計
monthly_summary = df.resample('M')['金額'].sum()
print(monthly_summary)
# 累積和の計算
cumulative_sum = df['金額'].cumsum()
print(cumulative_sum.head())
このコードでは、日付をインデックスに設定し、月ごとの集計と累積和の計算を行っています。これにより、時間の経過に伴う収支の変化を追跡することができます。
第3章:データのフィルタリングと条件付き集計
特定の条件に合うデータだけを抽出したり、条件に基づいて集計を行ったりする方法を学びましょう。
# 支出のみを抽出
expenses = df[df['金額'] < 0]
# カテゴリごとの支出合計
expenses_by_category = expenses.groupby('カテゴリ')['金額'].sum().sort_values()
print(expenses_by_category)
# 10000円以上の支出
large_expenses = df[(df['金額'] < -10000) & (df['金額'] > -50000)]
print(large_expenses)
このコードでは、支出のみを抽出し、カテゴリごとの支出合計を計算しています。また、10000円以上50000円未満の大きな支出を抽出しています。
第4章:データの可視化:基本編
Pandasとmatplotlibを使用して、データを視覚化する基本的な方法を学びましょう。
# 棒グラフ:カテゴリごとの支出合計
expenses_by_category.plot(kind='bar', figsize=(12, 6))
plt.title('カテゴリごとの支出合計')
plt.ylabel('支出額(円)')
plt.tight_layout()
plt.show()
# 折れ線グラフ:日々の収支推移
df['金額'].plot(figsize=(12, 6))
plt.title('日々の収支推移')
plt.ylabel('金額(円)')
plt.tight_layout()
plt.show()
このコードでは、カテゴリごとの支出合計を棒グラフで、日々の収支推移を折れ線グラフで表示しています。視覚化することで、データの傾向をより直感的に理解することができます。
第5章:データの可視化:応用編
より高度なデータ可視化テクニックを学びましょう。Seabornライブラリを使用して、より洗練されたグラフを作成します。
# ヒートマップ:カテゴリと曜日の関係
pivot_table = df.pivot_table(values='金額', index=df.index.dayofweek, columns='カテゴリ', aggfunc='sum')
sns.heatmap(pivot_table, cmap='YlOrRd', annot=True, fmt='.0f')
plt.title('カテゴリと曜日の関係')
plt.ylabel('曜日')
plt.tight_layout()
plt.show()
# バイオリンプロット:カテゴリごとの金額分布
plt.figure(figsize=(12, 6))
sns.violinplot(x='カテゴリ', y='金額', data=df)
plt.title('カテゴリごとの金額分布')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
このコードでは、カテゴリと曜日の関係をヒートマップで、カテゴリごとの金額分布をバイオリンプロットで表示しています。これらの高度な可視化手法により、データの隠れた特徴を発見することができます。
第6章:時系列分析
時系列データの分析手法について学びましょう。トレンド、季節性、周期性などを分析します。
from statsmodels.tsa.seasonal import seasonal_decompose
# 月次データの作成
monthly_data = df.resample('M')['金額'].sum()
# 時系列分解
result = seasonal_decompose(monthly_data, model='additive', period=12)
# 結果のプロット
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(12, 16))
result.observed.plot(ax=ax1)
ax1.set_title('観測データ')
result.trend.plot(ax=ax2)
ax2.set_title('トレンド')
result.seasonal.plot(ax=ax3)
ax3.set_title('季節性')
result.resid.plot(ax=ax4)
ax4.set_title('残差')
plt.tight_layout()
plt.show()
このコードでは、月次データを作成し、時系列分解を行っています。観測データ、トレンド、季節性、残差の4つのコンポーネントに分解することで、データの underlying patterns を理解することができます。
第7章:予算管理と予実分析
予算を設定し、実際の支出と比較する方法を学びましょう。
# 予算の設定
budget = pd.DataFrame({
'カテゴリ': ['食費', '住居費', '光熱費', '交通費', '娯楽費', '医療費', '教育費', '衣服費', '雑費'],
'予算': [80000, 100000, 30000, 20000, 30000, 10000, 20000, 20000, 10000]
})
# 実際の支出(マイナスの値を絶対値に変換)
actual_expenses = df[df['金額'] < 0].groupby('カテゴリ')['金額'].sum().abs()
# 予算と実際の支出を結合
comparison = pd.merge(budget, actual_expenses.reset_index(), on='カテゴリ', how='left')
comparison.columns = ['カテゴリ', '予算', '実際']
comparison['差額'] = comparison['予算'] - comparison['実際']
print(comparison)
# 棒グラフで可視化
comparison.plot(x='カテゴリ', y=['予算', '実際'], kind='bar', figsize=(12, 6))
plt.title('予算と実際の支出の比較')
plt.ylabel('金額(円)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
このコードでは、カテゴリごとに予算を設定し、実際の支出と比較しています。予算と実際の支出の差額を計算し、棒グラフで可視化することで、どのカテゴリで予算オーバーしているかを一目で確認できます。
第8章:収支バランスの分析
収入と支出のバランスを分析する方法を学びましょう。
# 収入と支出を分離
income = df[df['金額'] > 0]['金額'].sum()
expenses = df[df['金額'] < 0]['金額'].sum().abs()
# 収支バランスの計算
balance = income - expenses
print(f"総収入: {income:,.0f}円")
print(f"総支出: {expenses:,.0f}円")
print(f"収支バランス: {balance:,.0f}円")
# 円グラフで可視化
plt.figure(figsize=(10, 10))
plt.pie([income, expenses], labels=['収入', '支出'], autopct='%1.1f%%', startangle=90)
plt.title('収入と支出の割合')
plt.axis('equal')
plt.show()
このコードでは、総収入と総支出を計算し、収支バランスを求めています。また、収入と支出の割合を円グラフで可視化することで、全体的な財務状況を把握することができます。
第9章:カテゴリ間の相関分析
異なるカテゴリ間の支出の相関関係を分析する方法を学びましょう。
# カテゴリごとの日次支出を計算
daily_expenses = df[df['金額'] < 0].pivot_table(values='金額', index='日付', columns='カテゴリ', aggfunc='sum')
# 相関係数の計算
correlation = daily_expenses.corr()
# ヒートマップで可視化
plt.figure(figsize=(12, 10))
sns.heatmap(correlation, annot=True, cmap='coolwarm', vmin=-1, vmax=1, center=0)
plt.title('カテゴリ間の支出相関')
plt.tight_layout()
plt.show()
このコードでは、カテゴリごとの日次支出を計算し、カテゴリ間の相関係数を求めています。ヒートマップで可視化することで、どのカテゴリ間に強い相関関係があるかを視覚的に理解することができます。
第10章:異常値の検出と処理
データ中の異常値を検出し、適切に処理する方法を学びましょう。
# 箱ひげ図で異常値を可視化
plt.figure(figsize=(12, 6))
sns.boxplot(x='カテゴリ', y='金額', data=df)
plt.title('カテゴリごとの金額分布と異常値')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
# 四分位範囲(IQR)法で異常値を検出
Q1 = df['金額'].quantile(0.25)
Q3 = df['金額'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['金額'] < lower_bound) | (df['金額'] > upper_bound)]
print("検出された異常値:")
print(outliers)
# 異常値を除外したデータフレームの作成
df_clean = df[(df['金額'] >= lower_bound) & (df['金額'] <= upper_bound)]
このコードでは、箱ひげ図を使って異常値を可視化し、四分位範囲(IQR)法を用いて異常値を検出しています。検出された異常値を確認し、必要に応じて除外することで、より信頼性の高い分析が可能になります。
第11章:支出パターンの分析
曜日や月ごとの支出パターンを分析する方法を学びましょう。
# 曜日ごとの平均支出
df['曜日'] = df.index.dayofweek
weekday_expenses = df[df['金額'] < 0].groupby('曜日')['金額'].mean().abs()
# 月ごとの総支出
monthly_expenses = df[df['金額'] < 0].resample('M')['金額'].sum().abs()
# 可視化
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 12))
weekday_expenses.plot(kind='bar', ax=ax1)
ax1.set_title('曜日ごとの平均支出')
ax1.set_xlabel('曜日')
ax1.set_ylabel('平均支出(円)')
ax1.set_xticklabels(['月', '火', '水', '木', '金', '土', '日'])
monthly_expenses.plot(kind='line', ax=ax2)
ax2.set_title('月ごとの総月ごとの総支出')
ax2.set_xlabel('月')
ax2.set_ylabel('総支出(円)')
plt.tight_layout()
plt.show()
このコードでは、曜日ごとの平均支出と月ごとの総支出を計算し、可視化しています。これにより、週や月単位での支出パターンを把握することができます。例えば、週末に支出が増える傾向や、特定の月に支出が集中する傾向などを発見できるかもしれません。
第12章:予測モデルの構築
過去のデータを基に、将来の支出を予測するモデルを構築する方法を学びましょう。
from statsmodels.tsa.arima.model import ARIMA
# 月次総支出データの作成
monthly_total = df.resample('M')['金額'].sum()
# ARIMAモデルの構築
model = ARIMA(monthly_total, order=(1, 1, 1))
results = model.fit()
# 次の3ヶ月の予測
forecast = results.forecast(steps=3)
# 結果の可視化
plt.figure(figsize=(12, 6))
plt.plot(monthly_total.index, monthly_total, label='実績')
plt.plot(forecast.index, forecast, color='red', label='予測')
plt.title('月次総支出の実績と予測')
plt.xlabel('日付')
plt.ylabel('総支出(円)')
plt.legend()
plt.tight_layout()
plt.show()
print("次の3ヶ月の予測支出:")
print(forecast)
このコードでは、ARIMAモデルを使用して月次総支出の予測を行っています。過去のデータから傾向を学習し、将来の3ヶ月分の支出を予測します。この予測結果は、将来の家計計画を立てる際の参考になります。
第13章:データのピボット分析
ピボットテーブルを使用して、多次元でのデータ分析を行う方法を学びましょう。
# 月とカテゴリでピボットテーブルを作成
pivot = pd.pivot_table(df, values='金額', index=df.index.month, columns='カテゴリ', aggfunc='sum')
# ヒートマップで可視化
plt.figure(figsize=(12, 8))
sns.heatmap(pivot, annot=True, fmt='.0f', cmap='YlOrRd')
plt.title('月別・カテゴリ別の支出')
plt.xlabel('カテゴリ')
plt.ylabel('月')
plt.tight_layout()
plt.show()
# 特定のカテゴリの月別推移
food_expenses = pivot['食費']
plt.figure(figsize=(10, 6))
food_expenses.plot(kind='bar')
plt.title('食費の月別推移')
plt.xlabel('月')
plt.ylabel('支出(円)')
plt.tight_layout()
plt.show()
このコードでは、月とカテゴリでピボットテーブルを作成し、ヒートマップで可視化しています。これにより、各月の各カテゴリにおける支出の傾向を一目で把握することができます。また、特定のカテゴリ(ここでは食費)の月別推移をバーチャートで表示することで、そのカテゴリの支出パターンをより詳細に分析できます。
第14章:データの正規化と標準化
異なるスケールのデータを比較可能にするため、データの正規化と標準化の方法を学びましょう。
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# カテゴリごとの総支出を計算
category_totals = df[df['金額'] < 0].groupby('カテゴリ')['金額'].sum().abs()
# MinMaxスケーラーによる正規化
minmax_scaler = MinMaxScaler()
normalized_data = minmax_scaler.fit_transform(category_totals.values.reshape(-1, 1))
# 標準化スケーラーによる標準化
standard_scaler = StandardScaler()
standardized_data = standard_scaler.fit_transform(category_totals.values.reshape(-1, 1))
# 結果の比較
comparison = pd.DataFrame({
'カテゴリ': category_totals.index,
'元のデータ': category_totals.values,
'正規化データ': normalized_data.flatten(),
'標準化データ': standardized_data.flatten()
})
print(comparison)
# 可視化
plt.figure(figsize=(12, 6))
plt.plot(comparison['カテゴリ'], comparison['元のデータ'], label='元のデータ')
plt.plot(comparison['カテゴリ'], comparison['正規化データ'], label='正規化データ')
plt.plot(comparison['カテゴリ'], comparison['標準化データ'], label='標準化データ')
plt.title('データの正規化と標準化の比較')
plt.xlabel('カテゴリ')
plt.ylabel('値')
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
このコードでは、カテゴリごとの総支出データを正規化と標準化しています。正規化はデータを0から1の範囲に、標準化は平均0、標準偏差1になるように変換します。これにより、異なるスケールのデータを比較可能な形に変換できます。
第15章:機械学習モデルの適用
最後に、機械学習モデルを使用して支出を予測する方法を学びましょう。
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
# 特徴量の準備
X = pd.get_dummies(df['カテゴリ'])
y = df['金額']
# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# ランダムフォレストモデルの構築と学習
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
# 予測
y_pred = model.predict(X_test)
# モデルの評価
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"平均二乗誤差: {mse:.2f}")
print(f"決定係数: {r2:.2f}")
# 特徴量の重要度
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': model.feature_importances_})
feature_importance = feature_importance.sort_values('importance', ascending=False)
plt.figure(figsize=(10, 6))
sns.barplot(x='importance', y='feature', data=feature_importance)
plt.title('カテゴリの重要度')
plt.xlabel('重要度')
plt.ylabel('カテゴリ')
plt.tight_layout()
plt.show()
このコードでは、ランダムフォレスト回帰モデルを使用して、カテゴリに基づいて金額を予測しています。モデルの性能を評価し、各カテゴリの重要度を可視化することで、どのカテゴリが支出予測に最も影響を与えているかを理解することができます。
以上で、家計簿管理のための高度なPandasの使い方についての解説を終わります。これらの技術を組み合わせることで、より深い洞察を得ることができ、効果的な家計管理が可能になります。データ分析スキルを磨きながら、自分の家計をより良く理解し、管理していくことができるでしょう。