第1章: Pandasとは何か
Pandasは、Pythonでデータ分析を行うための強力なライブラリです。大量のデータを効率的に処理し、分析するための機能を提供します。Pandasの主要な機能には、データの読み込み、操作、集計、結合などがあります。
Pandasの中心的なデータ構造は、DataFrameとSeriesです。DataFrameは2次元のテーブル形式のデータを扱うのに適しており、Seriesは1次元の配列のようなデータを扱います。
以下は、Pandasを使用して簡単なDataFrameを作成する例です:
import pandas as pd
# サンプルデータの作成
data = {
'名前': ['田中', '佐藤', '鈴木'],
'年齢': [25, 30, 28],
'職業': ['会社員', '自営業', '公務員']
}
# DataFrameの作成
df = pd.DataFrame(data)
print(df)
この例では、辞書形式のデータからDataFrameを作成しています。出力結果は以下のようになります:
名前 年齢 職業
0 田中 25 会社員
1 佐藤 30 自営業
2 鈴木 28 公務員
第2章: データの読み込み
Pandasでは、様々な形式のデータを簡単に読み込むことができます。最も一般的なのは、CSVファイルの読み込みです。他にも、Excel、JSON、SQLデータベースなどからもデータを読み込むことができます。
ここでは、CSVファイルを読み込む方法を説明します。以下のコードは、「sales_data.csv」というファイルを読み込んでDataFrameを作成する例です:
import pandas as pd
# CSVファイルの読み込み
df = pd.read_csv('sales_data.csv')
# 最初の5行を表示
print(df.head())
# データの基本情報を表示
print(df.info())
read_csv()
関数は、CSVファイルを読み込んでDataFrameを返します。head()
メソッドは、DataFrameの最初の5行を表示します。info()
メソッドは、データの基本情報(列名、データ型、非欠損値の数など)を表示します。
これらのメソッドを使用することで、読み込んだデータの概要を素早く把握することができます。大規模なデータセットを扱う際には、まずこれらのメソッドでデータの全体像を確認することが重要です。
第3章: データの基本操作
Pandasでは、DataFrameに対して様々な基本操作を行うことができます。ここでは、よく使用される操作をいくつか紹介します。
- 列の選択:
# '名前'列を選択
names = df['名前']
print(names)
# 複数の列を選択
subset = df[['名前', '年齢']]
print(subset)
- 行の選択(インデックスによる):
# 最初の2行を選択
first_two = df.iloc[:2]
print(first_two)
# 特定の行と列を選択
specific = df.iloc[1:3, 0:2]
print(specific)
- 条件による選択:
# 年齢が28以上の行を選択
older = df[df['年齢'] >= 28]
print(older)
- 新しい列の追加:
# '生年'列を追加
df['生年'] = 2023 - df['年齢']
print(df)
- データのソート:
# '年齢'列でソート
sorted_df = df.sort_values('年齢')
print(sorted_df)
これらの操作を組み合わせることで、複雑なデータ操作も可能になります。例えば、特定の条件を満たすデータを抽出し、それを別の基準でソートするといったことが簡単にできます。
データ分析では、このような基本操作を駆使して、データから必要な情報を抽出したり、新しい視点でデータを見直したりすることが重要です。
第4章: データの集計と要約
データ分析において、データの集計や要約は非常に重要な作業です。Pandasは、これらの操作を簡単に行うための多くの機能を提供しています。
- 基本的な統計量の計算:
# 数値データの基本統計量を計算
summary = df.describe()
print(summary)
# 特定の列の平均値を計算
mean_age = df['年齢'].mean()
print(f"平均年齢: {mean_age}")
- グループ化と集計:
# '職業'でグループ化し、年齢の平均を計算
grouped = df.groupby('職業')['年齢'].mean()
print(grouped)
# 複数の集計関数を適用
multi_agg = df.groupby('職業').agg({
'年齢': ['mean', 'max', 'min'],
'生年': 'min'
})
print(multi_agg)
- ピボットテーブル:
# ピボットテーブルの作成
pivot = pd.pivot_table(df, values='年齢', index='職業', columns='生年', aggfunc='mean')
print(pivot)
- クロス集計:
# '職業'と'生年'のクロス集計
cross_tab = pd.crosstab(df['職業'], df['生年'])
print(cross_tab)
これらの集計・要約機能を使用することで、大量のデータから重要な洞察を得ることができます。例えば、職業ごとの平均年齢を比較したり、年代別の職業分布を確認したりすることが可能です。
データの集計結果は、しばしばビジュアライゼーションの入力としても使用されます。次の章では、これらの集計結果をMatplotlibを使って可視化する方法を学びます。
第5章: Matplotlibの基礎
Matplotlibは、Pythonで最も広く使用されているデータ可視化ライブラリの1つです。様々な種類のグラフや図を作成することができ、高度なカスタマイズも可能です。
まずは、Matplotlibの基本的な使い方を見てみましょう。
import matplotlib.pyplot as plt
import numpy as np
# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x)
# プロットの作成
plt.figure(figsize=(10, 6))
plt.plot(x, y)
plt.title('正弦波')
plt.xlabel('x軸')
plt.ylabel('y軸')
plt.grid(True)
# グラフの表示
plt.show()
このコードでは、以下のことを行っています:
-
plt.figure()
: 新しい図(Figure)を作成します。figsize
パラメータでサイズを指定できます。 -
plt.plot()
: データをプロットします。 -
plt.title()
,plt.xlabel()
,plt.ylabel()
: グラフのタイトルと軸ラベルを設定します。 -
plt.grid()
: グリッド線を表示します。 -
plt.show()
: グラフを表示します。
Matplotlibには2つの主要なインターフェースがあります:
-
PyplotインターフェースとOOインターフェース(オブジェクト指向インターフェース)です。上記の例はPyplotインターフェースを使用しています。
-
OOインターフェースを使用すると、より細かい制御が可能になります:
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot(x, y)
ax.set_title('正弦波')
ax.set_xlabel('x軸')
ax.set_ylabel('y軸')
ax.grid(True)
plt.show()
この方法では、Figure
とAxes
オブジェクトを明示的に作成し、操作します。複雑なレイアウトや多数のサブプロットを扱う際に特に有用です。
第6章: 基本的なグラフの作成
Matplotlibを使用して、様々な種類の基本的なグラフを作成することができます。ここでは、よく使用されるグラフの種類とその作成方法を紹介します。
- 折れ線グラフ:
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
plt.figure(figsize=(10, 6))
plt.plot(x, y1, label='sin(x)')
plt.plot(x, y2, label='cos(x)')
plt.title('正弦波と余弦波')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()
- 棒グラフ:
categories = ['A', 'B', 'C', 'D']
values = [4, 7, 1, 6]
plt.figure(figsize=(8, 6))
plt.bar(categories, values)
plt.title('カテゴリー別の値')
plt.xlabel('カテゴリー')
plt.ylabel('値')
plt.show()
- ヒストグラム:
data = np.random.randn(1000)
plt.figure(figsize=(8, 6))
plt.hist(data, bins=30, edgecolor='black')
plt.title('ヒストグラム')
plt.xlabel('値')
plt.ylabel('頻度')
plt.show()
- 散布図:
x = np.random.rand(50)
y = np.random.rand(50)
plt.figure(figsize=(8, 6))
plt.scatter(x, y)
plt.title('散布図')
plt.xlabel('x')
plt.ylabel('y')
plt.show()
- 円グラフ:
sizes = [35, 25, 20, 15, 5]
labels = ['A', 'B', 'C', 'D', 'E']
plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90)
plt.title('円グラフ')
plt.axis('equal') # 円を真円に保つ
plt.show()
これらの基本的なグラフを組み合わせたり、カスタマイズしたりすることで、データの特性に合わせた効果的な可視化が可能になります。次の章では、これらのグラフをさらにカスタマイズする方法を学びます。
第7章: グラフのカスタマイズ
Matplotlibでは、グラフの見た目を細かくカスタマイズすることができます。ここでは、グラフをより魅力的で情報量の多いものにするためのテクニックをいくつか紹介します。
- 色とスタイルの変更:
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
plt.figure(figsize=(10, 6))
plt.plot(x, y1, color='red', linestyle='--', linewidth=2, label='sin(x)')
plt.plot(x, y2, color='blue', linestyle='-.', linewidth=2, label='cos(x)')
plt.title('カスタマイズされた線グラフ', fontsize=16)
plt.xlabel('x軸', fontsize=12)
plt.ylabel('y軸', fontsize=12)
plt.legend(fontsize=10)
plt.grid(True, linestyle=':')
plt.show()
- マーカーの追加:
plt.figure(figsize=(10, 6))
plt.plot(x[::10], y1[::10], 'ro-', label='sin(x)') # 赤い丸のマーカー
plt.plot(x[::10], y2[::10], 'bs-', label='cos(x)') # 青い四角のマーカー
plt.title('マーカー付きの線グラフ')
plt.legend()
plt.show()
- 複数のサブプロット:
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(10, 10))
ax1.plot(x, y1)
ax1.set_title('sin(x)')
ax2.plot(x, y2)
ax2.set_title('cos(x)')
plt.tight_layout()
plt.show()
- 軸の範囲とスケールの設定:
plt.figure(figsize=(10, 6))
plt.plot(x, y1)
plt.xlim(0, 5) # x軸の範囲を0から5に設定
plt.ylim(-1.5, 1.5) # y軸の範囲を-1.5から1.5に設定
plt.yscale('log') # y軸を対数スケールに設定
plt.title('軸のカスタマイズ')
plt.show()
- テキストと注釈の追加:
plt.figure(figsize=(10, 6))
plt.plot(x, y1)
plt.title('テキストと注釈の追加')
plt.text(5, 0.5, 'ここが最大値付近', fontsize=12)
plt.annotate('最小値', xy=(3*np.pi/2, -1), xytext=(8, -0.5),
arrowprops=dict(facecolor='black', shrink=0.05))
plt.show()
これらのカスタマイズ技術を使用することで、データの特徴をより効果的に強調し、見る人にとってより理解しやすいグラフを作成することができます。
第8章: PandasとMatplotlibの連携
PandasのDataFrameは、Matplotlibと直接連携して簡単にグラフを作成することができます。ここでは、PandasのDataFrameを使用してMatplotlibでグラフを作成する方法を紹介します。
まず、サンプルデータを作成しましょう:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# サンプルデータの作成
dates = pd.date_range('20230101', periods=100)
df = pd.DataFrame({
'A': np.random.randn(100).cumsum(),
'B': np.random.randn(100).cumsum(),
'C': np.random.randn(100).cumsum()
}, index=dates)
print(df.head())
- 折れ線グラフの作成:
df.plot(figsize=(10, 6))
plt.title('DataFrameの折れ線グラフ')
plt.xlabel('日付')
plt.ylabel('値')
plt.legend(loc='best')
plt.show()
- 棒グラフの作成:
df.iloc[-1].plot(kind='bar', figsize=(10, 6))
plt.title('最終日のデータ')
plt.xlabel('列')
plt.ylabel('値')
plt.show()
- ヒストグラムの作成:
df['A'].plot(kind='hist', bins=20, figsize=(10, 6))
plt.title('列Aのヒストグラム')
plt.xlabel('値')
plt.ylabel('頻度')
plt.show()
- 散布図の作成:
df.plot(kind='scatter', x='A', y='B', figsize=(10, 6))
plt.title('AとBの散布図')
plt.xlabel('A')
plt.ylabel('B')
plt.show()
- 箱ひげ図の作成:
df.boxplot(figsize=(10, 6))
plt.title('箱ひげ図')
plt.ylabel('値')
plt.show()
PandasのDataFrameを使用すると、データの前処理からグラフの作成まで一貫して行うことができ、効率的なデータ分析が可能になります。また、Pandasの強力なデータ操作機能と組み合わせることで、より複雑な分析やビジュアライゼーションも簡単に実現できます。
第9章: 時系列データの分析と可視化
時系列データは、日付や時間に沿って記録されたデータのことを指します。Pandasは時系列データを扱うための強力な機能を提供しており、Matplotlibと組み合わせることで効果的な分析と可視化が可能です。
まず、サンプルの時系列データを作成しましょう:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 時系列データの作成
dates = pd.date_range('20230101', periods=365)
df = pd.DataFrame({
'売上': np.random.randint(100, 1000, 365),
'気温': np.random.uniform(0, 30, 365)
}, index=dates)
print(df.head())
- 基本的な時系列プロット:
df['売上'].plot(figsize=(12, 6))
plt.title('日次売上')
plt.xlabel('日付')
plt.ylabel('売上')
plt.show()
- 移動平均の計算と可視化:
df['売上_7日移動平均'] = df['売上'].rolling(window=7).mean()
df[['売上', '売上_7日移動平均']].plot(figsize=(12, 6))
plt.title('売上と7日移動平均')
plt.xlabel('日付')
plt.ylabel('売上')
plt.legend(['売上', '7日移動平均'])
plt.show()
- 季節性の分析:
df['月'] = df.index.month
monthly_avg = df.groupby('月')['売上'].mean()
monthly_avg.plot(kind='bar', figsize=(12, 6))
plt.title('月別平均売上')
plt.xlabel('月')
plt.ylabel('平均売上')
plt.show()
- 複数の時系列データの比較:
fig, ax1 = plt.subplots(figsize=(12, 6))
color = 'tab:red'
ax1.set_xlabel('日付')
ax1.set_ylabel('売上', color=color)
ax1.plot(df.index, df['売上'], color=color)
ax1.tick_params(axis='y', labelcolor=color)
ax2 = ax1.twinx() # 2つ目のy軸を作成
color = 'tab:blue'
ax2.set_ylabel('気温', color=color)
ax2.plot(df.index, df['気温'], color=color)
ax2.tick_params(axis='y', labelcolor=color)
plt.title('売上と気温の関係')
fig.tight_layout()
plt.show()
- リサンプリングと集計:
monthly_data = df.resample('M').mean()
monthly_data.plot(figsize=(12, 6))
plt.title('月次平均データ')
plt.xlabel('日付')
plt.ylabel('値')
plt.legend(['売上', '気温'])
plt.show()
これらの技術を使用することで、時系列データの傾向、季節性、異常値などを効果的に分析し、可視化することができます。時系列データの分析は、ビジネスの予測や意思決定に重要な役割を果たします。
第10章: データの前処理とクリーニング
データ分析において、データの前処理とクリーニングは非常に重要なステップです。実世界のデータは往々にして不完全、不正確、または不適切な形式であることが多いため、分析前にデータをクリーンアップする必要があります。
以下に、Pandasを使用したデータ前処理とクリーニングの一般的なタスクをいくつか紹介します:
- 欠損値の処理:
import pandas as pd
import numpy as np
# サンプルデータの作成
df = pd.DataFrame({
'A': [1, 2, np.nan, 4, 5],
'B': [5, np.nan, np.nan, 3, 2],
'C': [1, 2, 3, 4, 5]
})
print("元のデータ:")
print(df)
# 欠損値の削除
df_dropped = df.dropna()
print("\n欠損値を含む行を削除:")
print(df_dropped)
# 欠損値の補完
df_filled = df.fillna(df.mean())
print("\n平均値で欠損値を補完:")
print(df_filled)
- 重複データの削除:
# 重複データの作成
df_dup = pd.DataFrame({
'A': [1, 2, 2, 3, 4, 4],
'B': [5, 6, 6, 7, 8, 8]
})
print("重複を含むデータ:")
print(df_dup)
# 重複の削除
df_unique = df_dup.drop_duplicates()
print("\n重複を削除したデータ:")
print(df_unique)
- データ型の変換:
df = pd.DataFrame({
'A': ['1', '2', '3', '4', '5'],
'B': [1.1, 2.2, 3.3, 4.4, 5.5],
'C': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05']
})
print("元のデータ型:")
print(df.dtypes)
# データ型の変換
df['A'] = df['A'].astype(int)
df['C'] = pd.to_datetime(df['C'])
print("\n変換後のデータ型:")
print(df.dtypes)
- カテゴリカルデータのエンコーディング:
df = pd.DataFrame({
'カテゴリ': ['A', 'B', 'C', 'A', 'B', 'C'],
'値': [1, 2, 3, 4, 5, 6]
})
print("元のデータ:")
print(df)
# One-hotエンコーディング
df_encoded = pd.get_dummies(df, columns=['カテゴリ'])
print("\nOne-hotエンコーディング後:")
print(df_encoded)
- 異常値の検出と処理:
df = pd.DataFrame({
'値': [1, 2, 3, 100, 4, 5, -50, 6, 7, 8]
})
print("元のデータ:")
print(df)
# 四分位数を使用した異常値の検出
Q1 = df['値'].quantile(0.25)
Q3 = df['値'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 異常値の除去
df_clean = df[(df['値'] >= lower_bound) & (df['値'] <= upper_bound)]
print("\n異常値を除去したデータ:")
print(df_clean)
これらの前処理とクリーニング技術を適切に適用することで、より信頼性の高い分析結果を得ることができます。データの品質は分析結果の品質に直接影響するため、この段階は非常に重要です。
第11章: 高度なデータ操作
Pandasは、複雑なデータ操作を行うための高度な機能を提供しています。ここでは、より複雑なデータ分析タスクを実行するためのいくつかの高度な技術を紹介します。
- マルチインデックス(階層的インデックス):
import pandas as pd
import numpy as np
# マルチインデックスのDataFrameを作成
index = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y', 'Z']], names=['大分類', '小分類'])
df = pd.DataFrame(np.random.randn(6, 2), index=index, columns=['データ1', 'データ2'])
print("マルチインデックスのDataFrame:")
print(df)
# 特定のレベルでの集計
print("\n大分類ごとの平均:")
print(df.groupby(level='大分類').mean())
- データのピボット:
# サンプルデータの作成
df = pd.DataFrame({
'日付': pd.date_range('20230101', periods=6),
'商品': ['A', 'B', 'A', 'B', 'A', 'B'],
'売上': [100, 200, 150, 250, 180, 220]
})
print("元のデータ:")
print(df)
# ピボットテーブルの作成
pivot = df.pivot(index='日付', columns='商品', values='売上')
print("\nピボットテーブル:")
print(pivot)
- 時系列データのリサンプリング:
# 日次データの作成
dates = pd.date_range('20230101', periods=100)
ts = pd.Series(np.random.randn(100), index=dates)
print("元の時系列データ:")
print(ts.head())
# 週次にリサンプリング
weekly = ts.resample('W').mean()
print("\n週次データ:")
print(weekly.head())
# 月次にリサンプリング
monthly = ts.resample('M').mean()
print("\n月次データ:")
print(monthly.head())
- 複数のDataFrameの結合:
# 2つのDataFrameを作成
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2']},
index=['K0', 'K1', 'K2'])
df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
'D': ['D0', 'D1', 'D2']},
index=['K0', 'K2', 'K3'])
print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)
# 外部結合
merged = pd.merge(df1, df2, left_index=True, right_index=True, how='outer')
print("\n外部結合の結果:")
print(merged)
- カスタム関数の適用:
def categorize(value):
if value < 0:
return '負'
elif value == 0:
return 'ゼロ'
else:
return '正'
df = pd.DataFrame({'値': [-2, -1, 0, 1, 2]})
df['カテゴリ'] = df['値'].apply(categorize)
print("カスタム関数適用後のDataFrame:")
print(df)
これらの高度なデータ操作技術を使用することで、複雑なデータセットをより効果的に分析し、洞察を得ることができます。次に、これらの操作をさらに発展させた例を見てみましょう。
- 複数列に対する操作:
import pandas as pd
import numpy as np
df = pd.DataFrame({
'A': np.random.rand(5),
'B': np.random.rand(5),
'C': np.random.rand(5)
})
print("元のDataFrame:")
print(df)
# 全ての列に対して同じ操作を適用
df_squared = df ** 2
print("\n全ての値を2乗したDataFrame:")
print(df_squared)
# 特定の条件を満たす行の選択
df_filtered = df[df > 0.5]
print("\n0.5より大きい値のみを表示:")
print(df_filtered)
- 時系列データの移動と差分:
dates = pd.date_range('20230101', periods=10)
ts = pd.Series(np.random.randn(10), index=dates)
print("元の時系列データ:")
print(ts)
# 移動平均の計算
rolling_mean = ts.rolling(window=3).mean()
print("\n3日移動平均:")
print(rolling_mean)
# 差分の計算
diff = ts.diff()
print("\n1日前との差分:")
print(diff)
- データのグループ化と変換:
df = pd.DataFrame({
'グループ': ['A', 'A', 'B', 'B', 'A'],
'値': [1, 2, 3, 4, 5]
})
print("元のDataFrame:")
print(df)
# グループごとの平均を計算
group_mean = df.groupby('グループ')['値'].transform('mean')
df['グループ平均'] = group_mean
print("\nグループ平均を追加したDataFrame:")
print(df)
- 複雑な条件でのデータフィルタリング:
df = pd.DataFrame({
'A': np.random.rand(10),
'B': np.random.rand(10),
'C': np.random.choice(['X', 'Y', 'Z'], 10)
})
print("元のDataFrame:")
print(df)
# 複数の条件を組み合わせてフィルタリング
filtered = df[(df['A'] > 0.5) & (df['B'] < 0.5) & (df['C'] == 'X')]
print("\nフィルタリング後のDataFrame:")
print(filtered)
- データの正規化:
df = pd.DataFrame({
'A': np.random.randint(0, 100, 5),
'B': np.random.randint(0, 100, 5)
})
print("元のDataFrame:")
print(df)
# Min-Max正規化
normalized = (df - df.min()) / (df.max() - df.min())
print("\n正規化後のDataFrame:")
print(normalized)
これらの高度なデータ操作技術を習得することで、より複雑なデータ分析タスクを効率的に実行できるようになります。実際のデータ分析プロジェクトでは、これらの技術を組み合わせて使用することが多いです。
次の章では、これらの操作を実際のデータセットに適用し、意味のある洞察を得る方法について説明します。
第12章: 実践的なデータ分析プロジェクト
ここまでに学んだ技術を使って、実際のデータセットを分析するプロジェクトを行ってみましょう。このプロジェクトでは、架空の小売店の売上データを分析します。
まず、必要なライブラリをインポートし、データを読み込みます:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# CSVファイルからデータを読み込む(ファイルが存在すると仮定)
df = pd.read_csv('retail_sales.csv')
print("データの最初の5行:")
print(df.head())
print("\nデータの基本情報:")
print(df.info())
次に、データのクリーニングと前処理を行います:
# 日付列を日付型に変換
df['日付'] = pd.to_datetime(df['日付'])
# 欠損値の確認と処理
print("\n欠損値の数:")
print(df.isnull().sum())
# 売上金額が負の値を持つ行を削除
df = df[df['売上金額'] >= 0]
# 重複行の削除
df.drop_duplicates(inplace=True)
print("\nクリーニング後のデータ形状:")
print(df.shape)
データの基本的な分析を行います:
# 日別の総売上を計算
daily_sales = df.groupby('日付')['売上金額'].sum().reset_index()
# 日別売上の折れ線グラフを作成
plt.figure(figsize=(12, 6))
plt.plot(daily_sales['日付'], daily_sales['売上金額'])
plt.title('日別総売上')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
# 商品カテゴリ別の売上比率を計算
category_sales = df.groupby('商品カテゴリ')['売上金額'].sum().sort_values(ascending=False)
plt.figure(figsize=(10, 6))
category_sales.plot(kind='pie', autopct='%1.1f%%')
plt.title('商品カテゴリ別売上比率')
plt.ylabel('')
plt.show()
さらに、高度な分析を行います:
# 月別・カテゴリ別の売上推移
df['年月'] = df['日付'].dt.to_period('M')
monthly_category_sales = df.groupby(['年月', '商品カテゴリ'])['売上金額'].sum().unstack()
plt.figure(figsize=(12, 6))
monthly_category_sales.plot(kind='area', stacked=True)
plt.title('月別・カテゴリ別売上推移')
plt.xlabel('年月')
plt.ylabel('売上金額')
plt.legend(title='商品カテゴリ', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()
# 顧客セグメンテーション
customer_rfm = df.groupby('顧客ID').agg({
'日付': lambda x: (df['日付'].max() - x.max()).days, # Recency
'注文ID': 'count', # Frequency
'売上金額': 'sum' # Monetary
})
customer_rfm.columns = ['Recency', 'Frequency', 'Monetary']
# RFMスコアの計算
r_labels = range(4, 0, -1)
f_labels = range(1, 5)
m_labels = range(1, 5)
r_quartiles = pd.qcut(customer_rfm['Recency'], q=4, labels=r_labels)
f_quartiles = pd.qcut(customer_rfm['Frequency'], q=4, labels=f_labels)
m_quartiles = pd.qcut(customer_rfm['Monetary'], q=4, labels=m_labels)
customer_rfm['RFM_Score'] = r_quartiles.astype(str) + f_quartiles.astype(str) + m_quartiles.astype(str)
print("\n顧客セグメンテーション結果:")
print(customer_rfm['RFM_Score'].value_counts().head())
# RFMスコアの分布を可視化
plt.figure(figsize=(10, 6))
sns.countplot(x='RFM_Score', data=customer_rfm, order=customer_rfm['RFM_Score'].value_counts().index[:20])
plt.title('上位20のRFMスコア分布')
plt.xlabel('RFMスコア')
plt.ylabel('顧客数')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()
このプロジェクトでは、データの読み込み、クリーニング、基本的な分析、そして高度な分析まで一連のプロセスを実践しました。実際のデータ分析プロジェクトでも、同様のステップを踏んで分析を進めていきます。
次の章では、機械学習モデルを使用したより高度な分析手法について説明します。
第13章: 機械学習モデルの導入
Pandasで前処理したデータを使用して、簡単な機械学習モデルを構築してみましょう。ここでは、売上予測モデルを例として取り上げます。
まず、必要なライブラリをインポートします:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
# 前章で使用したデータフレーム 'df' を使用すると仮定します
次に、特徴量と目的変数を準備します:
# 日付から年、月、日の特徴量を作成
df['年'] = df['日付'].dt.year
df['月'] = df['日付'].dt.month
df['日'] = df['日付'].dt.day
# 特徴量と目的変数を選択
features = ['年', '月', '日', '商品カテゴリ']
target = '売上金額'
# カテゴリカル変数をダミー変数に変換
X = pd.get_dummies(df[features], columns=['商品カテゴリ'])
y = df[target]
# データを訓練セットとテストセットに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
線形回帰モデルを構築し、訓練を行います:
# モデルの初期化と訓練
model = LinearRegression()
model.fit(X_train, y_train)
# テストデータで予測
y_pred = model.predict(X_test)
# モデルの評価
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"平均二乗誤差: {mse}")
print(f"決定係数 R^2: {r2}")
予測結果を可視化します:
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('実際の売上金額')
plt.ylabel('予測された売上金額')
plt.title('売上予測モデルの性能')
plt.tight_layout()
plt.show()
特徴量の重要度を確認します:
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': abs(model.coef_)})
feature_importance = feature_importance.sort_values('importance', ascending=False)
plt.figure(figsize=(10, 6))
plt.bar(feature_importance['feature'][:10], feature_importance['importance'][:10])
plt.title('上位10の特徴量重要度')
plt.xlabel('特徴量')
plt.ylabel('重要度')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()
このように、Pandasで前処理したデータを使用して機械学習モデルを構築し、予測を行うことができます。実際のプロジェクトでは、より複雑なモデルや特徴量エンジニアリングを行うことで、予測精度を向上させることができます。
次の章では、より高度な可視化テクニックについて説明します。
第14章: 高度なデータ可視化
データ分析の結果を効果的に伝えるためには、適切な可視化が重要です。ここでは、Matplotlibに加えて、Seabornライブラリを使用してより高度な可視化を行う方法を紹介します。
まず、必要なライブラリをインポートします:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 前章で使用したデータフレーム 'df' を使用すると仮定します
- ヒートマップを使用した相関分析:
# 数値データのみを選択
numeric_df = df.select_dtypes(include=[np.number])
# 相関係数を計算
corr_matrix = numeric_df.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, center=0)
plt.title('特徴量間の相関係数')
plt.tight_layout()
plt.show()
- 箱ひげ図を使用したカテゴリ別の分布比較:
plt.figure(figsize=(12, 6))
sns.boxplot(x='商品カテゴリ', y='売上金額', data=df)
plt.title('商品カテゴリ別の売上金額分布')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
- バイオリンプロットを使用した分布の可視化:
plt.figure(figsize=(12, 6))
sns.violinplot(x='商品カテゴリ', y='売上金額', data=df)
plt.title('商品カテゴリ別の売上金額分布(バイオリンプロット)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
- ペアプロットを使用した多変量の関係性の可視化:
# データのサブセットを作成(処理時間短縮のため)
subset = df.sample(n=1000, random_state=42)
sns.pairplot(subset[['売上金額', '年', '月', '日']], height=2)
plt.suptitle('数値変数間の関係性', y=1.02)
plt.tight_layout()
plt.show()
- カテゴリカルデータの棒グラフ(水平バー):
category_counts = df['商品カテゴリ'].value_counts()
plt.figure(figsize=(10, 6))
sns.barplot(x=category_counts.values, y=category_counts.index, palette='viridis')
plt.title('商品カテゴリ別の商品数')
plt.xlabel('商品数')
plt.ylabel('商品カテゴリ')
plt.tight_layout()
plt.show()
- 時系列データの可視化:
# 日付ごとの総売上を計算
daily_sales = df.groupby('日付')['売上金額'].sum().reset_index()
plt.figure(figsize=(12, 6))
sns.lineplot(x='日付', y='売上金額', data=daily_sales)
plt.title('日別総売上の推移')
plt.xlabel('日付')
plt.ylabel('総売上金額')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
- カテゴリカル変数とカウントデータの関係を示すカウントプロット:
plt.figure(figsize=(12, 6))
sns.countplot(x='月', hue='商品カテゴリ', data=df)
plt.title('月別・カテゴリ別の販売数')
plt.xlabel('月')
plt.ylabel('販売数')
plt.legend(title='商品カテゴリ', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()
- 散布図行列:
sns.set(style="ticks")
# データのサブセットを作成(処理時間短縮のため)
subset = df.sample(n=1000, random_state=42)
sns.pairplot(subset[['売上金額', '年', '月', '日', '商品カテゴリ']], hue='商品カテゴリ', height=2)
plt.suptitle('変数間の関係性と商品カテゴリ', y=1.02)
plt.tight_layout()
plt.show()
これらの高度な可視化テクニックを使用することで、データの複雑な関係性や傾向をより効果的に表現し、洞察を得ることができます。データの特性に応じて適切な可視化方法を選択することが重要です。
次の章では、Pandasを使用した時系列データの詳細な分析について説明します。
第15章: 時系列データの詳細分析
時系列データの分析は、多くのビジネス分野で重要です。ここでは、Pandasの時系列機能を使用して、より詳細な時系列分析を行う方法を紹介します。
- 時系列データの再サンプリング:
# 日次データを月次データに変換
monthly_sales = df.set_index('日付').resample('M')['売上金額'].sum().reset_index()
plt.figure(figsize=(12, 6))
plt.plot(monthly_sales['日付'], monthly_sales['売上金額'])
plt.title('月次売上の推移')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.tight_layout()
plt.show()
- 移動平均の計算と可視化:
# 7日間の移動平均を計算
daily_sales = df.groupby('日付')['売上金額'].sum().reset_index()
daily_sales.set_index('日付', inplace=True)
daily_sales['7日移動平均'] = daily_sales['売上金額'].rolling(window=7).mean()
plt.figure(figsize=(12, 6))
plt.plot(daily_sales.index, daily_sales['売上金額'], label='日次売上')
plt.plot(daily_sales.index, daily_sales['7日移動平均'], label='7日移動平均', color='red')
plt.title('日次売上と7日移動平均')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.legend()
plt.tight_layout()
plt.show()
- 季節性の分析:
# 月別と曜日別の平均売上を計算
df['月'] = df['日付'].dt.month
df['曜日'] = df['日付'].dt.dayofweek
monthly_avg = df.groupby('月')['売上金額'].mean()
daily_avg = df.groupby('曜日')['売上金額'].mean()
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
monthly_avg.plot(kind='bar', ax=ax1)
ax1.set_title('月別平均売上')
ax1.set_xlabel('月')
ax1.set_ylabel('平均売上金額')
daily_avg.plot(kind='bar', ax=ax2)
ax2.set_title('曜日別平均売上')
ax2.set_xlabel('曜日')
ax2.set_ylabel('平均売上金額')
ax2.set_xticklabels(['月', '火', '水', '木', '金', '土', '日'])
plt.tight_layout()
plt.show()
- 自己相関分析:
from pandas.plotting import autocorrelation_plot
plt.figure(figsize=(12, 6))
autocorrelation_plot(daily_sales['売上金額'])
plt.title('売上金額の自己相関')
plt.tight_layout()
plt.show()
- 時系列分解:
from statsmodels.tsa.seasonal import seasonal_decompose
# 日次データを使用
result = seasonal_decompose(daily_sales['売上金額'], model='additive', period=7)
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(12, 16))
result.observed.plot(ax=ax1)
ax1.set_title('観測データ')
result.trend.plot(ax=ax2)
ax2.set_title('トレンド')
result.seasonal.plot(ax=ax3)
ax3.set_title('季節性')
result.resid.plot(ax=ax4)
ax4.set_title('残差')
plt.tight_layout()
plt.show()
これらの時系列分析手法を使用することで、データの長期的なトレンド、季節性、周期性などを詳細に分析することができます。これらの洞察は、将来の売上予測や在庫管理などのビジネス戦略の立案に役立ちます。
次の章では、Pandasを使用したデータの高度な操作と分析について説明します。
第16章: 高度なデータ操作と分析
Pandasには、複雑なデータ操作や分析を行うための高度な機能があります。ここでは、いくつかの高度なテクニックを紹介します。
- 複数のDataFrameの結合:
# 顧客情報のDataFrameを作成(例)
customer_df = pd.DataFrame({
'顧客ID': df['顧客ID'].unique(),
'顧客ランク': np.random.choice(['A', 'B', 'C'], size=len(df['顧客ID'].unique()))
})
# 顧客情報を元のDataFrameと結合
merged_df = pd.merge(df, customer_df, on='顧客ID', how='left')
print(merged_df.head())
- ピボットテーブルの作成:
pivot_table = pd.pivot_table(merged_df, values='売上金額', index=['顧客ランク'], columns=['月'], aggfunc=np.sum, fill_value=0)
print(pivot_table)
- 複雑な条件でのフィルタリング:
# A
はい、続けさせていただきます。
## 第16章: 高度なデータ操作と分析(続き)
3. 複雑な条件でのフィルタリング:
```python
# Aランクの顧客で、売上金額が平均以上の取引を抽出
high_value_transactions = merged_df[(merged_df['顧客ランク'] == 'A') &
(merged_df['売上金額'] > merged_df['売上金額'].mean())]
print(high_value_transactions.head())
- グループ化と複数の集計関数の適用:
grouped_data = merged_df.groupby(['顧客ランク', '商品カテゴリ']).agg({
'売上金額': ['sum', 'mean', 'count'],
'顧客ID': 'nunique'
}).reset_index()
grouped_data.columns = ['顧客ランク', '商品カテゴリ', '総売上', '平均売上', '取引数', 'ユニーク顧客数']
print(grouped_data.head(10))
- 時系列データの累積和と変化率:
daily_sales = merged_df.groupby('日付')['売上金額'].sum().reset_index()
daily_sales['累積売上'] = daily_sales['売上金額'].cumsum()
daily_sales['売上変化率'] = daily_sales['売上金額'].pct_change()
print(daily_sales.head(10))
- カテゴリカルデータのエンコーディング:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
merged_df['顧客ランク_encoded'] = le.fit_transform(merged_df['顧客ランク'])
merged_df['商品カテゴリ_encoded'] = le.fit_transform(merged_df['商品カテゴリ'])
print(merged_df[['顧客ランク', '顧客ランク_encoded', '商品カテゴリ', '商品カテゴリ_encoded']].head(10))
- 欠損値の高度な処理:
# 例として、いくつかの欠損値を作成
merged_df.loc[merged_df.sample(frac=0.1).index, '売上金額'] = np.nan
# カテゴリ別の平均値で欠損値を補完
merged_df['売上金額'] = merged_df.groupby('商品カテゴリ')['売上金額'].transform(lambda x: x.fillna(x.mean()))
print(merged_df[merged_df['売上金額'].isnull().sum()])
- データの正規化:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
merged_df['売上金額_normalized'] = scaler.fit_transform(merged_df[['売上金額']])
print(merged_df[['売上金額', '売上金額_normalized']].describe())
- 時間帯別の分析:
merged_df['時間帯'] = pd.cut(merged_df['日付'].dt.hour,
bins=[0, 6, 12, 18, 24],
labels=['深夜', '午前', '午後', '夜間'])
time_analysis = merged_df.groupby('時間帯').agg({
'売上金額': ['sum', 'mean'],
'注文ID': 'count'
}).reset_index()
print(time_analysis)
- 複数列の文字列操作:
# 例として、商品名列を追加
merged_df['商品名'] = '商品_' + merged_df['商品カテゴリ'] + '_' + merged_df['注文ID'].astype(str)
# 商品名から情報を抽出
merged_df['抽出カテゴリ'] = merged_df['商品名'].str.split('_').str[1]
merged_df['抽出注文ID'] = merged_df['商品名'].str.split('_').str[2]
print(merged_df[['商品名', '抽出カテゴリ', '抽出注文ID']].head())
これらの高度なデータ操作と分析テクニックを使用することで、複雑なデータセットからより深い洞察を得ることができます。実際のデータ分析プロジェクトでは、これらのテクニックを組み合わせて使用し、データの特性に応じて適切な方法を選択することが重要です。
次の章では、Pandasを使用したデータの出力と共有について説明します。
第17章: データの出力と共有
データ分析の結果を他の人と共有したり、他のシステムで利用したりするためには、適切な形式でデータを出力することが重要です。ここでは、Pandasを使用してデータを様々な形式で出力する方法を紹介します。
- CSVファイルへの出力:
# DataFrameをCSVファイルとして保存
merged_df.to_csv('analyzed_data.csv', index=False)
print("CSVファイルとして保存しました。")
- Excelファイルへの出力:
# DataFrameをExcelファイルとして保存
merged_df.to_excel('analyzed_data.xlsx', index=False)
print("Excelファイルとして保存しました。")
- JSON形式での出力:
# DataFrameをJSON形式で出力
json_data = merged_df.to_json(orient='records')
print(json_data[:200]) # 最初の200文字のみ表示
- HTMLテーブルとしての出力:
# DataFrameをHTMLテーブルとして出力
html_table = merged_df.head(10).to_html()
print(html_table)
- SQLデータベースへの出力:
from sqlalchemy import create_engine
# SQLiteデータベースエンジンの作成
engine = create_engine('sqlite:///analyzed_data.db')
# DataFrameをSQLテーブルとして保存
merged_df.to_sql('sales_data', engine, if_exists='replace', index=False)
print("SQLデータベースに保存しました。")
- Pickleファイルとしての保存(Pythonオブジェクトの直接保存):
# DataFrameをPickleファイルとして保存
merged_df.to_pickle('analyzed_data.pkl')
print("Pickleファイルとして保存しました。")
- 特定の列や行の選択的な出力:
# 特定の列のみを選択してCSVファイルに出力
selected_columns = ['日付', '顧客ID', '商品カテゴリ', '売上金額']
merged_df[selected_columns].to_csv('selected_data.csv', index=False)
print("選択された列のデータをCSVファイルとして保存しました。")
- 集計結果の出力:
# 日付ごとの売上集計をCSVファイルに出力
daily_summary = merged_df.groupby('日付')['売上金額'].agg(['sum', 'mean', 'count']).reset_index()
daily_summary.to_csv('daily_summary.csv', index=False)
print("日次サマリーをCSVファイルとして保存しました。")
- 大規模データセットの分割出力:
# データを1万行ずつに分割してCSVファイルに出力
chunksize = 10000
for i, chunk in enumerate(np.array_split(merged_df, len(merged_df) // chunksize + 1)):
chunk.to_csv(f'data_chunk_{i+1}.csv', index=False)
print(f"チャンク {i+1} を保存しました。")
- データの暗号化と出力:
import base64
# データをJSON形式に変換し、Base64エンコードして保存
json_data = merged_df.to_json()
encoded_data = base64.b64encode(json_data.encode()).decode()
with open('encoded_data.txt', 'w') as f:
f.write(encoded_data)
print("暗号化されたデータを保存しました。")
これらの方法を使用することで、分析結果を様々な形式で出力し、他の人やシステムと共有することができます。出力形式の選択は、データの用途や共有先のニーズに応じて行うことが重要です。
次の章では、Pandasを使用したデータ分析のベストプラクティスとパフォーマンス最適化について説明します。
第18章: データ分析のベストプラクティスとパフォーマンス最適化
大規模なデータセットを効率的に処理し、高品質な分析結果を得るためには、ベストプラクティスを守り、パフォーマンスを最適化することが重要です。ここでは、Pandasを使用したデータ分析におけるいくつかのベストプラクティスとパフォーマンス最適化のテクニックを紹介します。
- メモリ使用量の最適化:
# データ型の最適化
merged_df['売上金額'] = merged_df['売上金額'].astype('float32')
merged_df['顧客ID'] = merged_df['顧客ID'].astype('category')
merged_df['商品カテゴリ'] = merged_df['商品カテゴリ'].astype('category')
print(merged_df.info(memory_usage='deep'))
- チャンク処理による大規模データの扱い:
# 大規模CSVファイルを少しずつ読み込んで処理
chunk_size = 10000
total_sales = 0
for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
total_sales += chunk['売上金額'].sum()
print(f"総売上: {total_sales}")
- ベクトル化操作の使用:
# for ループの代わりにベクトル化操作を使用
merged_df['売上税'] = merged_df['売上金額'] * 0.1
-
apply
の代わりに組み込み関数を使用:
# applyの代わりに組み込み関数を使用
merged_df['売上金額_log'] = np.log(merged_df['売上金額'])
- 複数の操作をまとめて実行:
# 複数の操作をまとめて実行
merged_df['売上金額_normalized'] = ((merged_df['売上金額'] - merged_df['売上金額'].min()) /
(merged_df['売上金額'].max() - merged_df['売上金額'].min()))
- インデックスの効果的な使用:
# 頻繁に使用する列をインデックスに設定
merged_df.set_index('日付', inplace=True)
- 不要なコピーの回避:
# コピーを作成せずにデータを変更
merged_df.loc[merged_df['売上金額'] < 0, '売上金額'] = 0
- 並列処理の活用:
import multiprocessing
from joblib import Parallel, delayed
def process_group(group):
return group['売上金額'].sum()
# 並列処理を使用してグループごとの集計を実行
num_cores = multiprocessing.cpu_count()
results = Parallel(n_jobs=num_cores)(delayed(process_group)(group) for name, group in merged_df.groupby('商品カテゴリ'))
print(results)
- プロファイリングとコード最適化:
import cProfile
def analyze_data():
# ここに分析コードを記述
pass
# コードのプロファイリングを実行
cProfile.run('analyze_data()')
- 適切なデータ構造の選択:
# 大量の一意の値を持つカテゴリデータにはカテゴリ型を使用
merged_df['ユニーク商品ID'] = merged_df['ユニーク商品ID'].astype('category')
# 日付データにはdatetime型を使用
merged_df['日付'] = pd.to_datetime(merged_df['日付'])
これらのベストプラクティスとパフォーマンス最適化テクニックを適用することで、Pandasを使用したデータ分析の効率と品質を向上させることができます。特に大規模なデータセットを扱う際には、これらの手法が重要になります。
次の章では、Pandasを使用した高度なデータ分析プロジェクトの例を紹介します。
第19章: 高度なデータ分析プロジェクト例
ここでは、これまでに学んだ技術を組み合わせて、より複雑で実践的なデータ分析プロジェクトの例を紹介します。このプロジェクトでは、架空の大規模小売チェーンの販売データを分析し、ビジネスインサイトを導き出します。
まず、必要なライブラリをインポートし、データを読み込みます:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
# データの読み込み(架空のデータファイル名)
df = pd.read_csv('retail_chain_data.csv')
print(df.head())
print(df.info())
- データの前処理と特徴量エンジニアリング:
# 日付列を日付型に変換
df['日付'] = pd.to_datetime(df['日付'])
# 年、月、曜日の特徴量を追加
df['年'] = df['日付'].dt.year
df['月'] = df['日付'].dt.month
df['曜日'] = df['日付'].dt.dayofweek
# 顧客ごとの総購入金額と購入回数を計算
customer_stats = df.groupby('顧客ID').agg({
'売上金額': 'sum',
'注文ID': 'count'
}).reset_index()
customer_stats.columns = ['顧客ID', '総購入金額', '購入回数']
# 元のデータフレームとマージ
df = pd.merge(df, customer_stats, on='顧客ID', how='left')
# 商品カテゴリをダミー変数に変換
df = pd.get_dummies(df, columns=['商品カテゴリ'], prefix='カテゴリ')
print(df.head())
- 時系列分析:
# 日次売上の推移
daily_sales = df.groupby('日付')['売上金額'].sum().reset_index()
plt.figure(figsize=(12, 6))
plt.plot(daily_sales['日付'], daily_sales['売上金額'])
plt.title('日次売上の推移')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
# 月次売上の推移
monthly_sales = df.groupby(df['日付'].dt.to_period('M'))['売上金額'].sum().reset_index()
monthly_sales['日付'] = monthly_sales['日付'].dt.to_timestamp()
plt.figure(figsize=(12, 6))
plt.plot(monthly_sales['日付'], monthly_sales['売上金額'])
plt.title('月次売上の推移')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
- 顧客セグメンテーション:
# KMeansクラスタリングのための特徴量を選択
features = ['総購入金額', '購入回数']
X = customer_stats[features]
# データの標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# KMeansクラスタリングの実行
kmeans = KMeans(n_clusters=3, random_state=42)
customer_stats['Cluster'] = kmeans.fit_predict(X_scaled)
# クラスタリング結果の可視化
plt.figure(figsize=(10, 8))
sns.scatterplot(data=customer_stats, x='総購入金額', y='購入回数', hue='Cluster', palette='viridis')
plt.title('顧客セグメンテーション')
plt.xlabel('総購入金額')
plt.ylabel('購入回数')
plt.tight_layout()
plt.show()
# クラスタごとの特性を分析
cluster_analysis = customer_stats.groupby('Cluster').agg({
'顧客ID': 'count',
'総購入金額': 'mean',
'購入回数': 'mean'
}).reset_index()
print(cluster_analysis)
- 商品カテゴリ分析:
# カテゴリ別の売上比率
category_sales = df.groupby('商品カテゴリ')['売上金額'].sum().sort_values(ascending=False)
plt.figure(figsize=(12, 6))
category_sales.plot(kind='pie', autopct='%1.1f%%')
plt.title('商品カテゴリ別売上比率')
plt.ylabel('')
plt.tight_layout()
plt.show()
# カテゴリ別の月次売上推移
category_monthly_sales = df.groupby([df['日付'].dt.to_period('M'), '商品カテゴリ'])['売上金額'].sum().unstack()
plt.figure(figsize=(12, 6))
category_monthly_sales.plot(kind='area', stacked=True)
plt.title('カテゴリ別月次売上推移')
plt.xlabel('日付')
plt.ylabel('売上金額')
plt.legend(title='商品カテゴリ', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()
- 相関分析:
# 数値データのみを選択
numeric_columns = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_columns].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, center=0)
plt.title('特徴量間の相関係数')
plt.tight_layout()
plt.show()
- 売上予測モデルの構築:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
# 特徴量と目的変数の準備
features = ['年', '月', '曜日', '総購入金額', '購入回数'] + [col for col in df.columns if col.startswith('カテゴリ_')]
X = df[features]
y = df['売上金額']
# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# モデルの構築と訓練
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
# 予測と評価
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"平均二乗誤差: {mse}")
print(f"決定係数 R^2: {r2}")
# 特徴量の重要度
feature_importance = pd.DataFrame({'feature': features, 'importance': model.feature_importances_})
feature_importance = feature_importance.sort_values('importance', ascending=False)
plt.figure(figsize=(10, 6))
sns.barplot(x='importance', y='feature', data=feature_importance.head(10))
plt.title('上位10の特徴量重要度')
plt.tight_layout()
plt.show()
このプロジェクト例では、データの前処理、時系列分析、顧客セグメンテーション、商品カテゴリ分析、相関分析、そして機械学習モデルの構築まで、幅広いデータ分析技術を適用しています。これらの分析結果を組み合わせることで、ビジネスに有用なインサイトを得ることができます。
次の章では、このプロジェクトの結果をまとめ、ビジネスへの提言を行います。
第20章: 分析結果のまとめとビジネスへの提言
これまでの分析結果を総合的に解釈し、ビジネスへの具体的な提言を行います。
-
売上トレンド分析:
- 観察: 月次売上には季節性があり、特定の月に売上のピークがある。
- 提言: 売上が低い月に向けて特別なプロモーションや商品ラインアップの強化を検討する。
-
顧客セグメンテーション:
- 観察: 顧客は主に3つのグループに分類される(高価値顧客、中価値顧客、低価値顧客)。
- 提言:
- 高価値顧客: ロイヤルティプログラムの強化、VIP特典の提供
- 中価値顧客: アップセルとクロスセルの機会を増やす
- 低価値顧客: 購入頻度を上げるためのキャンペーンを実施
-
商品カテゴリ分析:
- 観察: 特定のカテゴリが売上の大部分を占めている。
- 提言:
- 主力カテゴリ: さらなる強化と新商品の導入
- 低パフォーマンスカテゴリ: 商品ラインアップの見直しまたは販促強化
-
相関分析:
- 観察: 総購入金額と購入回数に強い相関がある。
- 提言: 顧客の購入頻度を上げるための施策(定期購入プログラム、リピート購入割引など)を実施
-
売上予測モデル:
- 観察: 年、月、曜日、顧客の購買履歴が売上予測に重要。
- 提言:
- 需要予測の精度向上による在庫管理の最適化
- 顧客の購買パターンに基づいたパーソナライズドマーケティングの実施
-
時系列分析:
- 観察: 週末に売上が増加する傾向がある。
- 提言: 週末向けの特別プロモーションや商品展開の強化
-
カテゴリ別月次売上推移:
- 観察: 一部のカテゴリは特定の季節に売上が集中している。
- 提言: 季節性の高いカテゴリに対して、オフシーズンの需要創出戦略を立案
-
全体的な提言:
- データ駆動型の意思決定プロセスの確立
- 顧客行動と売上パターンの継続的なモニタリングと分析
- 機械学習モデルの定期的な更新と改善
- クロスセルとアップセルの機会を特定するためのレコメンデーションシステムの導入
- 顧客生涯価値(CLV)の最大化を目指した長期的な顧客関係戦略の策定
これらの提言を実施することで、売上の増加、顧客満足度の向上、そして効率的な在庫管理が期待できます。また、データ分析を継続的に行い、施策の効果を測定し、必要に応じて戦略を調整していくことが重要です。
結論:
Pandasを使用したデータ分析は、ビジネスの意思決定プロセスに大きな価値をもたらします。適切なデータ処理、可視化、統計分析、そして機械学習モデルの適用により、データから有意義なインサイトを抽出し、それをビジネス戦略に反映させることができます。今回のプロジェクトで学んだ技術と方法論は、様々な業界や問題に応用可能であり、データサイエンティストとしてのスキルを向上させる上で非常に有用です。
今後も新しいデータ分析手法や技術の習得に努め、より高度で効果的な分析を行うことで、ビジネスの成功に貢献していくことが重要です。