1. はじめに:データ分析の強力なツール、PandasとNumPy
営業の皆さん、こんにちは。今日はデータ分析に欠かせないPythonライブラリ、PandasとNumPyについてお話しします。これらのツールを使えば、売上データの分析や顧客情報の整理が驚くほど簡単になります。PandasはExcelのような表形式のデータを扱うのに適しており、NumPyは大量の数値計算を高速に行えます。この記事を通じて、あなたの営業活動がデータドリブンになり、より効果的になることでしょう。
2. Pandasの基本:DataFrameとは
Pandasの中心となるのがDataFrameです。これは、エクセルのシートのようなもので、行と列からなる2次元のデータ構造です。各列にはデータの種類(例:顧客名、購入金額、日付など)が入り、各行は1つのレコードを表します。以下のコードで、簡単なDataFrameを作成できます。
import pandas as pd
data = {
'顧客名': ['田中', '佐藤', '鈴木'],
'購入金額': [5000, 3000, 7000],
'日付': ['2023-01-01', '2023-01-02', '2023-01-03']
}
df = pd.DataFrame(data)
print(df)
このコードを実行すると、3人の顧客の購入データが表形式で表示されます。DataFrameを使えば、大量の顧客データを簡単に管理し、分析することができます。
3. データの読み込み:CSVファイルからDataFrameを作成
実際の営業現場では、データはCSVファイルなどで提供されることが多いでしょう。Pandasを使えば、そのようなファイルを簡単にDataFrameに読み込むことができます。以下のコードは、sales_data.csvという名前のCSVファイルを読み込む例です。
sale_data.csv
の中身はこちらになります。
日付,顧客ID,商品名,数量,単価,売上,地域
2023-01-01,C001,製品A,2,5000,10000,東京
2023-01-02,C002,製品B,1,8000,8000,大阪
2023-01-02,C003,製品A,3,5000,15000,名古屋
2023-01-03,C004,製品C,5,3000,15000,福岡
2023-01-03,C001,製品B,2,8000,16000,東京
2023-01-04,C005,製品A,1,5000,5000,札幌
2023-01-04,C002,製品C,3,3000,9000,大阪
2023-01-05,C006,製品B,4,8000,32000,東京
2023-01-05,C003,製品C,2,3000,6000,名古屋
2023-01-06,C007,製品A,3,5000,15000,福岡
2023-01-06,C004,製品B,1,8000,8000,福岡
2023-01-07,C008,製品C,4,3000,12000,札幌
2023-01-07,C001,製品A,2,5000,10000,東京
2023-01-08,C009,製品B,3,8000,24000,大阪
2023-01-08,C005,製品C,1,3000,3000,札幌
上記のデータをsales_data.csv
として保存します。
import pandas as pd
# CSVファイルを読み込む
df = pd.read_csv('sales_data.csv')
# 最初の5行を表示
print(df.head())
# データの基本情報を表示
print(df.info())
このコードを実行すると、CSVファイルの内容がDataFrameとして読み込まれ、最初の5行が表示されます。また、info()メソッドを使うと、各列のデータ型や欠損値の有無など、重要な情報を一目で確認できます。これにより、大量の売上データを瞬時に概観することができ、データの品質チェックにも役立ちます。
4. データの選択:必要な情報を抽出する
DataFrameから必要な情報だけを取り出すことは、日々の業務で頻繁に行う作業です。例えば、特定の商品の売上だけを見たい場合や、高額購入をした顧客のリストを作成したい場合などです。Pandasは、このような操作を簡単に行うための多くの機能を提供しています。
import pandas as pd
# サンプルデータの作成
data = {
'顧客名': ['田中', '佐藤', '鈴木', '高橋', '伊藤'],
'商品': ['A', 'B', 'A', 'C', 'B'],
'購入金額': [5000, 3000, 7000, 10000, 2000]
}
df = pd.DataFrame(data)
# 商品Aの購入者を抽出
product_a_buyers = df[df['商品'] == 'A']
print("商品Aの購入者:")
print(product_a_buyers)
# 5000円以上の購入をした顧客を抽出
high_value_customers = df[df['購入金額'] >= 5000]
print("\n5000円以上の購入をした顧客:")
print(high_value_customers)
このコードでは、条件に基づいてデータを選択する方法を示しています。例えば、特定の商品の購入者や、一定金額以上の購入をした顧客を簡単に抽出できます。これらの操作を使いこなすことで、ターゲットを絞った営業活動や、効果的な顧客分析が可能になります。
5. データの集計:売上の合計や平均を計算する
データ分析において、合計や平均などの基本的な統計量を計算することは非常に重要です。Pandasを使えば、これらの計算を簡単に行うことができます。以下のコードは、商品ごとの売上合計と平均購入金額を計算する例です。
import pandas as pd
# サンプルデータの作成
data = {
'顧客名': ['田中', '佐藤', '鈴木', '高橋', '伊藤', '渡辺'],
'商品': ['A', 'B', 'A', 'C', 'B', 'A'],
'購入金額': [5000, 3000, 7000, 10000, 2000, 6000]
}
df = pd.DataFrame(data)
# 商品ごとの売上合計
sales_by_product = df.groupby('商品')['購入金額'].sum()
print("商品ごとの売上合計:")
print(sales_by_product)
# 商品ごとの平均購入金額
avg_purchase_by_product = df.groupby('商品')['購入金額'].mean()
print("\n商品ごとの平均購入金額:")
print(avg_purchase_by_product)
# 全体の統計情報
overall_stats = df['購入金額'].describe()
print("\n全体の統計情報:")
print(overall_stats)
このコードでは、groupbyメソッドを使って商品ごとにデータをグループ化し、sum()やmean()メソッドで合計や平均を計算しています。また、describe()メソッドを使うと、最小値、最大値、中央値など、様々な統計情報を一度に得ることができます。これらの情報は、商品ごとの売れ行きの比較や、全体的な販売傾向の把握に役立ちます。
6. データの可視化:グラフで売上傾向を表現する
数字の羅列だけでは、データの傾向を掴むのが難しい場合があります。そんな時は、データを視覚化することで、直感的に理解しやすくなります。Pandasは、Matplotlibというライブラリと連携して、簡単にグラフを作成することができます。
import pandas as pd
import matplotlib.pyplot as plt
# サンプルデータの作成(日付ごとの売上)
data = {
'日付': pd.date_range(start='2023-01-01', periods=10),
'売上': [10000, 15000, 13000, 17000, 20000, 18000, 22000, 25000, 23000, 28000]
}
df = pd.DataFrame(data)
# 折れ線グラフの作成
plt.figure(figsize=(10, 6))
plt.plot(df['日付'], df['売上'], marker='o')
plt.title('日別売上推移')
plt.xlabel('日付')
plt.ylabel('売上(円)')
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
# 棒グラフの作成(週別の合計売上)
df['週'] = df['日付'].dt.to_period('W')
weekly_sales = df.groupby('週')['売上'].sum()
plt.figure(figsize=(10, 6))
weekly_sales.plot(kind='bar')
plt.title('週別売上合計')
plt.xlabel('週')
plt.ylabel('売上合計(円)')
plt.grid(True)
plt.tight_layout()
plt.show()
このコードでは、日別の売上推移を折れ線グラフで、週別の売上合計を棒グラフで表現しています。グラフを使うことで、売上の増減傾向や週ごとの変化が一目で分かります。これらのビジュアルは、上司への報告や顧客へのプレゼンテーションで非常に効果的です。
7. NumPyの基本:配列操作と数値計算
NumPyは、大規模な数値計算を高速に行うためのライブラリです。Pandasの裏側で動いており、データ分析の基礎となっています。NumPyの中心となるのは多次元配列(ndarray)です。これを使うと、大量のデータに対して効率的に演算を行うことができます。
import numpy as np
# 1次元配列の作成
arr1 = np.array([1, 2, 3, 4, 5])
print("1次元配列:", arr1)
# 2次元配列の作成
arr2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\n2次元配列:\n", arr2)
# 配列の形状を確認
print("\n配列の形状:", arr2.shape)
# 配列の要素ごとの演算
print("\n全要素に2を掛ける:", arr1 * 2)
# 統計計算
print("\n平均値:", np.mean(arr1))
print("標準偏差:", np.std(arr1))
# 乱数の生成(正規分布)
random_numbers = np.random.normal(loc=0, scale=1, size=1000)
print("\n正規分布の乱数(最初の5個):", random_numbers[:5])
このコードでは、NumPyを使って配列を作成し、基本的な操作や計算を行っています。NumPyの強みは、大量のデータに対して高速に演算を行えることです。例えば、売上データの統計分析や、予測モデルの計算などに活用できます。また、乱数生成機能は、シミュレーションや予測モデルの構築に役立ちます。
8. 時系列データの扱い:日付操作と分析
営業活動では、時系列データを扱うことが多いでしょう。例えば、日々の売上推移や、月次の顧客獲得数などです。Pandasは時系列データを扱うための強力な機能を提供しています。
import pandas as pd
import matplotlib.pyplot as plt
# 日付範囲の作成
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
# ランダムな売上データの生成
sales_data = pd.Series(np.random.randint(1000, 5000, len(date_range)), index=date_range)
# データフレームの作成
df = pd.DataFrame({'売上': sales_data})
# 月別の集計
monthly_sales = df.resample('M').sum()
print("月別売上:")
print(monthly_sales.head())
# 7日間の移動平均の計算
df['7日間移動平均'] = df['売上'].rolling(window=7).mean()
# グラフの描画
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['売上'], label='日次売上')
plt.plot(df.index, df['7日間移動平均'], label='7日間移動平均', color='red')
plt.title('日次売上と7日間移動平均')
plt.xlabel('日付')
plt.ylabel('売上(円)')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
# 曜日別の平均売上
df['曜日'] = df.index.day_name()
weekday_avg = df.groupby('曜日')['売上'].mean().reindex(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
print("\n曜日別平均売上:")
print(weekday_avg)
このコードでは、1年分の日次売上データを生成し、それを様々な方法で分析しています。月別の集計、移動平均の計算、曜日別の平均売上など、時系列データならではの分析方法を示しています。これらの分析を通じて、売上の季節変動や曜日による変動などを把握することができます。グラフ化することで、長期的なトレンドも視覚的に理解しやすくなります。
9. データのクリーニング:欠損値と異常値の処理
実際のデータは、常にきれいな状態で提供されるわけではありません。欠損値(データが抜けている部分)や異常値(明らかに誤っているデータ)が含まれていることがよくあります。これらを適切に処理することは、正確な分析を行う上で非常に重要です。
import pandas as pd
import numpy as np
# サンプルデータの作成(欠損値と異常値を含む)
data = {
'日付': pd.date_range(start='2023-01-01', periods=10),
'売上': [1000, 1500, np.nan, 2000, 1800, 1600, 100000, 1900, np.nan, 2100]
}
df = pd.DataFrame(data)
print("元のデータ:")
print(df)
# 欠損値の確認
print("\n欠損値の数:")
print(df.isnull().sum())
# 欠損値の補完(前後の値の平均で埋める)
df['売上'] = df['売上'].fillna(df['売上'].interpolate())
# 異常値の検出と処理(平均から3標準偏差以上離れている値を異常とみなす)
mean = df['売上'].mean()
std = df['売上'].std()
df['売上'] = df['売上'].clip(lower=mean - 3*std, upper=mean + 3*std)
print("\nクリーニング後のデータ:")
print(df)
# 基本統計量の確認
print("\n基本統計量:")
print(df['売上'].describe())
# 箱ひげ図でデータの分布を可視化
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 6))
df.boxplot(column=['売上'])
plt.title('売上データの分布')
plt.ylabel('売上(円)')
plt.show()
このコードでは、欠損値と異常値を含むサンプルデータを作成し、それらを適切に処理する方法を示しています。欠損値は前後の値の平均で補完し、異常値は平均から3標準偏差以上離れている値をクリッピング(上限・下限の設定)することで処理しています。
データクリーニングの重要性は、誤ったデータに基づいて意思決定を行うリスクを減らすことにあります。例えば、異常に高い売上データが含まれていると、実際よりも業績が良く見えてしまい、誤った戦略立案につながる可能性があります。適切にデータをクリーニングすることで、より信頼性の高い分析結果を得ることができます。
10. データの結合:複数のデータセットを組み合わせる
実際の業務では、複数のデータソースから情報を統合して分析することがよくあります。例えば、売上データと顧客データを組み合わせて、より詳細な分析を行うケースなどです。Pandasは、このようなデータの結合を簡単に行うための機能を提供しています。
import pandas as pd
# 売上データの作成
sales_data = pd.DataFrame({
'顧客ID': [1, 2, 3, 4, 5],
'売上': [10000, 15000, 12000, 8000, 20000]
})
# 顧客データの作成
customer_data = pd.DataFrame({
'顧客ID': [1, 2, 3, 4, 5, 6],
'顧客名': ['田中', '佐藤', '鈴木', '高橋', '伊藤', '渡辺'],
'年齢': [35, 42, 28, 50, 33, 45]
})
print("売上データ:")
print(sales_data)
print("\n顧客データ:")
print(customer_data)
# データの結合(内部結合)
merged_data = pd.merge(sales_data, customer_data, on='顧客ID', how='inner')
print("\n結合後のデータ:")
print(merged_data)
# 年齢層別の平均売上を計算
merged_data['年齢層'] = pd.cut(merged_data['年齢'], bins=[0, 30, 40, 50, 100], labels=['30歳未満', '30代', '40代', '50歳以上'])
age_group_sales = merged_data.groupby('年齢層')['売上'].mean().sort_values(ascending=False)
print("\n年齢層別平均売上:")
print(age_group_sales)
# 年齢層別平均売上のグラフ化
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 6))
age_group_sales.plot(kind='bar')
plt.title('年齢層別平均売上')
plt.xlabel('年齢層')
plt.ylabel('平均売上(円)')
plt.tight_layout()
plt.show()
このコードでは、売上データと顧客データを顧客IDをキーにして結合しています。結合後のデータを使って、年齢層別の平均売上を計算し、グラフ化しています。
データの結合は、より深い洞察を得るために非常に重要です。例えば、この分析結果から、どの年齢層が最も売上に貢献しているかが分かり、マーケティング戦略の立案に役立てることができます。また、結合したデータを使うことで、顧客ごとの購買履歴の分析や、顧客セグメンテーションなど、より高度な分析も可能になります。
11. データのピボット:多次元データの再構成
ピボットテーブルは、大量のデータを要約し、新しい視点で分析するための強力なツールです。Pandasのpivot_table
関数を使用すると、エクセルのピボットテーブルのような操作を簡単に行うことができます。
import pandas as pd
import numpy as np
# サンプルデータの作成
np.random.seed(0)
dates = pd.date_range('2023-01-01', periods=100)
products = ['A', 'B', 'C', 'D']
regions = ['東京', '大阪', '名古屋', '福岡']
data = pd.DataFrame({
'日付': np.random.choice(dates, 1000),
'商品': np.random.choice(products, 1000),
'地域': np.random.choice(regions, 1000),
'売上': np.random.randint(1000, 10000, 1000)
})
print("元のデータ(最初の5行):")
print(data.head())
# ピボットテーブルの作成
pivot = pd.pivot_table(data,
values='売上',
index=['地域'],
columns=['商品'],
aggfunc='sum',
fill_value=0)
print("\n地域・商品別の売上集計:")
print(pivot)
# 月別・商品別の売上推移
data['月'] = data['日付'].dt.to_period('M')
monthly_pivot = pd.pivot_table(data,
values='売上',
index=['月'],
columns=['商品'],
aggfunc='sum',
fill_value=0)
print("\n月別・商品別の売上推移:")
print(monthly_pivot)
# グラフ化
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 6))
monthly_pivot.plot(kind='bar', stacked=True)
plt.title('月別・商品別の売上推移')
plt.xlabel('月')
plt.ylabel('売上(円)')
plt.legend(title='商品', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()
このコードでは、日付、商品、地域、売上の情報を含む大量のデータを生成し、それをピボットテーブルを使って様々な角度から分析しています。
まず、地域と商品でクロス集計を行い、各地域における商品ごとの売上合計を算出しています。これにより、どの地域でどの商品が強いのかを一目で把握することができます。
次に、月別・商品別の売上推移を計算し、積み上げ棒グラフで可視化しています。これにより、時間の経過とともに各商品の売上がどのように変化しているかを視覚的に理解することができます。
ピボットテーブルは、多次元のデータを柔軟に再構成できるため、データの傾向や패턴を発見するのに非常に有用です。例えば、特定の商品の売上が急激に伸びている月を特定したり、地域ごとの商品の人気度の違いを分析したりすることが可能です。これらの洞察は、在庫管理や販売戦略の立案に直接活用することができます。
12. データの正規化と標準化:スケールの異なるデータの比較
データ分析では、異なるスケールのデータを比較することがよくあります。例えば、売上金額と顧客数を同時に分析する場合、そのままでは大きさの違いから適切な比較が難しくなります。このような場合、データの正規化や標準化が有効です。
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import matplotlib.pyplot as plt
# サンプルデータの作成
np.random.seed(0)
data = pd.DataFrame({
'売上': np.random.randint(10000, 100000, 100),
'顧客数': np.random.randint(10, 1000, 100),
'広告費': np.random.randint(1000, 10000, 100)
})
print("元のデータ(最初の5行):")
print(data.head())
# 正規化(Min-Max Scaling)
scaler = MinMaxScaler()
normalized_data = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)
print("\n正規化後のデータ(最初の5行):")
print(normalized_data.head())
# 標準化(Z-Score Normalization)
scaler = StandardScaler()
standardized_data = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)
print("\n標準化後のデータ(最初の5行):")
print(standardized_data.head())
# 可視化
fig, (ax1, ax2, ax3) = plt.subplots(3, 1, figsize=(10, 15))
# 元のデータ
data.plot(ax=ax1)
ax1.set_title('元のデータ')
ax1.legend(loc='center left', bbox_to_anchor=(1, 0.5))
# 正規化後のデータ
normalized_data.plot(ax=ax2)
ax2.set_title('正規化後のデータ')
ax2.legend(loc='center left', bbox_to_anchor=(1, 0.5))
# 標準化後のデータ
standardized_data.plot(ax=ax3)
ax3.set_title('標準化後のデータ')
ax3.legend(loc='center left', bbox_to_anchor=(1, 0.5))
plt.tight_layout()
plt.show()
# 相関分析
print("\n正規化前の相関係数:")
print(data.corr())
print("\n正規化後の相関係数:")
print(normalized_data.corr())
このコードでは、売上、顧客数、広告費という異なるスケールのデータを含むサンプルデータセットを作成し、それを正規化と標準化の両方の方法で変換しています。
正規化(Min-Max Scaling)は、データを0から1の範囲に収めます。これにより、元のデータの相対的な関係を保ちながら、すべての変数を同じスケールで比較することができます。
標準化(Z-Score Normalization)は、データの平均を0、標準偏差を1に変換します。これにより、異常値の影響を減らし、正規分布に近い形でデータを表現することができます。
グラフを見ると、元のデータでは売上の値が他の変数に比べて非常に大きいため、顧客数や広告費の変動がほとんど見えません。しかし、正規化や標準化を行うことで、すべての変数の変動を同じスケールで観察することができます。
また、相関分析の結果を見ると、データの変換前後で相関係数は変わらないことがわかります。これは、正規化や標準化がデータ間の関係性を保持したまま、スケールのみを調整していることを示しています。
このような技術は、機械学習モデルの構築や、複数の指標を組み合わせた総合的な評価を行う際に特に重要です。例えば、売上、顧客満足度、従業員の生産性など、異なる尺度の指標を組み合わせて店舗の総合評価を行う場合などに活用できます。
13. 時系列データの予測:トレンド分析と将来予測
営業活動において、将来の売上を予測することは非常に重要です。Pythonには、時系列データの分析と予測を行うための強力なライブラリがあります。ここでは、StatsmodelsライブラリのSARIMAXモデルを使用して、簡単な売上予測を行ってみましょう。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.seasonal import seasonal_decompose
# サンプルデータの作成(日次売上、2年分)
np.random.seed(0)
date_rng = pd.date_range(start='2022-01-01', end='2023-12-31', freq='D')
sales = np.random.normal(loc=1000, scale=200, size=len(date_rng))
sales = sales + np.sin(np.arange(len(date_rng)) * 2 * np.pi / 365) * 300 # 季節性を追加
sales = np.maximum(sales, 0) # 負の値を0に置換
df = pd.DataFrame(data={'売上': sales}, index=date_rng)
# データの可視化
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['売上'])
plt.title('日次売上データ')
plt.xlabel('日付')
plt.ylabel('売上(円)')
plt.grid(True)
plt.show()
# 時系列データの分解
decomposition = seasonal_decompose(df['売上'], model='additive', period=365)
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(12, 16))
decomposition.observed.plot(ax=ax1)
ax1.set_title('観測データ')
decomposition.trend.plot(ax=ax2)
ax2.set_title('トレンド')
decomposition.seasonal.plot(ax=ax3)
ax3.set_title('季節性')
decomposition.resid.plot(ax=ax4)
ax4.set_title('残差')
plt.tight_layout()
plt.show()
# SARIMAXモデルの構築と予測
model = SARIMAX(df['売上'], order=(1, 1, 1), seasonal_order=(1, 1, 1, 12))
results = model.fit()
# 次の30日間の予測
forecast = results.get_forecast(steps=30)
forecast_ci = forecast.conf_int()
# 予測結果の可視化
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['売上'], label='過去の売上')
plt.plot(forecast.predicted_mean.index, forecast.predicted_mean, color='red', label='予測売上')
plt.fill_between(forecast_ci.index,
forecast_ci.iloc[:, 0],
forecast_ci.iloc[:, 1], color='pink', alpha=0.3)
plt.title('売上予測(次の30日間)')
plt.xlabel('日付')
plt.ylabel('売上(円)')
plt.legend()
plt.grid(True)
plt.show()
print("予測売上(次の5日間):")
print(forecast.predicted_mean.head())
このコードでは、2年分の日次売上データを生成し、それを使って将来の売上を予測しています。主な手順は以下の通りです:
-
サンプルデータの生成:ランダムな変動に季節性を加えた日次売上データを作成します。
-
データの可視化:生成したデータをグラフ化して、全体的な傾向を確認します。
-
時系列データの分解:seasonal_decompose関数を使用して、データをトレンド、季節性、残差に分解します。これにより、データの構造をより深く理解することができます。
-
SARIMAXモデルの構築:statsmodelsライブラリのSARIMAXモデルを使用して、時系列データをモデル化します。SARIMAXは、季節性のある時系列データの予測に適したモデルです。
-
将来予測:構築したモデルを使用して、次の30日間の売上を予測します。
-
予測結果の可視化:過去のデータと予測結果を同じグラフ上にプロットし、予測の信頼区間も表示します。
この分析により、以下のような洞察が得られます:
-
データの季節性:年間を通じて繰り返されるパターンを確認できます。これは、季節ごとの需要の変動を理解するのに役立ちます。
-
トレンド:長期的な売上の増加や減少傾向を把握できます。
-
将来予測:短期的な売上予測が可能になります。これは、在庫管理や人員配置の計画立案に活用できます。
-
不確実性の評価:予測の信頼区間を見ることで、予測の不確実性を視覚的に理解できます。
このような時系列分析と予測は、営業戦略の立案や経営判断の支援に非常に有用です。例えば、季節性の強い時期に向けて在庫を増やしたり、売上が落ち込む時期に向けてプロモーションを計画したりするなど、データに基づいた戦略的な意思決定が可能になります。
14. 顧客セグメンテーション:K-means法の簡易実装
顧客セグメンテーションは重要なマーケティング手法です。ここでは、Pandas、NumPy、Matplotlibを使用して、K-means法の簡易版を実装し、顧客のセグメンテーションを行います。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# サンプルデータの作成
np.random.seed(0)
n_customers = 1000
data = pd.DataFrame({
'年間購入額': np.random.lognormal(mean=10, sigma=1, size=n_customers),
'購入頻度': np.random.poisson(lam=5, size=n_customers),
'最終購入からの経過日数': np.random.randint(1, 365, size=n_customers)
})
print("元のデータ(最初の5行):")
print(data.head())
# データの標準化
data_scaled = (data - data.mean()) / data.std()
# K-means法の簡易実装
def simple_kmeans(X, n_clusters, max_iter=100):
# 初期クラスタ中心をランダムに選択
centroids = X.sample(n_clusters).values
for _ in range(max_iter):
# 各点を最も近いクラスタに割り当て
distances = np.sqrt(((X.values[:, np.newaxis, :] - centroids) ** 2).sum(axis=2))
labels = distances.argmin(axis=1)
# クラスタ中心を更新
new_centroids = np.array([X[labels == k].mean().values for k in range(n_clusters)])
# 収束チェック
if np.all(centroids == new_centroids):
break
centroids = new_centroids
return labels, centroids
# クラスタリングの実行
labels, centroids = simple_kmeans(data_scaled, n_clusters=4)
data['Cluster'] = labels
# 結果の可視化
plt.figure(figsize=(12, 8))
scatter = plt.scatter(data['年間購入額'], data['購入頻度'],
c=data['Cluster'], cmap='viridis',
s=50, alpha=0.6)
plt.colorbar(scatter)
plt.xlabel('年間購入額')
plt.ylabel('購入頻度')
plt.title('顧客セグメンテーション結果')
plt.show()
# 各クラスタの特徴
cluster_means = data.groupby('Cluster').mean()
print("\n各クラスタの平均値:")
print(cluster_means)
# クラスタごとの顧客数
cluster_counts = data['Cluster'].value_counts().sort_index()
print("\n各クラスタの顧客数:")
print(cluster_counts)
# クラスタごとの特徴を棒グラフで表示
cluster_means_normalized = cluster_means / cluster_means.max()
cluster_means_normalized.plot(kind='bar', figsize=(12, 6))
plt.title('クラスタごとの特徴(正規化済み)')
plt.xlabel('クラスタ')
plt.ylabel('正規化された値')
plt.legend(title='特徴', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()
このコードでは、scikit-learnを使用せずに、K-means法の簡易版を自前で実装しています。主な変更点と特徴は以下の通りです:
-
K-means法の簡易実装:
simple_kmeans
関数を定義し、基本的なK-meansアルゴリズムを実装しています。 -
データの標準化:scikit-learnの
StandardScaler
の代わりに、Pandasの機能を使って手動で標準化を行っています。 -
クラスタリングの実行:実装した
simple_kmeans
関数を使用してクラスタリングを行います。 -
結果の可視化:Matplotlibを使用して、クラスタリング結果を散布図で表示します。
-
クラスタの特徴分析:Pandasの機能を使って、各クラスタの平均値や顧客数を計算し、表示します。
この実装により、外部ライブラリに頼らずに基本的な顧客セグメンテーションを行うことができます。ただし、この簡易実装は大規模なデータセットや複雑な状況には適していない可能性があるため、実際の業務では専用のライブラリの使用を検討することをお勧めします。
15. データ分析結果の共有:基本的なダッシュボードの作成
ここでは、Pandas、NumPy、Matplotlibのみを使用して、基本的なダッシュボードを作成します。インタラクティブ性は限られますが、重要な情報を視覚的に表現することができます。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# サンプルデータの作成
np.random.seed(0)
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
products = ['Product A', 'Product B', 'Product C']
regions = ['East', 'West', 'North', 'South']
data = pd.DataFrame({
'Date': np.repeat(date_range, len(products) * len(regions)),
'Product': np.tile(np.repeat(products, len(regions)), len(date_range)),
'Region': np.tile(regions, len(date_range) * len(products)),
'Sales': np.random.randint(1000, 10000, len(date_range) * len(products) * len(regions))
})
# ダッシュボードの作成
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(20, 16))
fig.suptitle('Sales Dashboard', fontsize=16)
# 月次売上トレンド
monthly_sales = data.groupby(data['Date'].dt.to_period('M'))['Sales'].sum().reset_index()
monthly_sales['Date'] = monthly_sales['Date'].dt.to_timestamp()
ax1.plot(monthly_sales['Date'], monthly_sales['Sales'], marker='o')
ax1.set_title('Monthly Sales Trend')
ax1.set_xlabel('Date')
ax1.set_ylabel('Sales')
ax1.tick_params(axis='x', rotation=45)
# 商品別売上
product_sales = data.groupby('Product')['Sales'].sum()
ax2.pie(product_sales.values, labels=product_sales.index, autopct='%1.1f%%')
ax2.set_title('Sales by Product')
# 地域別売上
region_sales = data.groupby('Region')['Sales'].sum().sort_values(ascending=True)
ax3.barh(region_sales.index, region_sales.values)
ax3.set_title('Sales by Region')
ax3.set_xlabel('Sales')
ax3.set_ylabel('Region')
# 売上トップ10の日
top_10_days = data.groupby('Date')['Sales'].sum().sort_values(ascending=False).head(10)
ax4.table(cellText=np.array([top_10_days.index.strftime('%Y-%m-%d'), top_10_days.values]).T,
colLabels=['Date', 'Sales'],
cellLoc='center', loc='center')
ax4.set_title('Top 10 Sales Days')
ax4.axis('off')
plt.tight_layout()
plt.savefig('sales_dashboard.png', dpi=300, bbox_inches='tight')
plt.show()
print("ダッシュボードをsales_dashboard.pngとして保存しました。")
このコードでは、以下の要素を含む基本的なダッシュボードを作成しています:
-
月次売上トレンド:折れ線グラフで全体的な売上の推移を表示します。
-
商品別売上:円グラフで各商品の売上シェアを視覚化します。
-
地域別売上:横棒グラフで地域ごとの売上を比較します。
-
売上トップ10の日:テーブル形式で売上が最も高かった日を表示します。
この基本的なダッシュボードの特徴と制限事項:
-
静的な表示:Plotlyを使用した前のバージョンとは異なり、このダッシュボードは静的な画像として生成されます。インタラクティブな操作はできません。
-
一覧性:1つの画像ファイルに全ての情報がまとめられているため、全体を一目で把握しやすくなっています。
-
更新の手間:データが更新されるたびに、スクリプトを再実行してダッシュボードを再生成する必要があります。
-
共有方法:画像ファイルとして保存されるため、メールやドキュメント内に簡単に挿入できます。ただし、詳細なデータの確認はできません。
このような基本的なダッシュボードでも、データの全体像を把握し、重要なポイントを可視化することができます。定期的にこのスクリプトを実行して最新の状況を確認することで、データドリブンな意思決定を支援することができるでしょう。
ただし、よりインタラクティブで動的なダッシュボードが必要な場合は、将来的にPlotlyやDashなどの専門的なライブラリの導入を検討することをお勧めします。これにより、よりリッチで柔軟な分析環境を構築することができます。