この本書は2017年4月1日にTeradata Japanのブログに掲載された内容を、再掲載したものです。
掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。
著者 山本 泰史 (やまもと やすし)
顧客分析の手順
第6回: 1つの変数を把握する
前回までで、単一の表を用いて各顧客の様々な事実を把握する方法、その事実としての変数を流し込む方法、そしてその変数の性質について触れてきました。今回は出来上がった変数がどのような特徴を有しているかを把握するための方法についてご紹介していきます。
分布の理解
質的変数の分布は、図8 のように複数の値毎に顧客がどのように分散しているか、そしてそれぞれの値における発生頻度を理解します。これによって分布の全体像が把握できます。また、順序を規定している質的変数に関しては、アンケート結果のように元からその変数が質的変数であれば、最も頻度の高い発生値(最頻値)はどこか、最小値はどこか、最大値はどこかについても理解可能です。
量的変数を同様に捉える場合には、複数のグループに集約し、グループ毎の顧客数を縦の長さで表現することによって理解可能です。このような場合、その分布は図8 の形式で理解できます。元々量的変数は性質として連続した値で構成されているため、そのままの値を見る場合には値の大きい、もしくは小さい順に各顧客を並びかえ、以下の図9 のような形で表現されます。しかしながらこれは顧客数が膨大である場合には現実的な見方とは言えません。
しかしながら一方、最頻値、最小値、最大値、平均値といった代表値に関しては、元々のデータを利用して算出する必要があります。一旦集約してしまった値をもとにした場合、本来の値とずれる可能性があるためです。
量的変数のグループ集約
前述した量的変数のグループ集約をする場合には、いくつかのグルーピング基準を設定する必要があります。以下にその代表的な例を 4つご紹介します。
件数等分:
一般にデシル分割、クインタイル分割等の呼称で用いられているグルーピング基準がこれです。対象が顧客であれば、顧客数毎に N個のグループに分割します。その際、並び替えの基準として何らかの量的変数を用います。特徴として各グループの顧客数は基本的に同じ数となります。
実値等分:
量的変数の最大値から最小値を差し引き、その範囲を求めます。そして N個のグループに分割したい場合には、その範囲を N等分に分割します。各顧客はそれぞれが有している量的変数の値に応じて、各グループに所属します。特徴として、各グループに所属する顧客数はばらばらです。
実値等幅:
量的変数の最小値から最大値を範囲として、その範囲を任意の量的変数に順ずる値幅で等分します。例えば変数が買上金額、最小値が 0円、最大値が 1,000円として、150円幅で分割するといった形で指定します。そうすると結果としては 0円から 150円の顧客、151円から 300円の顧客...901円から 1,000円の顧客といった形式で分割、集約されます。
任意境界:
グループの上下境界を任意に指定します。ある意図を持って集約させたい場合にはこの手法を用います。
以下の図10 は、ある顧客毎の量的変数を前述した 4つの方法で分割、集約した結果です。
ここで、件数等分と実値等分は N個のグループに、実値等幅では範囲を N値きざみに、任意境界は 2つのグループに分解するための境界を規定しています。
このような手順を利用して、単一の変数が有している分布を理解し、分析の対象として適しているかどうかを見定め、実施する分析や顧客管理上の基礎理解とします。おそらく、想定される各変数それぞれに対してこのような基礎分析を済ませるだけでも、自社の顧客に関する知識は充分に底上げされるのではないかと考えます。