この本書は2017年4月1日にTeradata Japanのブログに掲載された内容を、再掲載したものです。
掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。
著者 山本 泰史 (やまもと やすし)
顧客分析の手順
第5回: 変数の性質
顧客分析に利用するデータ、そしてそれを変換した変数を利用する段階で、その性質を理解した上で利用する必要があります。変数は大きく、その性質によって量的変数と質的変数に分かれます。量的変数が定量的な量、つまり数値で表現されるのに対して、質的変数はその違いで表現されます。
量的変数と質的変数
量的変数の代表的な例として、業界毎に以下のような例が挙げられます。
1.銀行業: 口座残高、貸出額、口座引落額、口座引落回数…
2.小売業: 買上金額、買上数量、買上回数…
3.通信業: 通話時間、通話回数、請求金額…
4.旅行業: 渡航距離、利用金額…
これ以外にも契約期間数、Webサイトの閲覧回数に代表される特定チャネルへの接触回数等が量的変数の代表例です。これに対して質的変数は、質的に異なることを意味している変数です。以下のような例が挙げられます。
1.性別、住所、持家区分、商品Aの購買有無、特定チャネルへの接触有無…
また、質的変数には順序を規定している場合もあります。アンケート調査の評点はこの代表的な例です。年齢層(年齢だと量的変数とも言えるかも…)、マーケティングでよく利用される RFM の 5段階スコア等は、元々の量的変数を複数のグループに集約し、カテゴリーコード(Recency番号 = 5 とか)に変換しているケースです。このような変換を施すことによって、量的変数から質的変数への変換がなされます。
このような例として、図7 に買上金額を変換した例を挙げています。顧客の買上金額が少ない順から並べているのが、量的変数そのままの分布です。これを例えば買上金額を分割基準に 4分割すると真ん中の分布へと変換され、「顧客から買上が有ったか、無かったか」でさらに集約すると、2値の変数へとさらに変換されます。
このような変換は、分析実施の目的に応じてなされるべきです。目的が「それぞれの顧客はどの程度購入しているのだろうか?」という疑問を解決するものであるならば、買上金額はそのまま利用されるべきです。より簡略化し、買上金額が「多い」、「少ない」、「中くらい」の 3顧客群に分けて把握したいのであれば、3つのカテゴリーに分割すべきです。また、例えば「特定商品の購入有無が、他の事象と関係するかどうかを把握したい」、もしくは「この商品を既に購入済みの顧客が、どれ位いるか理解したい」ということであれば、購入有無で理解するのが適切です。このように、変数作成時にはその性質を理解し、目的に応じた形式に変換して利用することが必要です。
単位についての理解
量的変数と質的変数の違いだけでなく、そのデータが帰属している単位についての理解も必要になります。代表的な単位として以下のものが挙げられます。
絶対量:
長さ、広さ、金額、数量等、量的変数はこのような単位を有しています。金額や数量、回数は代表的なものですが、それ以外にも通信業でれば通話時間、通信データ量やパケット量がこれに該当します。各顧客を単一の行で、各列でその顧客を特徴づけると考えた場合、絶対量は一般に合計量となります。
平均:
複数の合計量データを顧客が発生させている場合、その合計を発生回数で割り算した値です。その名の通り、平均的な発生時の発生量を理解しています。
最小値、最大値、最頻値:
たとえば買上金額を考えた場合、「この顧客は最低この程度の金額購入する」、「この顧客は最大この程度の金額を購入する」、「この顧客はいつもこの程度の金額購入する」といった理解をする際に用います。
割合、確率:
全体を 1 とした場合の構成比を理解します。このため、値は 0 から 1 で示され、0 に近いほどその事象は発生しづらく、1 に近いほど発生しやすいことを意味します。
リフト、指数:
平均値や基準値を分母に置き、その値を基準にした各顧客の乖離度合いを意味します。1 を基準にして 1未満であればその事象は当該顧客に発生し難く、1 の場合には平均と同等、1 より大きい場合には当該顧客に強く発生しやすいことを意味します。例えば顧客全体の婦人衣料へに対する平均的な買上金額構成比が 30%、顧客A の婦人衣料買上金額構成比が 60%、顧客B の買上金額構成比が 15%であれば、顧客A のリフト値は 2、顧客B のリフト値は 0.5 と示され、1 を基準とした距離が事象の発生し易さ/し難さを意味します。これは平均値を分母に置いた例ですが、基準値の代表的例として、成長率が挙げられます。成長率は前期の値を基準として、どの程度値が増大したか、減少したかを見ています。
有無を意味する 2値:
ある事象が発生したか否かを意味する、一般的には 0 と 1 で示される質的変数です。
順位的意味付けを有する質的変数:
前述したアンケート調査、RFMスコア等が当てはまります。
順位的意味付けのない質的変数:
住所や郵便番号が代表的な例です。また良く利用される例として、最頻利用チャネル、最多購入商品カテゴリー等、量的変数をこのような形式で質的変数化する場合があります。
以上、変数の性質に焦点をあて、多用されるパターンとその分類を概観しました。次回はこのようにして作成された変数を把握する方法について理解していきます。