本書は2017年4月1日にTeradata Japanのブログに掲載された内容を、再掲載したものです。
掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。
著者 山本 泰史 (やまもと やすし)
復路がデータマイニングを強くする - まとめに代えて
データマイニングにおける最後のプロセスをご紹介して、まとめに代えたいと思います。ここまでで、データの準備から分析手法までの流れを紹介してきました。言わばこれは往路であり、表通りです。でもデータマイニングを継続的かつ反復的なプロセスと捉えられなければ企業が知識を蓄積し、それを活用することが出来ません。そしてそのためには復路、裏通りの歩み方を検討する必要があります。
■何のためのデータマイニングか?
何よりも最初に、データマイニングで得られた知識であるモデルを日常業務や、よりハイレベルな戦略に適用しなければ意味がありません。モデルを用いてスコアリングを行い、それぞれの顧客や、それを代替表現するデータオブジェクト(口座、世帯、店舗等のチャネル、商品…)がどのように評価されているかを理解します。当然ながらデータは日々動き、その背景として顧客の行動や市場の動向は変化し続けているため、スコアリングのプロセスも経常的なプロセスへと組み込まれなければなりません。得られた分類や予測に基づいて行われる行動は、その企業の資源配分を変える事になります。モデリング/スコアリングの結果重要と認識されたセグメントがどのような行動傾向にあるのか、どの程度のパフォーマンスを持っているのか、そしてどのような嗜好性を持っているのかを理解し、チャネル配分や商品開発に活用されることになります。そしてこのようなセグメントに対する継続的な注視がビジネス機会を発見し、キャンペーンのアイデアを捻り出すことになります。このようなアイデアと合わせて、プランニングしたキャンペーンへの予測スコアを利用し、顧客に対するキャンペーンが練り上げられることになります。このような行動によってはじめて知識の析出とそのための努力は報われることになります。言い換えれば、このような「行動」に昇華出来ないのであれば、データマイニングもデータも意味を為さないのです。データマイニングと言えばその分析手法が派手な部分としてクローズアップされます。もちろんそのプロセスは重要なのですが、何のためにそのような分析が行われるかを見失ってはなりません。
■スコアの精度
予測結果を元にキャンペーンを実施すれば、そのスコアが持つ精度が分かります。仮に確率80%(=スコア0.8)の顧客群に対してキャンペーン案内を実施した場合、80%の反応率を得られるでしょうか。ご想像の通り、そんな虫の良い話はおそらく80%以上の確率で起こりません。数字として目に見える効果があれば最初は御の字であり、今まで実施してきたキャンペーンの反応率が、何%スパイクするかを期待する方が現実的です。重要な点は、それぞれのキャンペーンは異なる環境下で実施され、一方でモデリングの基礎となったデータは過去の異なるキャンペーンや、異なる取引から得られたデータであるという点です。例えばある商品の購買予測を例にとれば、そこに用いられる従属変数は、既に購入した顧客の購買データです。その顧客が何らかの理由で購買を行い、その購買に至るデータ(性別や年齢のようなその個人が保持しているデモグラフィックデータ、他商品の購入や、支出動向のようなビヘイビアルデータ)の動きが共通していたからモデルが構築されたのです。しかしながらデータに表れない様々な理由や背景からもヒトはその商品を購入し、また別なヒトは見向きもしません。そして同じことは導かれたモデル/スコアを元に実施されたキャンペーンにおいても同様に起こり得るのです。従って、良いスコアを得られた顧客の全てが購入するなんてことは有り得るはずもなく、ましてやそのような顧客に対して押し付けがましいメッセージを重ねて送りつけることは、かえってその顧客から反感を買うことになってしまいます。自分自身に立ち返れば当たり前のことですが、ヒトは同じことを何度も繰り返されることを嫌がるものであり、また自分の心情や胸の内を相手に断定的に決め付けられることを嫌がります。スコアを保証しているのは過去のデータであり、スコアリングされた顧客ではないのです。
■試行錯誤がデータを作り出す
だからといって分析手法を先鋭化させ、モデルの開発に充分な時間を費やして精度向上を図っても、精度向上の限界は訪れます。また精度向上度合いは鈍くなり、一方でそのためのモデル開発努力や手間はより多くなることでしょう。そして何よりも重要なことは、作成したモデルを実際の商売に適用するまでの時間的ロスが多大になるという事態に陥ることです。
基本に立ち返りましょう。モデルを作り出すのはデータです。あるキャンペーンに反応する顧客を予測するのに最も精度の高いモデルを構築するためには、それを説明してくれるデータを用意することです。予測精度がある程度のレベルまで達したら、それを元にキャンペーンを実行し、顧客がどのように反応するかを学び、そのデータをデータウェアハウスに逐次蓄積し、さらにはそれを用いてモデルを改善することです。度重なるキャンペーンや顧客への働きかけ、つまりは試行錯誤が、反応する顧客と反応しない顧客の違いを理解するための重要な道標となります。上述したような顧客の反感を避けながらも、顧客が好ましく感じるキャンペーン構成要素が何なのかを理解できれば、その知識は少なくとも部分的に他のキャンペーンに活用できるはずです。試行錯誤の回数だけ企業は学ぶことができ、知識を得ることになります。そしてそれが、次のキャンペーンを顧客にとってより好ましいものにするのです。そしてその方が、分析手法におけるパラメーターや手法選択等において様々な選択肢を試すよりも、ダイナミックにモデルを改善してくれるはずです。
■「成功体験」の魔力から抜け出す
人間は有史以来、経験の中で何らかのモデルを創りあげ、物事に対処する方法を身に付けてきました。火を点ける方法、ヘビは危ない生き物だから避けるということ、リンゴの実は赤い方が美味しいということ、地球は太陽の周りを廻りながら自らも自転しており、結果太陽は昇り、また沈むこと、三角形の面積を計算する方法、宇宙にロケットを飛ばすために必要な最低限の速度...これらは普遍定理として位置づけられることの幾つかであり、人間は森羅万象に対する事実を得ること、そしてそれを自らの生活をより良くするために利用する方法を蓄積してきました。人間は人類として自らを認識し、様々に情報蓄積技術を進展させながら、時間と空間を越えて知識を伝播させてきました。またルールを作り、お互いが生き延びやすいような取り決めを編み出してきました。現実問題として、信号が青になっても車が突っ込んでくるかもしれなかったら、お財布に入っているお金と、コーヒーやサンドイッチとの換金性が成り立たなかったら、我々は生きていけない程に様々なモデルに依存しています。
一般に商売の世界において言われる「成功体験」や「鉄則」も、この類として捉えられがちです。しかしながらこのようなモデルは、残念ながらあるべき普遍性を持ち合わせていないように思えます。例えば、「同じ商品なら安いほうが顧客は喜ぶ」、「同じ価格なら機能が豊富な方を顧客は選択する」...一般論としてはそんな気もしますが、一方で脆弱なモデルでもあります。そして自然や一般的な摂理に対するモデルの普遍性に比べると、商売、つまり人間の心理やその集合としての市場動向に対するモデルは華奢であり、軸足を乗せた途端に揺らいでしまう程の適用可能性しか持ち合わせません。森羅万象に対する普遍モデルを数多く解き明かしてきた我々人類が、我々自身に対して構築したモデルが普遍性に欠けているなんて、なんとも皮肉な話です。それとも、ヒトはあまりに簡単にモデルを構築し過ぎるようになってしまい、そしてあまりにモデルに依存し過ぎるようになってしまったのでしょうか?
モデルを構築するということは、xという事象が発生した際に、必要な対処はyであるという方程式を、何らかの形で構築していることを意味します。例えばパソコンを購入する人の、2人のうち1人が一緒にプリンタを買うと仮定しましょう。このモデルはy=0.5xと表現することが可能です(xがパソコンを購入した人、yがプリンタを購入する人)。モデルを構築することは、現実世界において発生する物事への対処を正しく、迅速に行うことを可能とします。しかしながらこのモデルそのものは、そのタイミングにおいて正しかったということを意味するのみであり、常に正しいとは限りません。時にはモデルに修正を加え、時には既存のモデルを捨て、新たなモデルを構築することが必要となります。従って、自社の商売に対するモデル化を行い、豊富かつ正確なモデルを構築することが重要になるのと同じ位、それらを修正する、もしくは一から新たなモデルを構築していくことが重要となってきます。一般に、成功体験と化したモデルは捨て難いものであり、強烈な失敗体験をもたらしたモデルはタブーとなり、手を出し難いものです。しかしながら「何でも起こり得る、何が起こってもおかしくない世界」で、「最も普遍化が難しい人間」を相手に商売を進めるとき、変化は不変的に存在します。モデルを常に検証することによって、構築されたモデルがいつまで、そしてどこまで普遍的に通じるものであるかを理解し、修正を要するモデル、新たに作成する必要があるモデルに関しては、迅速に、そして与えられた時間的制約の中で出来るだけ精緻にモデル化することが必要となります。知識にまつわる競争の海に飛び込む上で、モデルは救命具にも重荷にもなり得ます。スクラッチからモデルを構築し、それを日常業務やビジネスプロセスに適用するスピード、そして時代錯誤にならない内にそれを洗練化させ、時と場合によってはそれを捨て去る勇気 - このようなスタンスをモデルに対して貫くことが、データマイニングを継続的成功に導くのではないでしょうか。