本書は2017年4月1日にTeradata Japanのブログに掲載された内容を、再掲載したものです。
掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。
著者 山本 泰史 (やまもと やすし)
「マーケターのためのデータマイニング・ヒッチハイクガイド」シリーズのコンテンツです。
はじめに
■マスマティック・ブルース
データマイニングは、数学、確率、統計、計量経済、統計解析、多変量解析といった学問領域、解析手法*2をその背景に持っています。一方で通常のレポーティングやオンライン多次元分析においても平均や合計といった算出手法は用いられていますが、データマイニングにおいてはより頻繁に、より高度に、そしてより複雑にそれらの手法を利用しており、それらに依存しています。故に、これらの学問領域を基盤としている側面、しかもその複雑な部分、言い換えれば合計や平均、四則演算だけではすまない部分がデータマイニングをとっつきにくいものにしているのではないかと思います。数式、そこで用いられるアルファベットやギリシャ文字の記号、極度に一般化された抽象的な考え方...これらは有史以来人類が積み重ねてきた偉大な知識の蓄積ではありますが、多くの人にとってそれは、あまりにも抽象化されすぎていて、膨大なデータをそのまま眺めるのと同じ位ぼやけた表現になってしまっているのではないでしょうか。そしてこのような「数学の抽象表現がもたらす憂鬱」が、データや分析からデータマイニングを遠ざけてしまっているとすれば、それは非常に残念なことです。それはそのまま、企業が膨大に保持しているデータから得られる追加的な理解と、その結果得られる知識をスポイルしてしまうということであり、企業の戦略レベルから日常業務に至る様々な活動の改善機会をスポイルしてしまうということでもあり、最終的には活動の改善によって得られたはずのビジネス機会や最終利益をスポイルしてしまうということに帰結してしまうからです。
もちろん、そのような「数学の抽象表現」そのものが無意味であるというつもりも、それらの「憂鬱」を乗り越えてデータマイニングに従事することができる分析者、モデラーの方が無用だと主張するつもりもありません。それら、そして彼らはデータの中に存在する「我々が知りえなかった何か」を紐解く上で不可欠の存在であり、それらなくして適切にデータマイニングを行なうことはできません。でもそれら、そして彼らは魔術でもマジシャンでもないのです。種明かしが何なのかという点は、例えばマーケティング活動に従事する方々も、その上位層に位置するマネジメントレベルの方も、理解しておいて損はありません。否、それすら理解しないのであれば、何故データマイニングからもたらされた理解や知識を信じることが出来るのでしょうか。預言者の神託として盲目的に信じるのであれば、それは事実に基づいた、論理的で科学的なマーケティングでも、マネジメントでもありません。根拠を問わないという意味においては、神のお告げや占星術、または勘や経験といったものに依存した意思決定となんら変わるものではないのです。
■データマイニングの特性
データマイニングが魔術でもマジックでもないとすれば、データマイニングに出来ることには限界があり、そして行なっていることは、冗長性さえ厭わなければ理解できるレベルに平易化できるはずです。ここではそれらについて整理します。
データが知識を限定する
まず、データマイニングとは何かということですが、ここでは次のように定義します - 「データの中に内在する、人間が発見できない傾向を知識として捉え、形式化すること」。ここから、データマイニングの分析手法から理解できること、抽出できる知識は、与えられたデータの範囲に限定されることが分かります。例えばデータマイニングによって得られる知識の一つに「予測」がありますが、これは過去の傾向が少なからず将来にも続くと仮定されたとき、過去の傾向から演繹的に導き出される未来を予測できるということであり、断続的で地殻変動のような未来を予測しうるものではありません。またある傾向が現実世界を支配していたとしても、それが与えられたデータに反映されなければ、やはりその傾向は予測に反映されません。
知識のカタチ
データマイニングによって得られる知識は、形式化されて導き出されます。データマイニングの世界ではこれをモデルと呼んでいます。モデルは大きく、数式とルールに分かれます。数式は例えばy = ax + bのような形式で示され、yは予測や分類の対象となるアウトプットであり、定量的なアウトプット(例:購入予測額30,000円)、確率上のアウトプット(キャンペーン反応確率:0.87)のような形で示されます。このとき、右辺のa及びbは定数であり、ここに変数xを当てはめることによって導き出されます。またルールはある事象が発生した際に、別の事象が導き出されることを記述します。多くの場合においてはIF A, THEN B文にて記述され、例えばIF(もし)「A:雨の日」(であれば), THEN(そのとき)「B:客数が減る」といった形式となります。
知識の類系
データマイニングは既に知っている、明らかな知識も平等に検出します。例えばあるコーヒーショップの天気と客数と各商品の販売数量データから知識を得るとき、「雨の日には客数が減る」といった当たり前と思われる知識ももたらします。あなたが既にその知識を持っているかどうかを気にしないのです。また同様に未知の知識、例えば「雨の日にはラージサイズのコーヒーが出る」といった知識や、「雨の日にはオレンジジュースが出る」といった知識をもたらすこともあります。しかしながらデータマイニングは純粋に技術であり、手法であるため、それに対する「なぜか」という説明をしません。「雨の日にはラージサイズのコーヒーが出る」理由に、来店客が長居するつもりであることを理解できるかは知識の利用者に依存していますし、中には「雨の日にはオレンジジュースが出る」といった、理由を説明できない知識も検出されることになります。数値に基づいて数式/ルールといったモデルを構築するのがデータマイニングですが、その意味合いは説明してくれません。これらを類系だてると以下のように分かれ、データマイニングで本来析出したい知識は、2.と言えます。
1. 既知の、意味を理解できる知識 (改めてデータマイニングを行なう必要がない)
2. 未知の、意味を理解できる知識 (本来データマイニングで導き出したい知識)
3. 未知の、意味を理解できない知識 (信じて良いものか分からない、判断がつかない)
加えて、残念ながらデータマイニングが常に2.を導き出してくれる訳ではないということも、記述しておかなければなりません。全てはデータが鍵を握っています。本来データから理解し得る知識の総和が100あるとします。通常のレポーティングやオンライン多次元分析にて既に得られた知識が50であるとすれば、優れたデータマイニングは残りの50を導きますが、既に得られている50の知識も一緒に導きます(前述の1.)。また残りの50のうち、30は意味不明かもしれません(前述の3.)。このとき、残った20がデータマイニングによってのみ得られた純粋な知識(前述の2.)です。しかしながら可能性としては、本来データから理解しえる知識の総和が80であったり、既に得られている知識が70であったりすることも考えられます。このとき意味不明の知識が30のままであるとするならば、本来データマイニングで導き出したい知識はそこに存在しなかった、ということも可能性として起こりうる事になります。もちろん、現実問題として多くの企業が保持している顧客データは気が遠くなるほどに膨大なものであり、分析をする側からすれば手に余るほどです。従って「何も得るものがなかった」という結論に陥る可能性はあまり多くはないと想定します。そのため現実的な話をしているわけではありませんが、そのような可能性を孕んでいることは理解すべきです。
仮に、既に得られている知識しか導き出さなかったとしても、それに全く意味が無い訳ではありません。日常業務を進めていく中で感じていた点が、発生確率や予測値、分類として検証されたのであればアンテナの感度は鋭く、感受性と論理性のバランスが高いレベルで保たれているに違いありません。もちろん既に分かっていることであればその知識は既に日常業務に活かされており、特段業務に変化をもたらすことは無いかもしれませんが、その日常業務に確かな裏打ちがなされ、自信を植え付けることになります。一方、データマイニングによって今まで考えもつかなかったような知識が湯水の如く溢れ出るのであれば、今までに得ていた知識のレベルを疑うべきです。表現は悪いですが、よほど頭脳や情報を使わずに日常業務が進められていたに違いありませんし、その結果は推して知るべしです。世界中のありとあらゆる物語がフィクション、ノンフィクションを問わず教えてくれるように、価値のあるコトは常に得難く、意義があるコトは常に発見しづらい場所に隠されているものです。
*1:データマイニングの背後に存在する考え方は奥深く、幅広い数学概念をベースに成り立っているものですが、ここではそれらの枝葉末節を包含した形で説明することを目的としていません。
*2:それぞれ学問領域間には重複や依存関係等が存在し、本来並列に記載すべきではないのですが、その体系的詳細についてはここで触れません。冗長的ですし、体系そのものが商売に役立つわけではありませんので。