はじめに
データマイニングにおいて重要なことの一つは、問題を対応方法が分っているタスクへ分解し、解決できる状態にすることです。
あらかじめ、代表的なデータマイニングのタスクを知っておくと問題解決に役立ちます。
分類 (classification)
母集団の構成要素がどのクラスに分類されるかを予測するです。
クラスとは母集団を複数の集まりに分割した際の階級です。
例えば、「全ユーザーの中でキャンペーンに反応してくれるのはどの顧客か」という問題は、「反応する」と「反応しない」の2つのクラスに分けられます。
回帰 (regression)
個別のデータに対して、何らかの数値を予測あるいは推定することです。
例えば、「ユーザーはこのサービスをどれほど使ってくれるか」という問題は「利用量」を予測できます。
分類は何かが起こるかどうかを予測するもので、回帰はどの程度起こるかを予測するものです。
類似性マッチング(similarity matching)
類似するデータを識別します。
類似性マッチングを利用したレコメンド(商品の購入履歴や趣向が似通った人を見つける)手法が存在します。
類似性の測定が分類や回帰などの基礎になることもあります。
クラスタリング (clustering)
特定の基準を与えず、その類似性に従って母集団をグルーピングします。
「特定の目的を持たせずに、グルーピングしたり、分割境界を設定することは可能かどうか」に答えることができます。
データマイニングの予備調査として使用し、以降のデータマイニングのタスクやアプローチを決めるといった使い方ができます。
また、クラスタリングにより、意思決定プロセスの入力情報を作成することもできます。
例:「どのような製品を提供・開発するべきか」「マーケティングチームをどのように組織するべきか」
共起グルーピング (co-occurrence grouping)
データ間の関連を見つけることができます。共起とは一緒に発生することです。
例えば、「どの商品とどの商品が一緒に購入されているか」といった問題に答えることができます。
クラスタリングはデータを表現する各属性の値からデータ間の類似性を発見するものであるのに対して、
共起グルーピングは取引データ内で共起するデータに基づいてデータの類似性を見つけることです。
プロファイリング (profiling)
個別のデータやグループ、そして母集団における典型的な振る舞いがどのようなものか明らかにします。
例えば、「このユーザーグループにおける典型的な携帯電話の使用量はどれだけか」といった問題に答えることができます。
母集団全体の典型的な振る舞いを定義することが多いが、より小規模なグループや個別のデータごとに定義することもあります。
不正利用対策や異常検知のためにその基準値を決めるために使うこともあります。
例えば、あるユーザーのクレジットカード利用に関するプロファイル(購入商品の傾向や購入地域など)を定義すると、その人のクレジットカードが使われたときに、その使用方法がプロファイルと合致するかどうか判定できます。
リンク予測 (link prediction)
データ間のリンク(つながり)の強さを予測することです。
SNSのソーシャルグラフやレコメンドシステムでよく使われます。
データ削減 (data reduction)
大量のデータセットから余分な情報を削ぎ落とし、重要な情報のみを含んだ小さいデータセットへ変換します。
情報の欠落が発生するので、データ削減の使い所には気をつける。
因果モデリング (causal modeling)
他の何かに影響を及ぼす出来事や行為を把握するために役立ちます。
実験データや観測データから因果関係を示す結論を導出することができます。
例えば、ユーザーに広告を出して売上が上がったとします。
しかし、ユーザーの購入行動を変えたのは広告のおかげではなく、単にいつも商品をよく購入してくれるユーザーだったのではないでしょうか。
因果モデリングの手法の一つにA/Bテストがあります。特定のユーザーに広告を見せる場合と見せない場合の差異を理解することに役立ちます。