データ分析の仕事を受注する上での一つの悩みとして、依頼内容の記述と、データマイニングの手法(アルゴリズム)の関係づけが考えられます。依頼内容に「〜の値を予測してほしい」「〜が〜に分類されるようにして欲しい」とデータマイニングの視点で書かれていることは多くないかもしれません。そのため、関係づけしやすいようにするためにも、一つは、データマイニングの側から見て、データマイニングのアルゴリズムが適用できるタスクの種類の一覧を知っておくと便利です。「この依頼は、この種類のタスクに当てはまると考えて良いのだろうか?」と考えることができます。
『戦略的データサイエンス入門』という本には、データマイニングのアルゴリズムが適用できるタスクの種類の一覧として以下が紹介されています。
1.分類
2.回帰
3.類似性マッチング
4.クラスタリング
5.共起グルーピング
6.プロファイリング
7.リンク予測
8.データ削減
9.因果モデリング
各タスクの詳しい説明は、同書を参照してください。
分類
母集団の構成要素がどのクラス(母集団を複数の集まりに分割する際にそれら集まりを示す階級)に分類されるのかを予測する。
回帰
個別のデータに対して、何らかの変数の数値を予測あるいは推定すること。
類似性マッチング
既知の情報に基づいて類似するデータを識別する。類似するデータを発見するために使用される。
クラスタリング
特定の目的(分類の基準)を与えず、その類似性に従って母集団をグルーピングする。
共起グルーピング
取引データの中からいくつかのデータの間に存在する関連を見つけることができる。頻出アイテムセットマイニング、相関ルール発見、マーケットバスケット分析としても知られている。
プロファイリング
個別のデータやグループ、そして母集団における典型的な振る舞いがどのようなものかを明らかにする。
リンク予測
データ間の関連を予測することができる。
データ削減
大量のデータセットから余分な情報を削ぎ落とし、重要な情報のみを含んだ小さいデータセットへ変換すること。
因果モデリング
他の何かに影響を及ぼす出来事や行為を把握するために役立つ。
補足
データサイエンスとデータマイニング
... 概念的には、データサイエンスとはデータから有用な情報・知識を引き出すための基本原理のことであり、データマイニングはそれら基本原理を組み込んだ技法を活用して、データから有用な情報・知識を引き出す行為のことです。 ...
『戦略的データサイエンス入門』 p.2