はじめに
- 質量混在データ(ラベルと数値の混在するテーブルデータなど)のクラスタリング方法
についてのサーベイ論文を紹介します - データの分類アプローチ毎に進捗状況及び課題が整理された論文となります
- この記事では論文全体の俯瞰的な紹介のみを行っています
- 詳細な内容については、以下もご参照願います
https://elsur.jpn.org/mt/2019/12/002807.html - 本記事に各アプローチの概要および個別課題を加筆修正し、近日中にアップデート予定です
論文の課題意識
混合データは数値変数とカテゴリカル変数(=ラベリング名)の両方で構成され、
混合データセットは保険、金融、マーケティングなどの多くの分野で頻繁に発生します。
クラスタリングは、多くの場合、混合データセットに適用されます。
(データ分析者は)クラスタリングを用いてデータセットに潜在する構造を見つけ、
類似する構造同士をグループ化してさらに分析します。
ただし、混合データセットの特徴値に合計や平均などの数学的演算を
直接適用する事が難しい(※)ため、混合データのクラスタリングは困難となります。
※注釈: データ内変数の種別ごとに統計的性質が異なるため、データセットに共通する
数学的演算を用意する事ができないためと思われます。
このため、特にカテゴリカル変数を分類する際にドメイン知識を要するアプローチが多い様です。
論文の記載内容
- この論文では、5 つの主要な研究テーマを特定することにより、
混合データをクラスタリングするためのアルゴリズムの分類法を提示します - 続いて、各研究テーマの研究の現状を紹介しています
- これらの方法の長所と短所を分析し、将来の研究の方向性への指針を示します
- 最後に、この分野における全体的な課題の詳細な分析を提示し、
未解決の研究課題を強調し、この分野で進歩するためのガイドラインについて説明しています。
各章の要約
本論文でサーベイされている5つの主要研究テーマは以下からなっています。
- PARTITIONAL CLUSTERING(分割クラスタリング)
- HIERARCHICAL CLUSTERING(階層クラスタリング)
- MODEL-BASED CLUSTERING(モデル・ベースのクラスタリング)
- NEURAL NETWORK-BASED CLUSTERING(ニューラル・ネットワーク・ベースのクラスタリング)
- その他
データセットへのラベリング分類の基準が複数あり、階層化の難しい状況で使いやすいのは
3番目のモデルベースのクラスタリングとなるのでしょうか。
1番目、2番目、4番目の方法はドメイン知識に基づく分類基準も併用する必要があり、
運用に工夫が必要そうです。
3番目の研究テーマ(=分類アプローチ)は比較的素直なアプローチと理解しました。
論文に書かれている研究テーマ毎の特徴と(私にとっての)今後の調査課題は以下となります。
-
PARTITIONAL CLUSTERING(分割クラスタリング)
特徴: 数値変数とカテゴリカル変数を共通の距離空間上に反映して距離計算を行い、
得られた結果を用いてクラスタリングを行うアプローチをとっている。
数値変数とカテゴリカル変数の確率分布を区別せず力技でデータ分類を行っている。
課題: K-meansベースのやり方となるので、変数毎の確率分布が異なる場合の対処を確認したい。 -
HIERARCHICAL CLUSTERING(階層クラスタリング)
特徴: データ構造に階層がある(=データを漏れ重なりなく分類するための基準が存在する)
事を仮定した上で、トップダウン的にクラスタリングを行うアプローチをとっている。
課題: データ分析者がドメイン知識を持っていないと、
『データ階層構造の有無の判断』や、
『階層構造の上位でカテゴリカル変数を分類するための分類基準』
を見分ける事ができず、本アプローチで分類する事ができない。
必要なドメイン知識の種類を確認したい。 -
MODEL-BASED CLUSTERING(モデル・ベースのクラスタリング)
特徴: カテゴリカル変数や数値変数が何らかの確率(統計)モデルに一致する事を仮定し、
EM-algoritmベースの分類アプローチで質量混在データの分類を行うアプローチ
となる。
課題: データ分析者がある程度統計モデルへの知見を持つことが前提となる。 -
NEURAL NETWORK-BASED CLUSTERING(ニューラル・ネットワーク・ベースのクラスタリング)
特徴: 数値データの分類手法であるself organizing maps (SOM)や
adaptive resonance theory (ART)を拡張し、質量混在データの分類を行うアプローチ
となる。
課題: 階層クラスタリングと同様、カテゴリカル変数の分類基準を仮説ベースで用意する
必要があり、データに対するドメイン知識が必要となりそうである。 -
その他
特徴: 距離空間を複数仮定して、空間間で射影を行い分類を行っている。
時系列情報のクラスタリング方法なども取り上げられている。
課題: (私が)詳細を理解できていないため、追加調査を行う予定である。
今後の予定
- 質量混在データ分類についての最新論文も取り上げていく予定です
https://hal.archives-ouvertes.fr/hal-01253393/file/slides.pdf
最後に
弊社では、自動車・機械産業のお客様に向けたソリューション開発エンジニアを絶賛採用中(2022/12時点)です
https://www.wantedly.com/projects/1181162