Abstract
- class情報に関した非類似度を用いた新しい教師ありt-SNE (S-tSNE) を提案
- 分類問題用の特徴量抽出として汎用的な手法であり、MNIST / Chest x-ray / SEER Breast Cancer の3データセットで実験
- k-NNを用いて判別問題を解かせた
- t-SNEと比較して、実験のaccuracyが20%以上向上した
Contribution
- 既存のsupervised t-SNEの一般化
- k-NNで分類問題を解いた際に、t-SNEよりも精度向上
Method
-
S-Isomapで用いられている重み付けを利用する。このとき、以下の性質が成り立つ。
$D(a_i, a_j | t_i = t_j) \leq D(a_i, a_j | t_i \neq t_j)$
-
重み付けしたデータ間距離を用いてt-SNEの条件付き確率を計算
Experiment
t-SNEと同様に計算時間が大きいのでデータセットの一部をランダムサンプリングして使用。ただし、ラベル毎のデータ分布は保つようにしている。
Benchmark
Qualitative Results
Consideration
2019年時点でも判別問題を解く際にk-NNを用いて低次元空間の評価をしているが、どの程度受けがいいのか気になる。
misc
- PCAは非線形データに弱い
- IsomapとLLEはデータの分布が局所的である場合しか機能しないが、t-SNEはデータの分布が広範でも機能する
- 教師なしの次元削減では、classification / regressionに適した特徴量抽出が難しい
- 教師ありの次元削減一覧
- Euclidean distanceの代わりにデータ間の非類似度を利用
- WeightedIso (同じラベルのデータ間距離を小さく重み付け)
- S-Isomap (WeightedIsoよりも複雑な重み付け)
- Supervised LLE (異なるラベルのデータ間距離に正の値を加える)
- Supervised Enhanced LLE (同じラベルのデータ間距離は小さくし、異なるラベルのデータ間距離は大きくする)
- データ固有の情報を利用
- supervised t-SNE (同じラベルのデータ間距離にデータ固有の情報を用いた値を乗ずる)
- Euclidean distanceの代わりにデータ間の非類似度を利用