1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

A New Supervised t-SNE with Dissimilarity Measure for Effective Data Visualization and Classification

Last updated at Posted at 2021-03-14

paper link

スクリーンショット 2021-03-14 14.10.16.png (158.3 kB)

Abstract

  • class情報に関した非類似度を用いた新しい教師ありt-SNE (S-tSNE) を提案
  • 分類問題用の特徴量抽出として汎用的な手法であり、MNIST / Chest x-ray / SEER Breast Cancer の3データセットで実験
  • k-NNを用いて判別問題を解かせた
  • t-SNEと比較して、実験のaccuracyが20%以上向上した

Contribution

  • 既存のsupervised t-SNEの一般化
  • k-NNで分類問題を解いた際に、t-SNEよりも精度向上

Method

  1. S-Isomapで用いられている重み付けを利用する。このとき、以下の性質が成り立つ。
    $D(a_i, a_j | t_i = t_j) \leq D(a_i, a_j | t_i \neq t_j)$
    スクリーンショット 2021-03-14 15.00.35.png

  2. 重み付けしたデータ間距離を用いてt-SNEの条件付き確率を計算

Experiment

t-SNEと同様に計算時間が大きいのでデータセットの一部をランダムサンプリングして使用。ただし、ラベル毎のデータ分布は保つようにしている。

Benchmark

スクリーンショット 2021-03-14 15.01.27.png

Qualitative Results

スクリーンショット 2021-03-14 15.03.28.png

Consideration

2019年時点でも判別問題を解く際にk-NNを用いて低次元空間の評価をしているが、どの程度受けがいいのか気になる。

misc

  • PCAは非線形データに弱い
  • IsomapとLLEはデータの分布が局所的である場合しか機能しないが、t-SNEはデータの分布が広範でも機能する
  • 教師なしの次元削減では、classification / regressionに適した特徴量抽出が難しい
  • 教師ありの次元削減一覧
    1. Euclidean distanceの代わりにデータ間の非類似度を利用
      • WeightedIso (同じラベルのデータ間距離を小さく重み付け)
      • S-Isomap (WeightedIsoよりも複雑な重み付け)
      • Supervised LLE (異なるラベルのデータ間距離に正の値を加える)
      • Supervised Enhanced LLE (同じラベルのデータ間距離は小さくし、異なるラベルのデータ間距離は大きくする)
    2. データ固有の情報を利用
      • supervised t-SNE (同じラベルのデータ間距離にデータ固有の情報を用いた値を乗ずる)
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?