http://scikit-learn.org/0.18/modules/unsupervised_reduction.html を google翻訳した
scikit-learn 0.18 ユーザーガイド 4. データセット変換 より
4.4. 教師なし次元削減
特徴量の次元数が多い場合は、教師ありステップの前に教師なしステップでそれを減らすと便利です。 教師なし学習方法 の多くは、次元を減らすために使用できる transform
メソッドを実装しています。以下では、頻繁に使用されるこのパターンの2つの具体的な例について説明します。
- パイプライン処理
- 管理されていないデータの削減と管理された見積もりは、1つのステップで連鎖させることができます。 パイプライン:連鎖見積り を参照してください。
4.4.1. PCA:主成分分析
decomposition.PCA は、元の特徴量の分散をよく捕捉する特徴量の組み合わせを探します。 コンポーネントの信号の分解(行列分解問題) を参照してください。
4.4.2. ランダム投影
モジュール:random_projection は、ランダム投影によるデータ削減のためのいくつかのツールを提供します。ドキュメントの関連セクション: ランダム投影 を参照してください。
4.4.3. 特徴集積
cluster.FeatureAgglomeration は、 階層的クラスタリング を適用して、同様に動作する特徴量をグループ化します。
特徴量スケーリング
特徴量のスケーリングまたは統計プロパティが非常に異なる場合、 cluster.FeatureAgglomeration は関連特徴量間のリンクを取得できない場合があることに注意してください。これらの環境では、 preprocessing.StandardScaler を使用することができます。
scikit-learn 0.18 ユーザーガイド 4. データセット変換 より
©2010 - 2016、scikit-learn developers(BSDライセンス)。