http://scikit-learn.org/0.18/user_guide.html をgoogle翻訳した
チュートリアルはこちら
ユーザーガイド
1. 教師付き学習
1.1. 一般化された線形モデル 未訳
- 最小二乗法
- 最小二乗法の複雑さ
- リッジ回帰
- リッジの複雑さ
- 正規化パラメータの設定:一般化された相互検証
- 最小絶対収縮および選択演算子 - Lasso
- 正則化パラメータの設定
- 相互検証の使用
- 情報基準ベースのモデル選択
- 正則化パラメータの設定
- マルチタスクのLasso
- Elastic Net
- マルチタスクElastic Net
- 最小角度回帰 - LARS
- LARS Lasso
- 数学的処方
- 直交マッチング追求(OMP)
- ベイジアン回帰
- ベイジアンリッジ回帰
- 自動妥当性判定 - ARD
- ロジスティック回帰
- 確率的勾配降下 - SGD
- パーセプトロン
- パッシブアグレッシブアルゴリズム
- ロバストネス回帰:異常値とモデル化誤差
- 異なるシナリオと有用な概念
- RANSAC:RANdom SAmple Consensus
- アルゴリズムの詳細
- Theil-Sen推定器:一般化 - 中央値ベースの推定器
- 理論的考察
- フーバー回帰
- ノート
- 多項式回帰:基底関数を用いた線形モデルの拡張
1.2. 線形および二次判別分析 未訳
- 線形判別分析を用いた次元削減
- LDAおよびQDA分類子の数学的定式化
- LDA次元削減の数学的定式化
- 収縮
- 推定アルゴリズム
1.3. カーネルリッジ回帰 未訳
1.4. サポートベクターマシン
- 分類
- 多クラス分類
- スコアと確率
- 不均衡な問題
- 回帰
- 密度推定、新規性検出
- 複雑
- 実用上のヒント
- カーネル関数
- カスタムカーネル
- Python関数をカーネルとして使用する
- グラム行列の使用
- RBFカーネルのパラメータ
- カスタムカーネル
- 数学的処方
- SVC
- NuSVC
- SVR
- 実装の詳細
1.5. 確率的勾配降下 未訳
- 分類
- 回帰
- スパースデータの確率的勾配降下
- 複雑
- 実用上のヒント
- 数学的処方
- SGD
- 実装の詳細
1.6. 最近傍法 未訳
- 教師なし最近傍法
- 最も近い隣人を見つける
- KDTreeクラスとBallTreeクラス
- 最近傍分類
- 最近傍回帰
- 最近傍法のアルゴリズム
- ブルートフォース
- K-Dツリー
- ボールツリー
- 最近傍アルゴリズムの選択
- leaf_sizeの効果
- 最寄りの重心分類器
- 最も近いシュリンケンセントロイド
- 近くのおおよその近所
- 地域感受性ハッシングフォレスト
- 局所感性ハッシュの数学的記述
1.7. ガウスプロセス 未訳
- ガウスプロセス回帰(GPR)
- GPRの例
- ノイズレベル推定を伴うGPR
- GPRとカーネルリッジ回帰の比較
- Mauna Loa CO2データのGPR
- ガウスプロセス分類(GPC)
- GPCの例
- GPCによる確率的予測
- XORデータセット上のGPCの図
- 虹彩データセットにおけるガウスプロセス分類(GPC)
- ガウスプロセスのカーネル
- ガウスプロセスカーネルAPI
- 基本カーネル
- カーネル演算子
- ラジアル基底関数(RBF)カーネル
- マテランカーネル
- 有理二次カーネル
- Exp-Sine-Squaredカーネル
- ドットプロダクトカーネル
- 参考文献
- レガシーガウスプロセス
- 導入回帰の例
- ノイズの多いデータをフィッティングする
- 数学的処方
- 最初の仮定
- 最良線形不偏予測(BLUP)は、
- 経験的に最良の線形偏り予測器(EBLUP)
- 相関モデル
- 回帰モデル
- 実装の詳細
1.8. クロス分解 未訳
1.9. ナイーブベイズ 未訳
- ガウスナイーブベイズ
- 多項式ナイーブベイズ
- ベルヌーイナイーブベイズ
- アウトオブコアのナイーブベイズモデルのフィッティング
1.10. 決定木 未訳
- 分類
- 回帰
- 多出力問題
- 複雑
- 実用上のヒント
- ツリーアルゴリズム:ID3、C4.5、C5.0およびCART
- 数学的処方
- 分類基準
- 回帰基準
1.11. アンサンブルメソッド
- バギングメタ推定器
- ランダム化された木の森
- ランダムフォレスト
- 非常にランダム化された木
- パラメーター
- 並列化
- 機能重要度評価
- 全くランダムなツリー埋め込み
- AdaBoost
- 使用法
- グラディエントツリーブースト
- 分類
- 回帰
- 追加の弱い学習者をフィッティングする
- ツリーサイズの制御
- 数学的処方
- 損失関数
- 正規化
- 収縮
- サブサンプリング
- 解釈
- 機能の重要性
- 部分依存
- VotingClassifier
- 大多数のクラスラベル(多数決/厳選)
- 使用法
- 加重平均確率(ソフト投票)
- GridSearchでVotingClassifierを使用する
- 使用法
- 大多数のクラスラベル(多数決/厳選)
1.12. 多クラスアルゴリズムと多ラベルアルゴリズム
- マルチラベル分類フォーマット
- 1つの残りの部分
- マルチクラス学習
- マルチラベル学習
- 1対1
- マルチクラス学習
- エラー訂正出力コード
- マルチクラス学習
- マルチ出力回帰
- 複数出力の分類
1.13. 特徴選択
- 分散の少ないフィーチャの削除
- 一変量機能の選択
- 再帰的な特徴の除去
- SelectFromModelを使用した機能の選択
- L1ベースの機能選択
- ランダム化スパースモデル
- ツリーベースの機能選択
- パイプラインの一部としての機能の選択
1.14. 半教師あり 未訳
- ラベル伝播
1.15. 等張性回帰
1.16. 確率較正
1.17. ニューラルネットワークモデル(教師あり) 未訳
- 多層パーセプトロン
- 分類
- 回帰
- 正規化
- アルゴリズム
- 複雑
- 数学的処方
- 実用上のヒント
- warm_startでより多くの制御
2. 教師なし学習
2.1. ガウス混合モデル 未訳
- ガウス混合
- GaussianMixtureの長所と短所
- 長所
- 短所
2古典的ガウス混合モデルにおける成分数の選択
- 推定アルゴリズム期待値最大化
- GaussianMixtureの長所と短所
- 変分ベイズガウス混合
- 推定アルゴリズム:変分推論
- BayesianGaussianMixtureとの変容推論の長所と短所
- 長所
- 短所
- ディリクレのプロセス
2.2. マニホールド学習 未訳
- 導入
- Isomap
- 複雑
- 局所的に線形埋め込み
- 複雑
- ローカルで修正された線形埋め込み
- 複雑
- ヘッセ行列の固有マッピング
- 複雑
- スペクトル埋め込み
- 複雑
- ローカル接線スペースアライメント
- 複雑
- 多次元スケーリング(MDS)
- メトリックMDS
- 非メトリックMDS
- t-分散確率的近傍埋め込み(t-SNE)
- t-SNEの最適化
- バーンズハットt-SNE
- 実用上のヒント
2.3. クラスタリング 未訳
- クラスタリング方法の概要
- K平均
- ミニバッチK-Means
- 親和性伝播
- 平均シフト
- スペクトルクラスタリング
- ラベルの割り当て方法の違い
- 階層的クラスタリング
- 異なるリンケージタイプ:ワード、完全な平均リンケージ
- 接続制約の追加
- メトリックの変更
- 密度ベースの空間クラスタリング(DBSCAN)
- 階層を用いたバランスのとれた反復的な削減とクラスタリング (BIRCH)
- クラスタリングのパフォーマンス評価
- 調整済みランドインデックス
- 利点
- 欠点
- 数学的処方
- 相互情報ベースの得点
- 利点
- 欠点
- 数学的処方
- 同質性、完全性およびV-尺度
- 利点
- 欠点
- 数学的処方
- Fowlkes-Mallowsの得点
- 利点
- 欠点
- シルエット係数
- 利点
- 欠点
- カリンスキー・ハラバズ指数
- 利点
- 欠点
- 調整済みランドインデックス
2.4. Biclustering 未訳
- スペクトルコ・クラスタリング
- 数学的処方
- スペクトルバイクラスタリング
- 数学的処方
- バイクラスタリング評価
2.5. コンポーネント内の信号を分解する(行列分解問題)
- 主成分分析(PCA)
- 正確なPCAと確率論的解釈
- インクリメンタルPCA
- ランダム化SVDを用いたPCA
- カーネルPCA
- スパース主成分分析(SparsePCAおよびMiniBatchSparsePCA)
- 切り捨て特異値分解と潜在意味解析
- 辞書学習
- あらかじめ計算された辞書によるスパースコーディング
- 一般的な辞書学習
- ミニバッチ辞書学習
- 因子分析
- 独立成分分析(ICA)
- 非負行列分解(NMFまたはNNMF)
- 潜在的ディリクレ割り当て(LDA)
2.6. 共分散推定 未訳
- 経験的共分散
- 縮小共分散
- 基本的な収縮
- Ledoit-Wolfシュリンク
- オラクル近似収縮
- スパース逆共分散
- ロバスト共分散推定
- 最小共分散行列式
2.7. 新規性と外れ値の検出
- 新規性の検出
- 外れ値検出
- 楕円形の封筒を取り付ける
- アイソレーションフォレスト
- 1クラスSVM対楕円エンベロープ対アイソレーションフォレスト
2.8. 密度推定
- 密度推定:ヒストグラム
- カーネル密度推定
2.9. ニューラルネットワークモデル(教師なし) 未訳
- 制限付きボルツマン機械
- グラフィカルモデルとパラメータ化
- ベルヌーイ制限付きボルツマンマシン
- 確率的最尤学習
3. モデルの選択と評価
3.1. クロスバリデーション:推定器の成果を評価する
- クロスバリデーションされたメトリックの計算
- クロスバリデーションによる予測の取得
- クロス検証イテレータ
- i.i.dのクロスバリデーションイテレータデータ
- K倍
- Leave One Out(LOO)
- Leave P Out(LPO)
- ランダム置換相互検証a.k.a.シャッフル&スプリット
- クラスラベルに基づいた階層化を持つ相互検証イテレータ
- 層状K倍
- 層別シャッフルスプリット
- グループ化されたデータの相互検証イテレータ
- グループk倍
- 1つのグループを離れる
- Pグループを残す
- グループシャッフルスプリット
- あらかじめ定義されたFold-Splits / Validation-Sets
- 時系列データの相互検証
- 時系列分割
- シャッフルの注意
- 相互検証とモデル選択
3.2. 推定器のハイパーパラメータのチューニング
- 完全なグリッド検索
- ランダム化されたパラメータの最適化
- パラメータ検索のヒント
- 客観的なメトリックの指定
- コンポジット推定値とパラメータ空間
- モデル選択:開発と評価
- 平行
- 障害に対するロバスト性
- ブルートフォースパラメータ検索の代替
- モデル固有の相互検証
- 情報基準
- その他の推定器
3.3. モデル評価:予測の質を定量化する
- 得点パラメータ:モデル評価ルールの定義
- 一般的なケース:定義済みの値
- メトリック関数からスコアリング戦略を定義する
- 独自の採点オブジェクトの実装
- 分類メトリック
- バイナリからマルチクラス、マルチラベルまで
- 精度スコア
- コーエンのカッパ
- 混乱マトリックス
- 分類レポート
- ハミング損失
- ジャカード類似性係数スコア
- 精密、リコール、F-対策
- バイナリ分類
- マルチクラスとマルチラベルの分類
- ヒンジ損失
- ログの損失
- マシューズ相関係数
- レシーバ動作特性(ROC)
- ゼロ1つの損失
- ブリーザスコア損失
- マルチラベルランキングメトリック
- カバレッジエラー
- ラベルランクの平均精度
- ランキングの損失
- 回帰メトリック
- 説明された分散スコア
- 平均絶対誤差
- 平均二乗誤差
- 中央絶対誤差
- R²スコア、決定係数
- クラスタリングメトリック
- ダミー推定器
3.4. モデルの永続化
- 永続化の例
- セキュリティと保守性の制限
3.5. 検証曲線:スコアをプロットしてモデルを評価する
- 検証曲線
- 学習曲線
4. データセット変換
4.1. パイプラインとFeatureUnion:推定器の組み合わせ
- パイプライン:連鎖推定器
- 使用法
- ノート
- FeatureUnion:複合フィーチャスペース
- 使用法
4.2. 特徴抽出
- dictsからのフィーチャーのロード
- フィーチャーハッシュ
- 実装の詳細
- テキスト特徴抽出
- 言葉の表記
- 希少性
- 共通ベクタライザの使用法
- Tf-idf項の重み付け
- テキストファイルのデコード
- アプリケーションとサンプル
- Bag of Wordsの表現の限界
- ハッシュトリックを使用して大きなテキストコーパスをベクトル化する
- HashingVectorizerでアウトオブコアスケーリングを実行する
- ベクタライザクラスのカスタマイズ
- 画像特徴抽出
- パッチ抽出
- 画像の接続性グラフ
4.3. データ前処理
- 標準化、平均除去と分散のスケーリング
- 範囲へのフィーチャのスケーリング
- スパースデータのスケーリング
- 異常値を含むデータのスケーリング
- センタリングカーネル行列
- 正規化
- 二値化
- 特徴二値化
- カテゴリの機能をエンコードする
- 欠損値の補完
- 多項式フィーチャの生成
- カスタムトランス
4.4. 教師なし次元削減
- PCA:主成分分析
- ランダム投影
- フィーチャアグロメレーション
4.5. ランダムプロジェクション
- Johnson-Lindenstraussの補題
- ガウスランダム投影
- まばらなランダム投影
4.6. カーネル近似 未訳
- カーネル近似のためのNystroem法
- ラジアル基底関数カーネル
- Additive Chi Squared Kernel
- スキュード・カイ2乗カーネル
- 数学の詳細
4.7. ペアワイズメトリック、類似性およびカーネル
- コサイン類似度
- 線形カーネル
- 多項式カーネル
- シグモイドカーネル
- RBFカーネル
- ラプラシアンカーネル
- カイ二乗カーネル
4.8. 予測対象(y)を変形する
- ラベルの二値化
- ラベルエンコーディング
5.データセット読み込みユーティリティ 未訳
- 一般データセットAPI
- 玩具のデータセット
- サンプル画像
- サンプルジェネレータ
- 分類とクラスタリングのためのジェネレータ
- 単一ラベル
- マルチラベル
- Biclustering
- 回帰のジェネレータ
- 多様な学習のためのジェネレータ
- 分解用ジェネレータ
- svmlight / libsvm形式のデータセット
- 外部データセットからのロード
- Olivettiはデータセットに直面する
- 20のニュースグループテキストデータセット
- 使用法
- テキストをベクトルに変換する
- より現実的なトレーニングのためのテキストのフィルタリング
- mldata.orgリポジトリからデータセットをダウンロードする
- 野生の顔認識データセットにおけるラベル付きの顔
- 使用法
- 例
- 森林伐採
- RCV1データセット
- ボストンの住宅価格データセット
- ノート
- 乳癌ウィスコンシン(診断)データベース
- ノート
- 参考文献
- 糖尿病のデータセット
- ノート
- 手書き数字データの光学的認識
- ノート
- 参考文献
- アイリス植物データベース
- ノート
- 参考文献
- Linnerrudデータセット
- ノート
- 参考文献
6.計算的に拡大する戦略:より大きいデータ 未訳
- アウトオブコア学習を使用したインスタンスのスケーリング
- ストリーミングインスタンス
- フィーチャの抽出
- インクリメンタルな学習
- 例
- ノート
7.計算性能 未訳
- 予測レイテンシ
- バルク対アトミックモード
- 機能の数の影響
- 入力データ表現の影響
- モデルの複雑さの影響
- フィーチャ抽出レイテンシ
- 予測スループット
- ヒントとテクニック
- 線形代数ライブラリ
- モデル圧縮
- モデルの形状変更
- リンク
©2010 - 2016、scikit-learn developers(BSDライセンス)。