http://scikit-learn.org/0.18/tutorial/statistical_inference/settings.html を google翻訳した
scikit-learn 0.18 チュートリアル 目次
科学的データ処理のための統計学習のチュートリアル 目次
統計学習:scikit-learnにおける設定と推定子オブジェクト
データセット
scikit-learnは、二次元配列として表現された1つ以上のデータセットの情報を学習することを扱います。それらは、多次元観測のリストとして理解することができます。これらの配列の第1の軸はサンプル軸であり、第2の軸は素性軸です。
scikit:iris データセットとともに出荷される簡単な例
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> data = iris.data
>>> data.shape
(150, 4)
これは、150個のアイリスの観察から成り立っています。それぞれの特徴は、iris.DESCR
で詳述されているように、その葉と花弁の長さと幅です。
データが (n_samples, n_features)
の形でないときは、scikit-learnで使用するために前処理する必要があります。
データを再形成する例は、digits データセット
digits データセットは、手書き数字の1797個の8×8画像で構成されています
>>> digits = datasets.load_digits()
>>> digits.images.shape
(1797, 8, 8)
>>> import matplotlib.pyplot as plt
>>> plt.imshow(digits.images[-1], cmap=plt.cm.gray_r)
<matplotlib.image.AxesImage object at ...>
このデータセットをscikitで使用するために、各8×8画像を長さ64の特徴ベクトルに変換する
>>> data = digits.images.reshape((digits.images.shape[0], -1))
推定器オブジェクト
フィッティングデータ: scikit-learnによって実装される主なAPIは、推定器のAPIです。推定器は、データから学習するオブジェクトです。生データから有用な特徴を抽出/フィルタリングする分類器、回帰器またはクラスタリングアルゴリズム、または変換器であってもよい。
すべての推定器オブジェクトは、データセット(通常は2次元配列)を引数にとる fit
メソッドを公開します。
>>> estimator.fit(data)
推定器のパラメータ: 推定器のすべてのパラメータは、インスタンス化されるとき、または対応する属性を変更することによって設定できます。
>>> estimator = Estimator(param1=1, param2=2)
>>> estimator.param1
1
推定パラメータ: 推定器をデータに fit
させると、手元のデータからパラメータを推定する。すべての推定パラメータは、アンダースコアで終わる推定器オブジェクトの属性です。
>>> estimator.estimated_param_
©2010 - 2016、scikit-learn developers(BSDライセンス)。