More than 5 years have passed since last update.

Pythonで機械学習

機械学習

Last updated at 2018-02-11Posted at 2018-02-11

Pythonを使った基本的な機械学習のステップを解説します。
データサイエンティストのサイトKaggleで提供されているタイタニックのデータを使って、複数の説明変数から目的変数を予測する「教師あり学習」による予測モデルを構築してみます。

以下のKaggleのサイトを参考にしています。
Titanic Data Science Solutions

統計分析のステップ

統計分析の手順は、データマイニングの標準的な方法論であるCRISP-DM(Cross-Industry Standard Process for Data Mining)に沿って行います。

(Wikipediaより引用)

Business Understanding (ビジネスの理解)
Data Understanding (データの理解)
Data Preparation (データ準備)
Modeling (モデル構築)
Evaluation (モデル評価)
Deployment (適用)

Business Understanding

今回は、タイタニックの乗客の生死の実績データを使って予測・分析を行います。1912年4月15日に、その処女航海で沈没したタイタニックは、2224名の乗客・乗組員のうち1502名が死亡しました。
いま、手元には891名の乗客の属性および生存・死亡に関するデータと、生死が不明な418名分のデータがあります。
これらのデータを使って、どのような乗客が生存したのかを分析し、その結果にもとづいて、生死が未知である乗客の生死を推定します。

(Wikipediaより引用)

Data Understanding

以下のような観点で、データを理解します。

データ項目
データの意味
データ件数
データ型
値の範囲
値の分布
ユニークな値のリスト
カーディナリティ
欠損値・不正値

PythonでData Understanding

Data Preparation

データ準備では、予測モデルのインプットとするために、データを整備します。データ整備は以下のような処理を含みます。

結合（JOIN、UNION）
集計(GROUP BY)
ピボット、アンピボット
欠損値の補完
文字列変換
四則演算
名寄せ
値の置き換え

データ準備の手順

1つのデータ（ファイル、テーブル）で説明変数と目的変数の組み合わせになるように、結合、集計、ピボット、アンピボットで構造を変換します。
欠損値がある場合、そのままでは適切に予測ができないため、何らかの値に置き換えます。
カテゴリカルなテキスト項目は、数値に置き換えます。

PythonでData Preparation

Modeling (モデル構築)

予測に適したアルゴリズムを選択し、予測モデルを構築します。主要なアルゴリズムは、「教師ありか、教師なしか」「予測する対象がカテゴリカルか、数値か」により以下のように分類できます。

教師あり、カテゴリカルを予測 - 判別(Classification)

アルゴリズム	概要
決定木(Decision Tree)	属性値テストにより段階的にデータを分割していき構築する、木構造の分析モデル。
ランダムフォレスト(Random Forrest)	ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用するモデル。
K近傍法(K Nearest Neighbors)	特徴空間における最も近い訓練例に基づいた分類の手法。
ロジスティック回帰(Logistic Regression)	ベルヌーイ分布に従う変数の統計的回帰モデルの一種。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種。
サポートベクターマシン(SVM)	線形入力素子を利用して 2 クラスのパターン識別器を構成する手法。
リニアSVC(Linear SVC)	カーネルを使用しないSVM（サポートベクトル・マシン）に基づくクラス分類手法。
パーセプトロン(Perceptron)	ニューラルネットワークの一種。S層（感覚層、入力層）、A層（連合層、中間層）、R層（反応層、出力層）の3つの部分からなる。
確率的勾配降下法(Stochastic Gradient Decent)	連続最適化問題に対する勾配法の乱択アルゴリズム。
ナイーブベイズ(Naive Bayes)	ベイズの定理にもとづく分類器。