概要

今回はCortana Intelligence Suiteを構築（第5回）で設定した、Azure Machine Learning環境を使って、機械学習モデルを構築してみます。

事前に準備するもの

Azure サブスクリプション
Cortana Intelligence Suiteを構築（第5回）で作成したAzure Machine Learning環境

設定手順

データの加工

まず、東京メトロの運航データと気象データを繋げ合わせる必要があります。

SQLクエリモジュール「Apply SQL Transformation」を使う

Cortana Intelligence Suiteを構築（第5回）で作成したAzure Machine Learning環境をAzure ML Studioから開きます。
「Data Transformation」カテゴリーの「Manipulation」から「Apply SQL Transformation」をドラッグ＆ドロップで移動します。「Import Data」からつなげます。
画面右側の「SQL Query Script」内にクエリを入力します。

天気予報のデータを取り込み

Cortana Intelligence Suiteを構築（第5回）で作成した天気予報のCSVファイルを取り込みます。New > DATASET > FROM LOCAL FILEの順にクリックします。
ローカルに保存した、「weather-data.csv」のファイルを選択します。「SELECT A TYPE FOR THE NEW DATASET」の項目には、「Generic CSV File with a header (.csv)」を選択し、ヘッダーがついているCSVであることを指定します。
追加した気象データを追加します。
「Data Transformation」カテゴリーの「Manipulation」から「Apply SQL Transformation」をドラッグ＆ドロップで移動します。「weather-data.csv」からつなげます。
「Data Transformation」>「Manipulation」>「Join Data」のモジュールを移動し、それぞれの「Apply SQL Transformation」をつなげます。これで天気予報と電車遅延のデータが合体しました。

機械学習モデルの作成

いよいよ機械学習モデルを作成します！
1. 「Data Transformation」>「Manipulation」>「Select Columns in Dataset」を追加し、学習対象とする項目を必要な項目のみにします。

今回は、「Time」、「railway」、「delay」、「temperature」、「weather」で学習モデルを作成してみます。
学習用のデータと、後程モデルを試すためのデータに分けるため、「Split Data」を追加します。割合は「0.7」にして、学習データを7割にしましょう。
機械学習モデルを選択します。今回は、遅延時間を予測してみたいので、「Machine Learning」>「Initialize Model」>「Regression」から「Boosted Decision Tree Regression」を追加してみます。この段階でいったん「Run」を押しておきましょう。後ほど項目を選択したいときにより作業がやりやすくなります。
「Machine Learning」>「Train」から「Train Model」を追加し、対象のデータと学習モデルを関連付けます。
画面右側の「Launch column selector」を選択し、予測したい項目（今回は遅延時間を予測したいので「delay」を追加します）
「Machine Learning」>「Score」から「Score Model」を選び、「Train Model」と「Split Data」の2つ目の出力（テスト用データ）を関連付けます。ここで、予測結果が新たな項目「Scored Labels」として出力されます。
「Machine Learning」>「Evaluate」から「Evaluate Model」を選び、学習結果を評価します。「Run」を実行してみましょう。
「Score Model」を右クリックし、「Scored dataset」>「Visualize」を選択すると、予測結果が目視で確認できます。

「Scored Labels」が追加された予測値の列です。
「Evaluate Model」を右クリックし、「Evaluation results」>「Visualize」を選択すると、統計的にこの学習モデルの精度が確認できます。

Coeffient of Determinationの値が1に近ければ近いほど、精度が高いことを意味します。つまり、今回の学習結果はあまり精度の高くないモデルになってしまったということです。
次回はこの機械学習モデルの精度の向上（この学習モデルに限らず、一般的な精度向上方法）についてお話します。お楽しみに！

Cortana Intelligence Suiteを構築（第6回）- Azure Machine Learningを使ってデータを予測してみる（機械学習モデル構築編）

概要