LoginSignup
4
6

More than 5 years have passed since last update.

Cortana Intelligence Suiteを構築(第5回)- Azure Machine Learningを使ってデータを予測してみる(サインアップ&データの準備編)

Posted at

概要

今回はCortana Intelligence Suiteを構築(第4回)で出力した東京メトロの各路線の運航情報データと、気象庁の気象データを組み合わせて、天気、曜日をもとに予測される各路線の遅延時間を算出する機械学習モデルを、Azure Machine Learningで構築してみます。

事前に準備するもの

設定手順

気象庁データの準備

気象庁では、過去気象庁が観測したすべての気象情報がCSV形式でダウンロードできるサイトを提供しています。今回はこのサイトからダウンロードしたCSVファイルを東京メトロの運航データと組み合わせてみます。

  1. http://www.data.jma.go.jp/gmd/risk/obsdl/index.php へアクセスし、地点を選択します。今回は東京を選択します。
    image

  2. 詳細の地域が選べるので、「東京」にチェックを入れます。全地点も選択可能ですが、一度にダウンロードできるデータ量は制限があるため、なるべく小さい範囲と項目を選びましょう。
    image

  3. 出力したい、項目を選びます。今回利用するのは、気温、降水量、風向・風速と天気です。
    image

  4. 出力する期間を選択します。ここは、Cortana Intelligence Suiteを構築(第4回)で出力した期間を選択しましょう。
    image

  5. 表示オプションはそのままの状態で、「CSVファイルをダウンロード」をクリックします。
    image

  6. このままではデータが利用できないので、Excelで加工します。品質情報、均質番号の列は削除します。
    天気の列は、数字で表されているので、こちらに記載されている、表と文字列を置き換えます。
    Before:
    image
    After:
    image

  7. 加工したCSVは後程使うので、デスクトップ等に保存しておきます。
    image

  8. このままだと文字化けするので、メモ帳で開きなおし、文字コードを「UTF-8」にして上書き保存します。
    これで、天気情報の準備が整いました。
    image

Azure Machine Learningの準備

利用するためには、まず、Azure Machine Learningを「クラシックポータル」からサインアップする必要があります。

  1. https://manage.windowsazure.com/ へアクセスし、「Machine Learning」をクリックし、「ML ワークスペースの作成」をクリックします。
    image

  2. 画面下から新規作成画面が表示されます。ワークスペース名を記入し、場所は日本に一番近い「Southeast Asia」を選択します。ストレージアカウントは「新しいストレージアカウントを作成する」にして、ご希望のストレージアカウント名を記入します。すべて記入し終えたら、「ML ワークスペースの作成」を選択します。
    image

  3. デプロイが開始されます。1~3分ほどで完了します。
    image
    デプロイが完了すると、以下のように表示されます。
    image

  4. 新しく作成したAzure Machine Learningの環境が選択できるようになりました。矢印(→)をクリックします。
    image

  5. 「ML Studioにサインイン」をクリックします。
    image

  6. Microsoft Azure Machine Learning Studioの画面が別ウィンドウで表示されました。これでAzure Machine Learning環境の準備は整いました。
    image

Azure Machine Learningで予測モデルを構築する

Azure Machine Learningは、データ元として、複数の選択肢が用意されており、Azureストレージアカウントや、Azure SQLデータベース、Azure Data Lake等のAzureサービスはもちろんのこと、それ以外にもローカルに保存しているファイルを直接アップロードしてしまうことも可能です。今回は、Cortana Intelligence Suiteを構築(第4回)で出力先として利用したAzureストレージアカウントと、事前に用意した気象情報(weather_data.csv)をアップロードする方法、2つをご紹介します。

ローカルにあるファイル

  1. 画面左下の「+NEW」を選択します。
    image

  2. 「DATASET」> 「FROM LOCAL FILE」を選択します。
    image

  3. 「ファイルを選択」をクリックし、デスクトップにある、「weather_data.csv」を選択します。アップロードを始めるにはチェックをクリックします。
    image

  4. アップロードが始まると、以下のメッセージが表示されます。
    image
    完了すると、以下のように表示されます。
    image

Azure ストレージアカウントから

Azureストレージアカウントをデータ元にする場合は、ストレージアカウントキーを事前に取得する必要があります。
そのあと、新しい「実験(Experiment)」をAzure Machine Learning Studioで作成し、その実験の中で、データ元をAzureストレージアカウントにする必要があります。

  1. Azure Portal からCortana Intelligence Suiteを構築(第4回)で作成したストレージアカウントへアクセスします。
    image

  2. 「アクセスキー」をクリックし、「ストレージアカウント名」と「key1」のキーをコピーし、メモ帳等へ貼り付けておきます。
    image

  3. http://studio.azureml.comへアクセスし、「my experiments」をクリックします。
    image

  4. 画面左下の「+NEW」を選択します。
    image

  5. 「Experiment」を選択し、「Blank Experiment」をクリックします。
    image

  6. これが、実験(Experiment)の画面です。まずは実験名が「Experiment created on <作成日>」になっているので、わかりやすい名前に変更します。
    image

  7. 左側にモジュールのカテゴリーが表示されています。クリックすると、カテゴリーの中に含まれる、各モジュールが表示されます。Azure ストレージアカウントを接続するには、「Data Input and Output」のカテゴリーにある、「Import Data」を選択します。
    image

  8. 「Import Data」をドラッグ&ドロップで、中央へ持っていきます。画面右側に「Import Data」のプロパティが表示されます。
    image

  9. 「Data Source」を「Azure Blob Storage」にし、「Authentication Type」は「Storage Account」にします。(2)で取得した、ストレージアカウント名を「Account name」に、キーは「Account key」へ貼り付けます。
    Path to containerは、Cortana Intelligence Suiteを構築(第4回)で定義した、ファイルの出力先のパスです。
    私の場合は、「tyqiita/output/result.txt」です。「Use cached results」にチェックを入れることで、Azure Machine Learningが毎回Azure Blob Storageからデータを取得せず、キャッシュを保管し、後の構築作業がより早くAzure Machine Learning内で処理できます。
    image

  10. アクセスできるか、「Run」をクリックして、実行してみます。
    image

  11. 処理が完了すると、「Finished Running」と画面右上に表示されます。実際に取り込まれたデータを確認するには「Import Data」を右クリックし、「Results dataset」から「Visualize」をクリックします。
    image

  12. 画面に表が表示されました。これが実際に取り込まれたデータのプレビュー画面です。列をクリックすると、一意の値は何件あるか、どんなタイプの列なのか(値、文字列、日付なのか等)の情報も確認できます。
    image

  13. これで、データの準備は整いました。次回はこのデータを利用して、機械学習モデルを作成します。

4
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
6