「Azure Machine Learningで相関行列の作成ができないか」というご質問があったのでやってみたらできた。
TL;DR
- Azure Machine Learning Studioで相関行列は計算できる。
- Statistical Functionsから、Compute Linear Correlationを使えばOK。
- サンプルはCortana Intelligence Gallery: 相関行列サンプルを参照。
用語の説明
相関行列
大雑把に言うと、異なるデータ間の関係性の強さを表すもの。
正確な定義は例えば、分散共分散行列と相関行列にある。
Azure ML (Azure Machine Learning)
Microsoftの提供する機械学習プラットフォーム。
様々なことができるみたいだけれど、あまり詳しくない。
手順
I. 使うデータセットの選定
Azure Machine Learning Studio上で使いやすいデータとして、Automobile price data (Raw)が提供されているのでそれを用いる。
II. 前処理
欠損値の処理
Automobile price data (Raw)には欠損値が含まれるのでそれを省く。今回は欠損値をいかに補うかは主眼としないので、単純に欠損値の多いデータや、欠損値を含むデータを削除する。
手順はMachine learning tutorial: Create your first data science experiment in Azure Machine Learning StudioのStep2にほとんど同じ。
1. normalized-lossesカラムの削除
Select Colums in Datasetを使う
繋いで…
normalized-lossesカラム以外のデータを取り出す
2. 欠損値を含む行の削除
num-of-doors, bore, stroke, horsepower, peak-rpm, priceは欠損値を含む。欠損値を含む行を削除する。
Clean Missing Dataを使って実行。
3. 数値データの抜き出し
今回は文字列を数値に置き換える(ダミー変数を用いるとか)ことはせずに、数値データだけ抜き出す。
Select Colums in Datasetを使う。
設定はこのようにする。
そうすると、文字列で構成される行をフィルタリングできる。
II. 相関行列の計算
Statistical Functionsから、Compute Linear Correlationを使う。設定はないのでつなぐだけ。
無事出力された。
III. CSVでダウンロード
「エクセルで扱いたいんだけど」という声がなんとなく聞こえたので、CSVで出力する。
Data Format ConversionsからConvert to CSVを使う。これもつなぐだけ。
最後の◯を右クリックすると、Downloadが出現する。
これをクリックするとCSVファイルがダウンロードできる。