はじめに
無料でも使える高機能なツールを使ってデータ分析と機械学習っぽい事をやってみました。
下準備
- Kaggleは、世界中のデータサイエンティストが与えられた課題に対して最適なモデルを競い合うサイトです。アカウントを作ってログインしておきましょう。
- Titanic: Machine Learning from Disaster は入門チュートリアル的な課題です。1912年に沈没した豪華客船の乗員乗客のうち生き残った人と亡くなった人の傾向を分析します。train.csvとtest.csvをダウンロードしておきましょう。
- Tableau Desktopは高速で強力なビジュアル分析ツールです。インストールしておきましょう。私の手元の環境はver10.1.1です。
- Microsoft Azure Machine Learning Studio はドラッグ&ドロップで予測モデルが作れるサイトです。アカウントを作ってログインしておきましょう。
可視化
先ほどダウンロードしたTitanicのデータの中身をTableauを使って見てみます。
データソースを読み込む
Tableauを起動してtrain.csvをドラッグ&ドロップします。
生存していたかどうか(Serviced)を0:死亡、1:生存として表しています。これが分析結果として出したい値ですね。
他には連番のユニークID(PassengerId)、年齢(Age)、性別(Sex)、同乗していた親族関係(SibSp,Parch)、
乗客の階級(Pclass)、乗船料金(Fare)、部屋番号(Cabin)、チケット番号(Ticket)、乗船場所(Embarked)
といった情報を持っています。これらが生存にどう関わるかを見ていきましょう。
全体の人数
まずは全体の人数を把握しましょう。
画面下部のタブから「シート1」を開いて、画面左「メジャー」枠内の「Number of Records」をダブルクリックします。
棒グラフが表示され、マウスオーバーするとツールヒントが表示されて891人分のデータが入っていることがわかります。
性別ごとの人数
次にこの人数を性別で分けて見てみましょう。
画面左「ディメンション」枠内の「Sex」をダブルクリックします。
棒グラフが2つに分かれ、女性(femail)が314人、男性(male)が577人乗っていたことが分かります。
このようにTableauでは各フィールドの役割を認識してある程度自動的に最適なグラフを表示してくれます。
詳しくは公式ドキュメントのディメンションとメジャーをご一読下さい。
性別ごとの生存率
続いて各性別での生存率を見比べてみましょう。
ここではSurvivedをメジャーではなくディメンションとして扱う必要があるので、
左下枠「メジャー」内の「Survived」を左上枠「ディメンション」内にドラッグします。
メジャーとなった「Suvived」を画面中央やや左「マーク」枠内の「色」にドラッグします。
オレンジとブルーの積み上げ棒グラフになりました。
男性に比べて女性の方が生存率が高いことが分かります。
性別・階級別の生存率
さらに今度は乗客の階級(Pclass)をメジャーからディメンションに変更した上で、
画面上部「行」枠内にドラッグしてみてください。
乗客階級ごとのグラフとして、縦3行に分割して表示されました。
実数のままでも目的とする情報(生存率の差)を読み取れなくはないのですが、
もう少し分かりやすくするために見やすくするために、100%積み上げ棒グラフとして表示しましょう。
画面上部「行」枠内の「合計(Number of Record)」を右クリックして、
「簡易表計算」「合計に対する割合」を選択します。
再び「合計(Number of Record)」を右クリックし「次を使用して計算」「セル」を選択します。
このあたりの概念は説明が難しいので割愛します。
公式ドキュメントを読みつつ、色々いじくり回して感覚を掴んでください。
ここまでの可視化作業で、「生存率が高いのは階級の高い女性だ」という事実を読み取れました。
おわりに
第1回目の今回はKaggleにおける入門課題TitanicのデータをTableauで可視化しました。
結果として階級と性別による傾向が読み取れました。
第2回目はこの条件を使って簡易的な予測を出してKaggleに提出してみます。
第3回目はAzureMLを使った機械学習を行う予定です。
引き続きどうぞよろしくお願いします。