はじめに
無料でも使える高機能なツールを使ってデータ分析と機械学習っぽい事をやってみました。
前回の記事Tableau可視化編 に続いて、簡易的な予測を出してKaggleに提出してみます。
簡易予測
IF文を使った計算フィールドを作成して、test.csvに対する生存の予測を出してみます。(※1)
データソースの読み込み
Tableauのウィンドウをもう一つ立ち上げて、test.csvをドラッグ&ドロップします。
train.csvとは別の418人分のデータが入っていますが、こちらは生存(Survived)フィールドが抜けている事が分かります。
前回のワークブックに「train.twbx」、今回のワークブックに「test.twbx」という名前を付けて保存しておきましょう。(※2)
計算フィールドの追加
画面下のタブから「シート1」を選択してワークシートを開きます。
画面左のディメンション枠内にある「Sex」フィールドのドロップダウンメニューから「作成」「計算フィールド」を選択するとダイアログボックスが開きます。
フィールド名を「Survived」として、以下の式を設定してください。
IF [Sex] == 'female' AND [Pclass] <= 2 THEN 1 ELSE 0 END
前回の検証結果では女性で階級(Pclass)が3の場合は生存率50%だったので判断に迷う所ですが、
全体の傾向として死亡率が高いため今回の予測では死亡(Survived=0)側に倒します。
計算式が正しく動いているか、念のため確認しておきましょう。
手順は割愛しますが、こんなグラフが出せればOKです。
提出
それではこの予測結果をKaggleに提出(Submit)してみましょう。
出力フォーマットの確認
KaggleのTitanicページから「Make a submission」を選択して提出ページを開きます。
画面右の説明書きと、リンク先のサンプルデータを見たところ、
PassengerIdとSurvivedの2列を持つヘッダ付きCSVファイルで提出する必要があるようです。
ファイルへの出力
TableauからCSVへの出力はいくつかの方法が考えられます。私は以下の手順で行いました。
画面下部のアイコンから新しいワークシートを作成。
ディメンション枠内のPassengerIdをダブルクリック。
Surviedをメジャーに変更してからダブルクリック。
これでテキスト形式の一覧になるかと思います。(※3)
画面上部のメニューから「ワークシート」「エクスポート」「データ」を選び、
開いたダイアログボックスでファイル名に「predict」と入力して保存すればCSV形式のファイルが生成されます。
・・・が、しかし!テキストエディタで開いて見ると中身はカンマ区切りでなくタブ区切りになっている。。
仕方ないのでテキストエディタでタブをカンマに置換して上書き保存してやりましょう。 (※4)
アップロード
先ほど開いた提出ページのフォームにCSVファイルをドラッグし、適当なコメントを知れてSubmitします。
提出に成功するとスコアが評価され、リーダーボードに自分の名前が乗ります。
今回のスコアは0.75598で、順位は6115組中5131位でした。
改善の余地は大いにありそうです。
おわりに
第1回目はTitanicのデータをTableauで可視化して大まかな傾向を読み取りました。
第2回目の今回はこの条件を使って簡易的な予測を出してKaggleに提出しました。
結果は正解率75%でした。
第3回目はAzureMLを使ってランダムフォレストモデルの予測を行い、
正解率がどこまで上げられるかを試してみたいと思います。
引き続きどうぞよろしくお願いします。
補足
- ※1 … Kaggle公式ドキュメントのExcelチュートリアルが参考になります。
- ※2 … このワークブックをパブリッシュする可能性を考えてtwbx形式にしておきます。詳しくはTableau公式ドキュメントのパッケージド ワークブックを参照して下さい。
- ※3 … 上手く行かない場合はTableau公式ドキュメントのデータビューの構築を参照して下さい。
- ※4 … 原因と対策、スマートなやり方などご存知の方はコメント下さい。