TDA
titanic
ReNom

ReNom TDA GUIを使ってタイタニックのデータを分析

はじめに

 先日、AI・人工知能Expoに行った際、GRIDのブースで ReNom TDAについて聞いてきました。
データを可視化するのに使いやすく理解の助けになりそうと思い、githubから持ってきて
試して見ました。まずはGUIでcsvファイルの分析を試して見ます。

準備

インストール手順や、使い方等は ReNomのサイトに詳しく書いてあります。

インストール

ReNom本体
http://www.renom.jp/ja/rsts/renomdl/main.html

ReNom TDA
http://www.renom.jp/ja/rsts/renomtda/main.html

ReNom TDA APIでの使用例
http://www.renom.jp/ja/notebooks/tda/mnist-dataset-mapping/notebook.html

GUIでの使い方
http://www.renom.jp/ja/notebooks/tda/how-to-use-gui/notebook.html

GUIでデータ分析する場合のポイント

データ分析では有名なtitanicのデータを分析してみると事にしました。その際少しハマったところは下記の点です。

  • Csvファイルを、インストールしたReNomTDA以下の gui/data 以下にコピーする必要がありようです。
  • 欠損価があるとそもそもloadできなさそうなので、欠損値のある行はとりあえず削除
  • テキストは分析対象にならなさそうなので、数値に置き換え。例えば sex は male=1とfemale=2など
  • 名前など分析対象外のものは列ごと削除

上記をまとめて対応したスクリプトです。

sed 's/"\([^"]*\)"/"pname"/' train.csv | cut -d, -f1,2,3,5,6,7,8,10,12 | sed '/,,/d' | sed 's/female/2/' | sed 's/male/1/' | sed 's/C/1/' | sed 's/Q/2/' | sed 's/S/3/' > train_noname.csv

train_noname.csvを読み込めると、ヒストグラムが表示されます。
「計算に使う」はターゲットデータであるSurvived以外にチェック、「色に使う」は全選択します。

Screen Shot 2018-04-07 at 13.12.05.png

分析結果

まずは一般的な主成分分析し、散布図で表示、色はSurvivedかどうかを見てみます。
何となく、生存者かどうか、傾向は見えるように思います。

Screen Shot 2018-04-07 at 13.21.32.png

次に分析モードだけをTDAに変えて、散布図と比較して見たところです。
図はカッコいいのですが、どう見ればいいのかな?
Screen Shot 2018-04-07 at 13.23.05.png

終わりに

正直なところ、どう読み取るべきか、いまひとつ分かりません。
TDA 自体を理解する必要があるようです。