More than 5 years have passed since last update.

ReNom TDA GUIを使ってタイタニックのデータを分析

Posted at 2018-04-07

はじめに

　先日、AI・人工知能Expoに行った際、GRIDのブースで ReNom TDAについて聞いてきました。
データを可視化するのに使いやすく理解の助けになりそうと思い、githubから持ってきて
試して見ました。まずはGUIでcsvファイルの分析を試して見ます。

準備

インストール手順や、使い方等は ReNomのサイトに詳しく書いてあります。

インストール

ReNom本体
http://www.renom.jp/ja/rsts/renomdl/main.html

ReNom TDA
http://www.renom.jp/ja/rsts/renomtda/main.html

ReNom TDA APIでの使用例
http://www.renom.jp/ja/notebooks/tda/mnist-dataset-mapping/notebook.html

GUIでの使い方
http://www.renom.jp/ja/notebooks/tda/how-to-use-gui/notebook.html

GUIでデータ分析する場合のポイント

データ分析では有名なtitanicのデータを分析してみると事にしました。その際少しハマったところは下記の点です。

Csvファイルを、インストールしたReNomTDA以下の gui/data 以下にコピーする必要がありようです。
欠損価があるとそもそもloadできなさそうなので、欠損値のある行はとりあえず削除
テキストは分析対象にならなさそうなので、数値に置き換え。例えば sex は male=1とfemale=2など
名前など分析対象外のものは列ごと削除

上記をまとめて対応したスクリプトです。

 sed 's/"\([^"]*\)"/"pname"/' train.csv | cut -d, -f1,2,3,5,6,7,8,10,12 | sed '/,,/d' |  sed 's/female/2/' | sed 's/male/1/' | sed 's/C/1/' | sed 's/Q/2/' | sed 's/S/3/' > train_noname.csv

train_noname.csvを読み込めると、ヒストグラムが表示されます。
「計算に使う」はターゲットデータであるSurvived以外にチェック、「色に使う」は全選択します。

分析結果

まずは一般的な主成分分析し、散布図で表示、色はSurvivedかどうかを見てみます。
何となく、生存者かどうか、傾向は見えるように思います。

次に分析モードだけをTDAに変えて、散布図と比較して見たところです。
図はカッコいいのですが、どう見ればいいのかな？

終わりに

正直なところ、どう読み取るべきか、いまひとつ分かりません。
TDA 自体を理解する必要があるようです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up