LoginSignup
3
2

More than 5 years have passed since last update.

ReNom TDA GUIを使ってタイタニックのデータを分析

Posted at

はじめに

 先日、AI・人工知能Expoに行った際、GRIDのブースで ReNom TDAについて聞いてきました。
データを可視化するのに使いやすく理解の助けになりそうと思い、githubから持ってきて
試して見ました。まずはGUIでcsvファイルの分析を試して見ます。

準備

インストール手順や、使い方等は ReNomのサイトに詳しく書いてあります。

インストール

ReNom本体
http://www.renom.jp/ja/rsts/renomdl/main.html

ReNom TDA
http://www.renom.jp/ja/rsts/renomtda/main.html

ReNom TDA APIでの使用例
http://www.renom.jp/ja/notebooks/tda/mnist-dataset-mapping/notebook.html

GUIでの使い方
http://www.renom.jp/ja/notebooks/tda/how-to-use-gui/notebook.html

GUIでデータ分析する場合のポイント

データ分析では有名なtitanicのデータを分析してみると事にしました。その際少しハマったところは下記の点です。

  • Csvファイルを、インストールしたReNomTDA以下の gui/data 以下にコピーする必要がありようです。
  • 欠損価があるとそもそもloadできなさそうなので、欠損値のある行はとりあえず削除
  • テキストは分析対象にならなさそうなので、数値に置き換え。例えば sex は male=1とfemale=2など
  • 名前など分析対象外のものは列ごと削除

上記をまとめて対応したスクリプトです。

sed 's/"\([^"]*\)"/"pname"/' train.csv | cut -d, -f1,2,3,5,6,7,8,10,12 | sed '/,,/d' | sed 's/female/2/' | sed 's/male/1/' | sed 's/C/1/' | sed 's/Q/2/' | sed 's/S/3/' > train_noname.csv

train_noname.csvを読み込めると、ヒストグラムが表示されます。
「計算に使う」はターゲットデータであるSurvived以外にチェック、「色に使う」は全選択します。

Screen Shot 2018-04-07 at 13.12.05.png

分析結果

まずは一般的な主成分分析し、散布図で表示、色はSurvivedかどうかを見てみます。
何となく、生存者かどうか、傾向は見えるように思います。

Screen Shot 2018-04-07 at 13.21.32.png

次に分析モードだけをTDAに変えて、散布図と比較して見たところです。
図はカッコいいのですが、どう見ればいいのかな?
Screen Shot 2018-04-07 at 13.23.05.png

終わりに

正直なところ、どう読み取るべきか、いまひとつ分かりません。
TDA 自体を理解する必要があるようです。

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2