はじめに
データの分析を行う方法のひとつとしてBIツールの使用が挙げられます。ただ、BIツールという言葉は聞いたことがあるけど実際に使ったことがなかったので、BIツールのTableauを使ってみることにしました。
今回は、以前スクレイピングで取得したsuumoの賃貸情報を用いてTableauを動かしていきたいと思います。この記事は、そのアウトプットを目的として作成しました。
Tableau Publicを用いて分析を行っていきます。[Tableau Publicダウンロードページ]
※注意
Tableau Publicでは作成したグラフを保存するとオンライン上で公開されてしまうので機密情報や個人情報を扱うのは避けた方がいいかと思います。
目次
・分析の目的
・分析の前に(前処理)
・用意したデータの説明
・データへ接続
・データのユニオン
・ワークシートでグラフを作成
・まとめ
・参考
分析の目的
今回は2つの駅周辺の平均賃貸価格を比較していきたいと思います。一つ目は以前スクレイピングで取得した押上駅周辺の賃貸情報です。もう一つは埼玉県の川口駅周辺の賃貸価格情報です。川口駅周辺の賃貸情報も押上駅周辺の賃貸情報と同様にsuumoのサイトをスクレイピングして手に入れました。
分析の前に(前処理)
前回の記事の最後にも記載しましたが、スクレイピングしたままのデータでは数値データに文字列が含まれていたり、複数のデータが一つのフィールドに入っていたりとそのままでは分析に使うことができない状態になっています。特に前回のコードでのスクレイピングは大雑把にデータを取得しているのでかなり汚いデータとなっています。
例えばsikikinreikinカラムを見ると次のようなデータが入っています。
ご覧の通り一つのフィールドに複数のデータが入っており、必要のない文字列が入っていたりします。
詳しくは省略しますが、こういったデータはデータはpythonのsplitやreplaceを使って複数のカラムに分けたり、不要な文字列を削除したりしました。
用意したデータの説明
今回用意したデータの説明は次のとおりです。今回の記事で使用するもののみを記載しています。
price…賃貸価格(万円)
bus…最寄駅までの移動手段がバスかどうか(ダミー変数)
car…最寄駅までの移動手段が車かどうか(ダミー変数)
walk…最寄駅までの移動手段が徒歩かどうか(ダミー変数)
station…駅名
データへ接続
Tableauから前処理したcsvファイルに接続します。
Tableau Publicを起動すると最初に下の図の右のような画面が開きます。そこから「テキストファイル」をクリックし先ほど作成したcsvファイルを選択します。(まずは押上のデータを選択しました。)
データのユニオン
次に押上のデータと川口のデータを縦に結合します。
データに接続すると次のような画面が表示されます。
ここで、画面の左側のファイルという欄に注目してください。
Tableauでcsvファイルを開くと同じディレクトリに存在するcsvファイルもここに表示されます。ここから川口のデータを図の赤矢印で示したsuumo_oshiage.csvの真下へドラッグ&ドロップします。こうすることで二つのデータを縦に結合することができます。
ワークシートでグラフを作成
データを結合できたら、左下のシート1をクリックしワークシートの画面に移動します。ここでグラフを作成することができます。
ワークシートの画面の左の方を見るとデータのカラム名が並んでいます(データペインと呼びます)。データペインは上下に分かれており、上の青色のアイコンのカラムが質的データ、下の緑色のアイコンのカラムが量的データとなっています。
上の青いデータをディメンジョン、下の緑のデータをメジャーと呼びます。これらの振り分けはTableauが接続したデータをもとに自動で分別しています。基本的に数値はメジャー、文字列はディメンジョンと振り分けているのでダミー変数で置き換えたデータ(質的変数として扱いたい数値データ)もメジャーへ分類してしまいます。今回の例で言うと「bus」「car」「walk」などがそれに該当します。
グラフを作っていきます。グラフの作成は左のデータペインからカラムを選んでワークシート上部の列、または行の欄にドラッグ&ドロップします。(列にドロップすると横軸にメモリが取られ行にドロップすると縦軸にメモリが取られるという認識で良いかと思います。)
今回は縦軸に値段を取りたいのでデータペインからpriceを行の欄へドラッグ&ドロップします。
すると次のようなグラフが作成されます。

これを見るとpriceの値が約300k(300000)となっています。(元のデータの単位が「万円」なので30億円となります。)この値はpriceの合計値です。このように、デフォルトではデータの集計を合計で行っています。
今回は押上駅周辺と川口駅周辺の賃貸価格の平均を比較したいのでpriceの平均値を集計する必要があります。
集計を平均値に変更するにはデータペインの該当カラムをクリックし▼マークをクリックします。その後、「規定のプロパティ」→「集計」→「平均」と選択することで平均値での集計が行えます。
合計値で集計したpriceは行の欄から外へドラッグ&ドロップすることで削除することができます。その後、平均値で集計したpriceを行にドラッグ&ドロップします。

合計値が平均値に変わったことがわかります。
次に、横軸に駅名のデータを追加します。駅名のデータはstationにあるので、データペインからstationを列の欄にドラッグ&ドロップします。

するとpriceのデータが自動的に押上駅と川口駅に分割されます。
このグラフを見ると川口駅周辺より押上駅周辺の方が賃貸価格が高いことがわかります。
ここまででも押上駅周辺と川口駅周辺の賃貸価格の比較はできますがもう少し深掘りしていきたいと思います。
先ほど作ったグラフから最寄駅までの移動手段が徒歩であるものを抽出します。今回用意したデータではwalkカラムに最寄駅までの移動手段が徒歩かどうかのダミー変数データが入っています。このデータは質的変数として扱いたいのですが、データの中身が数値なのでTableau側でメジャーに分類されてしまっています。
まずはこのデータをディメンジョンに変換します。
ディメンジョンに変換するには変換したいカラムをデータペインから選び、クリック→▼マークをクリック→ディメンジョンに変換をクリックすることで行うことができます。このとき、クリック→▼マークをクリック→データ型の変換で文字列にしておくと文字列に対する関数を使うことができるようになります。
ディメンジョンに移したwalkを列にドラッグ&ドロップするとグラフが次のように変化します。
こうしてみると、押上駅周辺の最寄り駅までの移動手段が徒歩でない物件の賃貸価格は川口駅周辺の賃貸価格とそこまで差がないように見えます。
また、最寄り駅待っでの移動手段が徒歩だけのものを表示させたいときはwalkを列ではなくフィルターにドラッグ&ドロップすることでフィルタリングをかけることができます。
ここまでは棒グラフを作成しましたが、クロス集計表も作ることができます。
priceを列ではなくマークのテキストにドラッグ&ドロップすることでクロス集計表を作ることができます。(画像はwalkを行に持ってきています)
※ 2022年3月7日追記
列に置いたWalkのピルをクリック⇨別名の編集からダミー変数を編集することができます。ダミー変数のままにしておくよりもわかりやすいグラフになると思います。
最後に、作ったグラフ・表はダッシュボードにまとめることができます。
下の新しいダッシュボードをクリックするとダッシュボードを作成する画面に移ります。
左のシートの欄から使いたいシートを画面の中央へドラッグ&ドロップすることで作成したグラフを配置できます。

まとめ
今回はTableauを使ってグラフを作成してみました。個人的にはコードを書かずに直感的な操作でグラフを作ることができるのが便利だと感じました。Tableauを使ったのは初めてだったので、まだ使っていない機能や理解が浅い部分が多々あるかと思います。今後も使いながら勉強していこうと思います。
ちなみに最寄り駅までの移動手段が徒歩であるデータについて
帰無仮説:川口駅周辺と押上駅周辺の平均賃貸価格は等しい
対立仮説:川口駅周辺の平均賃貸価格は押上駅周辺の平均賃貸価格に比べて低い
と言う仮説のもとウェルチのt検定を行ったところ、有意水準5%で帰無仮説が棄却されたので川口駅周辺の方が押上駅周辺よりも平均賃貸価格が低いといって良さそうです。
作成したグラフについて統計学を用いた説明を加えることでより説得力のある資料を作成できると思いました。
追記
最終的に次のようなダッシュボードを作成しました。
参考
Tableauデータ分析 ~入門から実践まで~ 第2版 (著)小野泰輔