[Tableau Tips #1] Advanced Analytics - Tabpy環境構築
でTabpyの環境を構築したので、今回はPythonを使って、データの相関係数をTableau上で計算してみます。
概要
JNTO-日本政府観光局は訪日外国人の統計データを公開しています。データをみると、近年訪日外国人数も増加している傾向で、特に中国、韓国からの訪問者数が2Topになっています。もちろん呼び込み策をいろいろ出していますが、個人的に長期間の円安もその追い風になっているのではないかと思います。
なので、実際訪日者数と円安はどれくらいの相関(因果関係ではない)があるか検証してみます。
データ
分析データ取得先
-
訪日外国人:[統計データ(訪日外国人・出国日本人)]
(https://www.jnto.go.jp/jpn/statistics/visitor_trends/index.html)

から上記のようなExcel(国籍/月別 訪日外客数 (2003年~2018年)(Excel))がダウンロードできます。 -
対人民元レート:CNY JPY 過去データ - Investing.com
-
対韓国ウォンレート:KRW JPY 過去データ - Investing.com
データ加工
ダウンロードした国籍/月別 訪日外客数データはExcelで年別シートで持っていて、かつ月別の横持なので、そのままTableauから読み込んで利用するのが難しいです。
今回はAlteryxというデータプレパレーションツールを使って加工しました。
訪日外客数Excelの複数シートをくっつけるにはDynamic Inputコンポーネントを利用し、その後Transposeコンポーネントで横縦変換し、為替データとJoinしました。
結果以下の赤枠で囲んだデータなような感じに仕上げました。

どうやったか詳細はまた別の機会で。
データOverView
データをTableauに読み込み、まず2010年1月~2018年5月までの各国からの訪日者を集計してみました。
やはり韓国、中国からの訪問者数が群の抜いています。

相関係数
相関係数とは
相関係数はwikiでは以下のように定義しています。データの関連性を示すものと理解しています。

相関係数の値と相関
| 相関係数 r の値 | 相関 |
|---|---|
| -1 ≦ r ≦ -0.7 | 強い負の相関 |
| -0.7 ≦ r ≦ -0.4 | 負の相関 |
| -0.4 ≦ r ≦ -0.2 | 弱い負の相関 |
| -0.2 ≦ r ≦ 0.2 | ほとんど相関がない |
| 0.2 ≦ r ≦ 0.4 | 弱い正の相関 |
| 0.4 ≦ r ≦ 0.7 | 正の相関 |
| 0.7 ≦ r ≦ 1 | 強い正の相関 |
Tabpyで相関係数を計算
Step1:Tableauの新しいワークシートで中国訪日者数の合計を列に、CNY対JPYのレートの平均(月次データ)を行に、散布図をまず作ります。

Step2:データ粒度が月次のため、YMを使って月粒度の散布図にします。


Step3:相関係数の計算フィールドを作成します
SCRIPT関数に、相関係数を算出するPythonを書いて、引数に「訪日者」合計、「CNY対JPY」レートの平均データを渡します。

傾向線をつけて、良い感じの散布図の完成です。

Debugのやり方について
SCRIPT_REAL等のSCRIPT関数を使った外部サービスと接続する際に、Debugが難しくなります。
特に引数のデータ粒度が合わないとすぐエラーが出るので、ここでprintを活用し、どんなデータを渡されたかサーバ側のTabpyのコンソールから出力されます。確認して調整していきましょう。

結果
上の部分にCNY、KRW両方で訪日者数と為替レートの時系列2軸グラフを作成、傾向をみます。
下の部分にそれぞれの相関係数(および散布図)を出して比較しましょう。

時系列2軸グラフを見ると、両国とも近年勢いよく訪日者数が増えていますが、相関係数では0.5前後で円安と正の相関はあるものの、強い相関は見当たりませんでした。
参考
[Tableau Tips #1] Advanced Analytics - Tabpy環境構築
Tabpy - Tableau + Python 連携 を使ってみよう!(その1:Tabpy導入編)
相関係数の意味と求め方 - 公式と計算例
wiki-相関係数