はじめに
日本政府観光局の訪日外客数データを使って Power BI Desktop でレポートを作成していく方法を「データクレンジング 編」と「データ可視化 基本編」「データ可視化 中級編」「データ可視化 上級編」の4つに分けて記事を書きました
大変ありがたいことに、本シリーズをPower BI ワークショップや自習用コンテンツとして、たくさんの方にご利用頂いております
中級編以降のコンテンツ充実の声もあり、この度「データ可視化 中級編」を大幅に見直してリニューアルしました✨
本記事は、「✨データ可視化 中級編【改訂版】✨」です
「データ可視化 基本編」で作成したレポートをベースに、さらに他外部データと紐づけてレポート作成していき、可視化したグラフ結果からインサイトを得ていくという実践的な流れになっています
データクレンジング、可視化ともに 現場課題あるあるテクニックを盛り込んだ内容になっています
本編の前提となる「データ可視化 基本編」はこちらです↓
もし、本記事「データ可視化 中級編【改訂版】」から体験したいという場合は、
下記のGitHubからコンテンツをローカルPC にダウンロードし、Zip展開して、「データ可視化 基本編」の完成見本の「F-data_report_sample_2.pbix」をベースに本章をはじめて下さい
レポート作成の流れ
- 各国情報の作成
1-1. 各国人口データの取り込みとクレンジング
1-2. 東京から各国の首都までの距離一覧の取り込みとクレンジングとマージ
1-3. 国別通貨コードの取り込みとクレンジングとマージ
1-4. 1-1~3を省略したい人用:各国情報の取込 - 各国情報のレポートデータ取込と国マスタとのリレーション設定
- 訪日外客数の人口比ランキングの確認 💹
- 外国為替ヒストリカルデータの取り込みとクレンジング
- テーブルリレーション設定
5-1. [通貨] テーブル作成と [各国情報] と [外国為替ヒストリカルデータ] のリレーション設定
5-2. [年月カレンダー] 作成と [訪日外客数] と [外国為替ヒストリカルデータ] のリレーション設定
5-3. [年月]スライサーを[年月カレンダー]の[年月]に変更 - 為替レートと訪日外客数の相関確認 💹
- コロナ前後の訪日外客数伸び率の確認 💹
本編で学べること
学びポイント
✔ マスタとなる項目値の表記ゆれ補正等、データクレンジングの重要性 ⇒ 1, 4 章
✔ Power BI のデータモデルの基本であるスタースキーマ構成と、多対多のリレーション対処法 ⇒ 2, 5 章
✔ メジャー項目を活用した高度なデータ可視化 ⇒ 3, 6, 7 章
✔ ビジュアルの協調表示とフィルターの相互作用の使い分けと制御方法 ⇒ 7 章
✔ Microsoft Copilot (生成AI) を活用した DAX 式や可視化実装の生産性向上 ⇒ 6, 7 章
追加テーブルとリレーションイメージ
先に完成イメージを見ておいた方が、手順内容が理解できると思うので、先に説明します
・紫枠がファクトテーブル(実績データ)、オレンジ枠がディメンションテーブル(属性・マスタ)
・ファクトテーブルの [訪日外客数] [外国為替ヒストリカルデータ] を中心に、
データ分析の切り口となるディメンションテーブル [国マスタ] [各国情報] [通貨] [年月カレンダー] を周囲に配置する、
いわゆる「スタースキーマ」構成が Power BI の データモデルの基本である
・[各国情報] は 3つのデータソースから作成し、合体させたテーブルのみをレポートデータとして使用する
それでは、「データ可視化 基本編」で作成したpbix ファイルを使って、レポートを作成していきましょう!
1. 各国情報の作成
3つのWebデータソースを取り込んで、人口、東京からの距離、通貨の情報を持つ各国情報テーブルを作成したいと思います
3つのデータソースの表記ゆれを補正しながら合体させていく工程は、
業務現場にありがちな課題であり、即戦力となる技術なので是非泥臭く体験頂きたいですが、
1-1~1-3 を省略して、各国情報データの取込からスタートもできるように 1-4.各国情報の取込 も用意しています
時間の関係で1-1~1-3 をスキップしたい方は、1-4 からスタートして下さい
データソース紹介
① 各国人口データのデータソース
「世界人口ランキング・国別順位(2023年版)」のデータをデータソースとして取り込みたいと思います
ただし、このデータだと台湾の人口が中国に含まれてしまっているので、「中華民国の人口統計」のWikipediaの情報を元に編集を加えます
② 東京から世界各国の首都までの距離一覧
③ 国別通貨コード
各国の通貨が一覧化されており、外国為替ヒストリカルデータとの結合キーとして必要なので取り込みます
1-1. 各国人口データの取り込みとクレンジング
① データを取得 > Web > URL で下記 URLを指定
https://memorva.jp/ranking/unfpa/who_whs_population.php
② ナビゲーター画面でHTMLの [テーブル1] を選択し、右側のビューでデータ内容を確認し、「データの変換」を選択
④ [順位] [男性の人口] [女性の人口] 列を削除
⑤ [国名・地域名] を [国名] に名前変更
⑥ データの入力で、「中華民国の人口統計」のWikipediaの情報を元に台湾の人口(百万人単位)と人口変動率の列と、中国人口から台湾人口を引いて新しく中国の人口データを追加する
・台湾人口(Wikipediaの情報): 2,339 万人
・中国人口: 1,425,894 千人 - 23,390 千人 = 1,402,504 千人
テーブル名は、 [台湾中国人口データ] に変更して、「OK」をクリック
⑦ [台湾中国人口データ] の列名を[各国人口データ] の列名に合わせて変更
⑧ クエリペイン > [各国人口データ] を選択し、[国名] 列の右側の下矢印をクリックし、「全世界合計」「中国」のチェックを外して除外
⑨ クエリペイン > [各国人口データ] を選択し、「クエリの追加」 を選択し、追加するテーブル:[台湾人口データ] を選択
⑩ 列の追加 > カスタム列 で以下列を追加
列名:[総人口]、カスタム列の式: [#"総人口(×1000人)"] * 1000
データ型を10進数に変更
1-2. 東京から各国の首都までの距離一覧の取り込みとクレンジングとマージ
① 新しいソース > Web > URL で下記 URLを指定
https://rinist.me/entry/819/
② ナビゲーター画面でHTMLのテーブルの [東京からの直線距離一覧] を選択し、右側のビューでデータ内容を確認し、「OK」を選択
③ [1行目をヘッダーとして使用] をクリック
④ [距離] 列を選択して右クリック > 「値の変換」 で、検索する値:「 km」⇒置換後:(指定なし)で、 「 km」という文字列を削除(km の前の半角ブランクも一緒に削除)
データ型を10進数に変更
⑤ [東京からの直線距離一覧]に香港とマカオのデータが入っていないため、
データの入力で、香港とマカオの距離データを追加する
・日本, 東京, 0
・香港, , 2786
・マカオ, , 2844
⑥ テーブル名は、 [東京からの直線距離一覧_香港マカオ] に変更し、列名を [東京からの直線距離一覧] の列名に合わせて [国名] [首都] [距離] 変更
⑦ クエリペイン > [東京からの直線距離一覧] を選択し、「クエリの追加」で 追加するテーブル: [東京からの直線距離一覧_香港マカオ] を選択
⑧ クエリペイン > [東京からの直線距離一覧] を選択し、[国名]列を選択して右クリック > 「値の変換」で、以下の値を変更する
※各国人口データにマージするために国名を合わせておく
・イギリス(英国) ⇒ イギリス
・アメリカ(米国) ⇒ アメリカ
⑨ クエリペイン > [各国人口データ] を選択し、「クエリのマージ」 > 「新規としてクエリをマージ」で
2つ目のテーブルは [東京からの直線距離一覧] を選択し、両方のテーブルの [国名] 列を選択してマージ列に指定し「OK」を選択
⑩ [東京からの直線距離一覧] 列の右の「展開」ボタンをクリックし、展開後の採用したい項目のみに✅を入れる
ここでは、「首都」「距離」のみ選択し、「元の列名のプレフィックスとして使用します」のチェックを外す
(これに✅すると、「東京からの直線距離一覧.首都」のようにテーブル名が名前に入ってしまうため)
1-3. 国別通貨コードの取り込みとクレンジングとマージ
① 新しいソース > Web > URL で下記 URLを指定
https://www.iban.jp/currency-codes
② ナビゲーター画面でHTMLのテーブルの [テーブル1] を選択し、右側のビューでデータ内容を確認し、「OK」を選択
③ プロパティで [国別通貨コード] に名前変更
④ [国] 列を選択し、右クリック「値の置換」で [各国情報] に合わせて値を変更
・アメリカ合衆国(THE)⇒アメリカ
・イギリスと北アイルランド(THE)のイギリス⇒イギリス
・大韓民国⇒韓国
・ロシア連邦(THE)⇒ロシア
・台湾(中国の地域)⇒台湾
・(THE)⇒なし
⑤ 同国で複数通貨の行が存在するため、[国] 列を選択し、右クリック「重複の削除」で重複行を削除する
(同国が2行存在した場合に、最初の行を残し、後続行が削除される)
⑥ クエリペイン > [各国情報] を選択し、「クエリのマージ」を選択し
2つ目のテーブルは [国別通貨コード] を選択し、両方のテーブルの [国名] [国] 列を選択してマージ列に指定し「OK」を選択
⑦ [各国通貨コード] 列の右の「展開」ボタンをクリックし、[通貨] 項目のみに✅を入れる
⑧ [国名] 列を選択し、右クリック「重複する列」で列のコピーを作成し、「名前の変更」で [国名_結合用] に変更
⑨ [国名_結合用] 列を選択し、右クリック「値の置換」で [国マスタ] と結合できるように以下の値を変更する
・アメリカ⇒米国
・イギリス⇒英国
・オーストラリア⇒豪州
データ分析においては、他テーブルとリレーションをはって同軸(例:国名)で値を集計したり、同グラフに表示させたりするために、結合キー項目となる値の表記をあわせたり、マッピングテーブルを作成し、各テーブルの表記ゆれを調整統一することが大事なポイント
1-4. 1-1~3を省略したい人用:各国情報の取込
1-1~1-3 工程を省略して、完成版の各国情報を取込ところからスタートする方向けの章です
1-1~1-3 工程を実施した方は、本章はスキップして下さい
下記のGitHubからコンテンツをローカルPC にダウンロードし、Zip展開し、
data > country_info.csv (各国情報データ) を手元にご用意下さい
① データを取得 > テキスト/CSV を選択し、ダウンロードした country_info.csv を指定
② ナビゲーター画面でデータ内容を確認し、「データの変換」を選択
③ プロパティで [各国人口データ] に名前変更
2章 の ② へ進む
2. 各国情報のレポートデータ取込と国マスタとのリレーション設定
クエリペイン に表示されるデータは、初期設定では全てレポートデータとして読み込まれる設定となっているが、[各国情報]を構成する以下データは、右クリック「読み込みを有効にする」を Offすることでレポートデータ更新としては使用されるが、レポートデータとしては読み込まないようにできる
・各国人口データ
・台湾中国人口データ
・東京からの直線距離一覧
・東京からの直線距離一覧_香港マカオ
・国別通貨コード
①レポートデータとして読み込みたくないデータを右クリック「読み込みを有効にする」を Off
②「閉じて適用」で Power BI Desktop 画面に戻り、右のデータペインに [各国情報] だけが追加されたことを確認する
③ 左の「モデルビュー」を開き、
[国マスタ].[国名] をクリックし、 [各国情報].[国名_結合用] にドラック&ドロップしてリレーションを設定
3. 訪日外客数の人口比ランキングの確認 💹
各国の人口はかなりちがうので、訪日外客数だけでなく人口比で見ることにより、
各国の訪日度=親日度がわかるのではないかという発想で、人口比で見てみたいと思います
[各国情報]を可視化してみる
まずは、[各国人口データ]で総人口ランキングや構成比を確認してみましょう
① 別ページから複製して新しいページ作成、上部分のスライサー以外のビジュアルは削除
② ビジュアル > テーブル、列:[各国情報]の[国名][総人口][総人口構成比%]
(構成比%の設定方法は、フィールドから[総人口]をもうひとつ列に選択し、右の下矢印をクリック > 値の表示方法 > 統計パーセントを選択)
③ [総人口]をクリックして降順に並び替え、総人口ランキングを確認
④ その他、「ドーナツグラフ」「マップ」等のビジュアルで[各国人口データ]を可視化してみる
可視化からの考察
✔ 中国、インドの人口はダントツ高い、この2国で世界の1/3の人口を占めている
✔ 日本は11位、意外と上位
訪日外客数の人口比ランキング
① [各国人口] ページから複製して新しいページ作成、上部分のスライサーと「総人口ランキングテーブル」以外のビジュアルは削除
② フィールドの[訪日外客数]を選択し、新しいメジャーを選択(右クリック またはテーブルツールタブから)
③ 数式バーに以下入力し、書式を%にする
人口比 = DIVIDE(SUM('訪日外客数'[人数]), SUM('各国情報'[総人口]))
④ 新しいビジュアルを追加、ビジュアル > テーブル、列に以下を選択
・[国マスタ]の[国名]
・[訪日外客数]の[人数]
・メジャーの[人口比]
・[各国情報]の[総人口]
⑤ [人口比]の降順に並べ替え
⑥ 隣に同テーブルビジュアルをコピペし、[人数]の降順に並べ替え
⑦ わかりやすく[人口比ランキング]のメジャー項目も作ってみる
人口比ランキング = RANKX(ALL('国マスタ'[国名]),CALCULATE('訪日外客数'[人口比]),,DESC)
可視化からの考察
✔ 訪日外客数累計を各国人口で割った人口比でランキングすると、香港、台湾、韓国は各国人口を上回る人数が訪日していることがわかる(リピート訪日人数が多いと推測できる)
✔ 訪日外客数ランキングでは上位 2 位の 中国は、人口比だと 24 位、米国も訪日外客数では 4 位だが人口比では 16 位以下と低い
✔ 近隣アジア 4 国(韓国、中国、台湾、香港)の訪日外客数が 7 割を占めているが、その中でも人口比でみると中国は 24 位と低い
⇒仮説:中国の人口を考えるとまだまだ中国からの訪日外客数は伸びしろがあると考えられる
4. 外国為替レートヒストリカルデータの取り込みとクレンジング
各国の為替レートと訪日外客数は相関があるのではないか?
近年、訪日外客数が増加しているのは、円安だから観光客としては嬉しいからではないか?という仮説を検証すべく、為替レートを取り込んで比較してみましょう
各国人口データのデータソース
みずほ銀行の外国為替公示相場ヒストリカルデータをデータソースとして取り込みたいと思います
手順
① データを取得 > Web > URL を指定、「データの変換」をクリック
https://www.mizuhobank.co.jp/market/csv/m_quote.csv
② 1行目の通貨名を削除 行の削除 > 上位の行の削除 > 1行目を削除
③ 日付列に [date] に名前変更し、一旦データ型をテキストに変更
④ このデータの日付 [date] が月末日となっているが、[訪日外客数] データは月初日を [年月] としているため、[訪日外客数] データに合わせて [date] から月初日を計算して [年月] を作成
列の追加 > カスタム列 > 以下の式を追加して「OK」クリック、データ型を日付型に変更
Text.Middle([date],0,7) & "/01"
⑤ [年月] を先頭に移動し(列を右クリック > 移動 > 先頭に移動)、[date] 列は削除する
⑥ 通貨列を全て選択肢、右クリック > 値の置換 を選択し、検索する値:「*****」、置換後:(指定なし)
⑦ 同通貨が複数列存在するので、近年のデータが入っている列を優先し、片方は削除する
・インドネシアルピア⇒削除、インドネシアルピア_1 ⇒ ルピアに名前変更
・マレーシアリンギ⇒削除、マレーシアリンギ_3 ⇒ マレーシアリンギットに名前変更
・韓国ウォン⇒削除、韓国ウォン_4 ⇒ ウォンに名前変更
・中華人民元と中華人民元_2 は列を選択し 列の追加 > 列のマージで 結合済みの列を 人民元に名前変更後、元の2列を削除
⑧ 通貨名の表記ゆれを補正、[各国情報]の通貨名に合わせて以下変更
・タイバーツ⇒バーツ
・台湾ドル⇒新台湾ドル
・スウェーデンクローネ⇒スウェーデンクローナ
・南アフリカランド⇒ランド
・ベトナムドン⇒ドン
⑩ 列名を[年月][通貨][通貨為替レート_円]に名前変更、[通貨為替レート_円]のデータ型を10進数に変更
テーブル(クエリ)名を[外国為替ヒストリカルデータ]に変更、「閉じて適用」
5. テーブルリレーション設定
5-1. [通貨] テーブル作成と [各国情報] と [外国為替ヒストリカルデータ] のリレーション設定
[各国情報] と [外国為替ヒストリカルデータ] を [通貨] をキーに直接リレーション設定したいところですが、Power BI でこれをやろうとすると、多対多のリレーションとなり設定できません
マスタとなるテーブルはキー項目がユニークな状態である必要があります
というわけで、まず [外国為替ヒストリカルデータ] の [通貨] からユニークな[通貨] テーブルを作成します
① 左の「モデルビュー」を開き、「新しいテーブル」を選択し、以下の式で [通貨] テーブルを作成
通貨 = distinct('外国為替ヒストリカルデータ'[通貨])
② [各国情報]の[通貨] ⇔ [通貨]の[通貨] ⇔ [外国為替ヒストリカルデータ]の[通貨]でリレーション設定
[各国情報] の [通貨] を選択して、 [通貨]の[通貨]に向かってドラック&ドロップで、[各国情報] と [通貨] テーブルを[通貨]で結合する
このとき、クロスフィルターの方向を双方向に設定する
クロスフィルターの方向は、データのフィルタリング方法を制御する重要な設定である
双方向を乱用するとパフォーマンス劣化に繋がるため、通常は マスタ(ディメンションテーブル)から実績テーブル(ファクトテーブル)への単一方向のフィルターでOK
しかし、今回はディメンションテーブルが多段階にまたがっており、
[各国情報] と [通貨] の間を単一方向とすると 通貨 ⇒ 各国情報 の方向になってしまい、国名でフィルターをかけても通貨のフィルターがかからない現象が起こるため、双方向に設定する
ディメンションテーブルが多段階ある場合には、この設定を注意すること!
[外国為替ヒストリカルデータ] と [通貨]のクロスフィルターは単一方向でOK、ファクトからディメンションへの逆フィルターは不要であり、下手に設定するとパフォーマンス劣化に繋がるため
[外国為替ヒストリカルデータ] と [通貨] も同様に[通貨]で結合する
5-2. [年月カレンダー] 作成と [訪日外客数] と [外国為替ヒストリカルデータ] のリレーション設定
[訪日外客数] と [外国為替ヒストリカルデータ] は[年月]という日付項目を保持しており、同[年月]でフィルターして比較したり集計したりしたいです
そんなときは、独立した[年月]のカレンダーマスタを別に作成し、それをフィルターやグラフ軸に使用することで、同時にフィルターをかけたり、同じグラフにプロットさせたりできます
下記ドキュメントの通り、CALENDAR 関数を使って簡単に日付テーブルを作成することもできますが、
今回は年月単位(各年月1日だけのデータにしたい)のカレンダーマスタがほしいので、[訪日外客数]データに存在する[年月]日付からカレンダーマスタを作成したいと思います
① 「モデルビュー」を開き、「新しいテーブル」を選択し、以下の式で [年月カレンダー] テーブルを作成
年月カレンダー = DISTINCT('訪日外客数'[年月])
③ [年月]の書式を日付形式(例. yyyy年mm月dd日)に変更
④ [訪日外客数]の[年月] ⇔ [年月カレンダー]の[年月] ⇔ [外国為替ヒストリカルデータ]の[年月]でリレーション設定
5-3. [年月]スライサーを[年月カレンダー]の[年月]に変更
① 各ページの上部分の[年月]スライサーを[年月カレンダー]の[年月]に変更
② 視覚化 > ビジュアルの書式設定 > スライサーの設定で「指定の値の間」にすると日付範囲指定がしやすくなる
小技:全ページのスライサーの設定を一気に変更
各ページのスライサーを同期をとる設定にしておくと、1箇所の内容を変更しただけで全ページに反映されて便利
6. 各国為替レートと訪日外客数の相関比確認 💹
① [時系列]ページから複製して新しいページ作成、上部分スライサーと上の折れ線グラフだけ残す
② ビジュアルを「折れ線グラフおよび積み上げ棒グラフ」に変更し、各軸の値を以下に変更
・X軸: [年月カレンダー] の [年月] (右の下矢印を開き、日付の階層から年月に変更)
・列のY軸: [訪日外客数] の [人数]
・線のY軸: [外国為替ヒストリカルデータ] の [通貨為替レート_円]
③ [地域] [国名] スライサーを各国に絞って波形の相関を確認
可視化からの考察
う~ん、為替と訪日外客数、関係あるような無いような...
円安が急激進んでいる昨今は訪日外客数も伸びてるように見えるが、コロナ以前を見ると為替が円高よりでも訪日外客数は増加しているように見える
訪日外客数だと各国数値が異なるので、昨対比(=前年同月比伸率)で比較してみましょう
④ データの[訪日外客数]を選択し、新しいメジャーを選択(右クリック またはテーブルツールタブから)
⑤ 数式バーに以下入力し、書式を%にする
昨対比_訪日外客数 = DIVIDE(SUM('訪日外客数'[人数]), CALCULATE(SUM('訪日外客数'[人数]),DATEADD('年月カレンダー'[年月],-1,YEAR)))
⑥ 上のビジュアルをコピペして、下に張り付けて、「折れ線グラフ」に変更し、各軸の値を以下に変更
⑦ 折れ線のY軸をメジャー項目の[昨対比_訪日外客数] に変更
⑧ コロナ後の [昨対比_訪日外客数] が大きすぎてわかりにくいので、Y軸の範囲を最大値:5(500%)に変更
為替レートも [前年為替変動率] を算出して比較してみましょう
⑨ データの[外国為替ヒストリカルデータ]を選択し、新しいメジャーを選択(右クリック またはテーブルツールタブから)
数式バーに以下入力し、書式を%にする
前年為替変動率 =
VAR CurrentRate = MAX('外国為替ヒストリカルデータ'[通貨為替レート_円])
VAR PreviousYearRate =
CALCULATE(
MAX('外国為替ヒストリカルデータ'[通貨為替レート_円]),
FILTER(
ALL('年月カレンダー'),
'年月カレンダー'[年月] =
DATEADD('年月カレンダー'[年月], -1, YEAR)
)
)
RETURN
IF(
NOT ISBLANK(PreviousYearRate),
(CurrentRate - PreviousYearRate) / PreviousYearRate,
BLANK()
)
⑩ 折れ線の第2Y軸をメジャー項目の[前年為替変動率] に変更
中国
香港
シンガポール
可視化からの考察
✔ コロナ以降は変動が激しすぎてよくわからない、もう少し経過観測しないといけない
✔ 為替と訪日外客数の相関は、コロナ以前は多少相関があるように見える国もあったが、強い相関はなさそう
7. コロナ前後の訪日外客数伸び率の確認 💹
コロナが明けて、最近街中や観光地でインバウンドの方をたくさん見かけることが多くなりましたね
訪日外客数がコロナ前のピークの2019年を上回ったというニュースもやってましたね
でも、コロナ前とインバウンドの方の顔ぶれが少し変わった感じがするのは私だけでしょうか?
コロナ直前は、中国、台湾、香港等、中国語勢(ざっくりですみません)が多かった気がしますが、最近は欧米人や中東の方を以前より見かけるようになった気がしています
この "気がする" をデータドリブンに確認したくなって、このセクションを作りました
ほぼ興味本位ですが、このように気になったことを掘り下げて仮説⇒検証を繰り返すことがデータ分析において大切な姿勢です
さて、コロナ前後の比較はどうするのがいいか、実際にはコロナ禍という空白の時期もありますよね?
コロナ禍は忘れて、コロナ直前とコロナ後の訪日外客数の平均を比較するのがいいかと思います
① [年月カレンダー] に [CovidPeriod] を追加
年月カレンダーに時期条件で期間命名すればいいと思うのだけど、式を考えるのがめんどくさいので Copilotさんに聞いてみました ↓
はいはい、いいですね~
時期は少し調整して、2015年以前、コロナ以前(2015~2019年)、コロナ禍(2020~2023年)、コロナ後(2024年~)として、以下の式を使用して [年月カレンダー] に新しい列を追加します
CovidPeriod =
SWITCH(
TRUE(),
'年月カレンダー'[年月] < DATE(2015, 1, 1), "2015年以前",
'年月カレンダー'[年月] >= DATE(2015, 1, 1) && '年月カレンダー'[年月] <= DATE(2019, 12, 31), "コロナ以前",
'年月カレンダー'[年月] >= DATE(2020, 1, 1) && '年月カレンダー'[年月] <= DATE(2023, 12, 31), "コロナ禍",
'年月カレンダー'[年月] > DATE(2023, 12, 31), "コロナ後"
)
② コロナ前後の平均訪日外客数と、伸び率のメジャー項目を作成
データの[訪日外客数]を選択し、新しいメジャーを選択(右クリック またはテーブルツールタブから)
数式バーに以下入力し、[コロナ前後の訪日外客数伸び率] は書式を%にする
コロナ以前_平均訪日外客数 =
CALCULATE(
AVERAGE('訪日外客数'[人数]),
'年月カレンダー'[CovidPeriod] = "コロナ以前"
)
コロナ後_平均訪日外客数 =
CALCULATE(
AVERAGE('訪日外客数'[人数]),
'年月カレンダー'[CovidPeriod] = "コロナ後"
)
コロナ前後の訪日外客数伸び率 =
DIVIDE(
'訪日外客数'[コロナ後_平均訪日外客数] - '訪日外客数'[コロナ以前_平均訪日外客数],
'訪日外客数'[コロナ以前_平均訪日外客数],
0
)
③ ビジュアル「テーブル」を選択し、列の値は以下を設定
・[各国情報] の [国名]
・[各国情報] の [通貨]
・[訪日外客数] の [コロナ前後の訪日外客数伸び率]
・[訪日外客数] の [コロナ以前_平均訪日外客数]
・[訪日外客数] の [コロナ後_平均訪日外客数]
・[訪日外客数] の [人数]
・[訪日外客数] の [人数](統計のパーセント)
④ [為替レートと訪日外客数]ページから、訪日外客数と為替レートの折れ線棒グラフと通貨カードをコピペして、下に貼る
⑤ テーブルビジュアルの[コロナ前後の訪日外客数伸び率] 項目列をクリックして、降順に並べる
⑥ 気になる国名をクリックして、下のビジュアルで、訪日外客数と為替レートの推移を確認する
下のビジュアルの棒グラフが協調表示モードになっているので、上のビジュアルにフォーカスした状態で、
書式 > 相互作用を構編集 > 制御したいビジュアル=下のビジュアルを「協調表示」から「フィルター」に変更して、相互作用を編集を再度クリックして編集モードを解除する
トルコ
もともと訪日外客数の少ない国ではあるが、コロナ後に200%近く激増している
米国
訪日外客数の構成比は4位の米国が、コロナ後に更に訪日外客数が倍増している
訪日外客数の多い国順に並べると(人数構成比%の降順に並べると)
中国
可視化からの考察
✔ コロナ後のトルコからの訪日外客数の伸び率が200%近く激増、トルコリラの為替レートは円高にも関わらず。。
この背景には、フライト増便やビザ緩和等の影響がありそう、伸び率2位のメキシコも同様
⇒為替レートや距離よりも、日本直行フライト数やビザが訪日外客数に大きく影響しそう
✔ 訪日外客数の 7 割を占める近隣アジア各国もコロナ後伸びてはいるが、他国と比べると伸び率は低い、特に コロナ直前では1位だった中国は伸び率マイナス、コロナ以前には戻っていない
✔ コロナ後の訪日外客数伸び率の高い地域は、オセアニア、北米、南米で、100%=2倍近く増加
⇒ 欧米人が増えている "気がする" はデータでも実証された
さいごに
他データと紐づけて色々な切り口でデータ可視化をしてみると、新たなインサイトが得られますね
訪日外客数の目的や日本国内での流動等のデータとも紐づけてみてみると面白いかもしれないと、次々興味が湧いてきますね
データ可視化からインサイトを得ていくためには、具体的に考察を整理して、考察した仮説を確認していくように様々な切り口で可視化⇒仮説⇒可視化を繰り返し掘り下げていくことです
追伸:
3回で終わる予定だったのですが、国交省サイトから訪日外国人の日本国内流動データを見つけて、今まで作成したレポートと紐づけて見てみたい欲が出まして、続きの記事「データ可視化 上級編」を書きました
よろしければトライしてみて下さい