はじめに
人口ピラミッドというものがあります。中央から左右に向けて棒が伸びたグラフです。
このタイプの表現方法は、Oracle Analytics Cloud(OA)では、バタフライグラフとして用意されています。
手に入りやすいデータを使って、バタフライグラフの実例を紹介します。
データの入手
e-Statにアクセスして、令和2年(2020年)の国勢調査のデータをダウンロードします。
使用したのは「男女,年齢(各歳),国籍総数か日本人別人口-全国,都道府県,21大都市,特別区,人口50万以上の市」という統計表です。
CSV形式でダウンロードします。
ダウンロードしたCSVをExcelで読み込んでみました。
1行目とE列は不要なので削除します。
下の方にも不要なデータがありましたので、削除します。
この状態で、CSVとして保存しました。
ExcelからCSVとして保存すると、文字コードがShift JISになってしまったので(Windowsの場合)、OACにアップロードする前にUTF-8にしておきます。
※メモ帳で読み込んで「UTF-8」で保存するなどします。
OACでバタフライグラフを作成
OACにログインします。
データセットの作成
OACの「ホーム」画面にダウンロードし、加工したCSVファイルをドラッグ&ドロップします。
データの内容を確認して「ビジュアル化」ボタンをクリックします。
バタフライグラフの作成
「年齢」「男」「女」をコントロールキーを押しながら同時に選択します。
右クリックして、表示されるメニューから「ビジュアライゼーションの選択」をクリックします。
バタフライを選択します。
できました。
ただ、よく見るとピラミッドの形が変です。
原因は縦軸です。
文字列データである「年齢」の並びが思ったようになっていません。
計算式の追加
文字列データの「歳」より前の部分を数値に変換することで並び順が年齢順になるようにします。
計算を作成します。
式の例です。
cast(SUBSTRING(年齢 FROM 1 locate('歳',年齢)-1) as double)
「カテゴリ (Y軸)」を作成した計算に変更し、ソート基準を「ZからA」にしました。
色を変更する
バタフライグラフのメニューから「色」-「メジャーの色を含める」をクリックします。
完成です。
データがクロス表形式でなかったらどうする?
つまり、こんな形式です。
人口データが男女別に分かれておらず、E列の値によって男性の人口なのか女性の人口なのかを識別します。
リレーショナル・データベースでは、こちらのデータの保持方法がむしろ多いのではないかと思います。
OACにアップロードしてみる
計算に基づく新しい列を追加
作成したデータセットを右クリックし「開く」を選択します。
データセットに新しい列を作成します。
式の例です。
case when 男女='男' then 人口【人】 else null end
「ステップの追加」をクリックします。
同様の方法で、もう一つ列を作成し「女性人口」とします。
作成した2つの列の処理形式を「メジャー」、集計を「合計」として保存します。