はじめに
Oracle Analytics Cloud(OAC)のセルフサービスBI機能と、政府統計のポータルサイト「e-Stat」で公開されているデータを使用して分析をしてみます。
e-Statからは
- 都道府県別空き家数データ
- 都道府県別高齢者数データ
を取得します。OACのデータフローで両者を結合したデータセットを作成し、分析をしてみます。
都道府県別空き家数データは、こちらの記事を参考にe-Statから取得してください。
Oracle Analtyics Cloud:オーバーレイ・チャートを使ってみる
1. 都道府県別高齢者数データを取得
人口推計 平成30年10月1日現在人口推計を取得したいと思います。
1.1 表示項目を設定
「表示項目選択」をクリックします。
「男女別」の「項目を選択」をクリックします。
「男女計」のみチェックして、「確定」をクリックします。
「年齢3区分」の「項目を選択」をクリックします。
「総数」と「65歳以上」のみチェックして、「確定」をクリックします。
「全国・都道府県」の「項目を選択」をクリックします。
「全国」のチェックを外し、「確定」をクリックします。
「確定」をクリックします。
1.2 ダウンロードする
「ダウンロード」をクリックします。
ダウンロード設定を次のように選択します。
設定項目 | 設定値 |
---|---|
ダウンロード範囲 | 表示中のページ |
ファイル形式 | XLSX形式 |
コードの出力 | 出力しない |
階層コードの出力 | 出力しない |
凡例の出力 | 出力しない |
「桁区切り(,)を使用しない」を選択し、「ダウンロード」をクリックします。
もう一度、「ダウンロード」をクリックします。
1.3 データを微修正する
ダウンロードしたファイルをExcelで読み込みます。
先頭の10行は不要なので削除します。
C列とD列のデータセルを選択し、「数値に変換する」をクリックします。
上書き保存します。
2. OACにデータをアップロード
ひとつめのデータセットとして、Oracle Analtyics Cloud:オーバーレイ・チャートを使ってみるの内容に従って、「空き家統計」データセットがアップロードされているものとします。
ふたつめのデータセットとして、e-StatからダウンロードしたデータをOACにアップロードします。
OACにログインし、「作成」メニューから「データセット」を選択します。
先程修正して上書き保存したExcelファイルをドラッグ&ドロップするか、クリックして指定します。
確認して「OK」をクリックします。
「保存」アイコンをクリックします。
データセット名を「人口推計」にして「OK」をクリックします。
「戻る」をクリックしてOACのホームに戻ります。
3. データフローの作成
3.1 「空き家統計」をデータフローに追加
3.1.1 列の選択
3.1.2 フィルタを追加
ステップを追加するために「空き家統計」の右にある「+」をクリックします。
「フィルタ」を選択します。
「フィルタの追加」をクリックします。
「調査年」をクリックします。
「2018年度」のみを選択します。
3.1.3 列を追加(空き家率)
「フィルタ」の「+」をクリックします。
「列の追加」をクリックします。
列の名前を「新規列1」から「空き家率」に変更します。
式として「H110」と入力すると、データセットの「H110」から始まる列名がリストされます。
「H110202_空き家数【戸】」を選択します。
割り算の記号「/」を入力した後、同じ要領で「H110」と入力し表示されたリストから「H1100_総住宅数【戸】」を選択します。
「検証」をクリックして、式に間違いがないか確認できたら「適用」をクリックします。
式を追加できました。
3.2 「人口推計」をデータフローに追加
「列の追加」の右の「+」をクリックしてステップを追加します。
「データの追加」を選択します。
「人口推計」を選択して「追加」をクリックします。
3.2.1 データセットの結合
自動的に2つのデータセットが結合されましたが、残念ながら間違っているので修正します。
「地域」と「全国・都道府県」で結合するように変更します。
プレビューを見ると、正しく結合されているのがわかります。
分析に使わない列が含まれているので、これは削除しておきましょう。
また、「高齢化率」という列を追加します。
3.2.2 列の選択
「人口推計」をクリックして選択します。不要な列「/年齢3区分」のチェックを外します。
3.2.3 列を追加(高齢化率)
「人口推計」から伸びている線上にマウスポインタをあわせると、「人口推計」の右にステップを追加するための「+」が表示されますので、クリックします。
「列の追加」を選択します。
名前を「新規列1」から「高齢化率」に変更します。
式として「65」と入力すると候補として「65歳以上」がリストされるので選択します。
「/」を入力後、一文字目の「総」と入力すると表示される候補から「総数」を選択します。
「検証」して「適用」します。
3.3 データセットを保存
「結合」ステップの右の「+」をクリックし、「データの保存」を選択します。
保存するデータセット名を「空き家率_高齢化率分析」とします。
「空き家率」と「高齢化率」の集計方法は、いずれも「平均」とします。
「保存」アイコンをクリックして、データフローを保存します。
3.4 データフローを実行
定義したデータフローを実行します。
しばらく待つと完了します。
データメニューからも実行できます。
作成したデータフローを右クリックして「実行」をクリックします。
実行完了後は、設定した名前でデータセットとして保存されているのがわかります。
4. ワークブックで分析
データメニューから「空き家率_高齢化率分析」データセットをクリックし、新規ワークブックを作成します。
4.1 散布図の作成
コントロールキーを押しながら「地域」「空き家率」「高齢化率」の3つを選択し、右のキャンバスまでドラッグ&ドロップします。
自動的に散布図が作成されます。(選択した項目の数や種類によって初期表示されるグラフは変わります)
これを見る限り、高齢化率と空き家率には関連がありそうです。
(高齢化率が高くなると空き家率も高くなる)
4.2 ラベルの表示
散布図のプロパティを変更します。
データラベルの位置をデフォルトの「オフ」から「自動」に変更します。
散布図にラベル(都道府県名)が表示されます。