はじめに
データ分析するにあたって、時系列データは重要です。
ところが、元号が含まれている場合、少し困ったことが起こります。
- 並べ替えがうまくできない
平成3年、平成10年、令和元年、令和3年とソートしたいのに、文字コード順だと平成10年、平成3年、令和3年、令和元年になってしまう。 - そもそも「平成27年」とか言われても何年前だか直感的にわからない
これは自分だけかもですが。ちなみに、今年が令和何年だったかは、いちいちネット検索しないとわかりません。
そこで、Oracle Analytics Cloud(OAC)で元号と西暦を変換する手法のひとつを紹介します。
OACのカスタム・ナレッジ
こちらの記事でも紹介しましたが、カスタム・ナレッジを使用します。
カスタム・ナレッジとは、データセットを充実化するための機能です。
データセットの列に特定のデータが現れたら、事前に登録したカスタム・ナレッジに従って、カスタマイズを提案してくれます。
カスタム・ナレッジを使用するには、OAC Enterpriseが必要です。
カスタム・ナレッジを作る
Excelを使って、こんなデータを作りました。
(令和5年、2023まで)
データを作るに当たって、国立公文書館の元号西暦対照表を参考にさせていただきました。
ちなみに、こういう行は2行に分割しています。
こんな感じです。
カスタム・ナレッジの登録
OACに管理者としてログインします。
「コンソール」メニューから「参照ナレッジ」をクリックします。
作成したExcelファイルをドラッグ&ドロップするか、「+」をクリックしてファイルを選択します。
確認して、「OK」をクリックします。
これで準備は終了です。
サンプルとなるデータ
今回は、国土交通省が公表している土地総合情報システムから、不動産取引価格情報をダウンロードして使わせていただきます。
ダウンロードしたのは、2022年第1四半期~2022年第4四半期までの東京都文京区のデータです。
zip圧縮されたCSVファイルとしてダウンロードできました。
文字コードがShift JISだったので、UTF-8に変換しました。
データセットの準備
データセットの作成
ダウンロードしたCSVをデータセットとしてアップロードします。
取引物件の建築年として元号がありました!
ということを確認して、「OK」をクリックします。データセットの名前は、わかりやすいものに変更しておくのが良いかもしれません。
データセットの編集
「データ」メニューの「データセット」タブに移動し、アップロードしたデータセットを右クリックします。
メニューから「開く」をクリックします。
「建築年」列を選択し、右側の「建築年を西暦でエンリッチ」をクリックします。
「建築年」列の右側に「建築年_西暦」列が挿入されました。
データセットを保存します。
続いて、「ワークブックの作成」をクリックします。
ワークブックで可視化表現
「No」列と「建築年_西暦」列をコントロールキーを押しながら同時に選択し、そのままキャンバスにドラッグ&ドロップします。
こんな感じになりました。
「No」列には、各行を識別するためのデータ(連番)が入っていますが、数値データであったので合計するためのメジャー列として定義されてしまっています。
そこで、集計方法を変更します。
「No」列をクリックし、「集計(デフォルト)」-「件数」をクリックします。
列の名前が「COUNT No」となり、棒グラフが再描画されました。
2023年の右の一番高い棒は、建築年が登録されていない物件ですので、これを除外します。
除外したい棒を右クリックし、表示されるメニューの「選択項目の除去」をクリックします。
フィルタが設定され、不要なデータが除外されました。
2022年に東京都文京区で取引された不動産を建築年(西暦)別に棒グラフにできました。