はじめに
データ分析するにあたって、時系列データは重要です。
ところが、元号が含まれている場合、少し困ったことが起こります。
- 並べ替えがうまくできない
平成3年、平成10年、令和元年、令和3年とソートしたいのに、文字コード順だと平成10年、平成3年、令和3年、令和元年になってしまう。 - そもそも「平成27年」とか言われても何年前だか直感的にわからない
これは自分だけかもですが。ちなみに、今年が令和何年だったかは、いちいちネット検索しないとわかりません。
そこで、Oracle Analytics Cloud(OAC)で元号と西暦を変換する手法のひとつを紹介します。
OACのカスタム・ナレッジ
こちらの記事でも紹介しましたが、カスタム・ナレッジを使用します。
カスタム・ナレッジとは、データセットを充実化するための機能です。
データセットの列に特定のデータが現れたら、事前に登録したカスタム・ナレッジに従って、カスタマイズを提案してくれます。
カスタム・ナレッジを使用するには、OAC Enterpriseが必要です。
カスタム・ナレッジを作る
Excelを使って、こんなデータを作りました。
(令和5年、2023まで)

データを作るに当たって、国立公文書館の元号西暦対照表を参考にさせていただきました。
ちなみに、こういう行は2行に分割しています。

こんな感じです。

カスタム・ナレッジの登録
OACに管理者としてログインします。
「コンソール」メニューから「参照ナレッジ」をクリックします。

作成したExcelファイルをドラッグ&ドロップするか、「+」をクリックしてファイルを選択します。

確認して、「OK」をクリックします。

これで準備は終了です。
サンプルとなるデータ
今回は、国土交通省が公表している土地総合情報システムから、不動産取引価格情報をダウンロードして使わせていただきます。
ダウンロードしたのは、2022年第1四半期~2022年第4四半期までの東京都文京区のデータです。
zip圧縮されたCSVファイルとしてダウンロードできました。
文字コードがShift JISだったので、UTF-8に変換しました。
データセットの準備
データセットの作成
ダウンロードしたCSVをデータセットとしてアップロードします。

取引物件の建築年として元号がありました!
ということを確認して、「OK」をクリックします。データセットの名前は、わかりやすいものに変更しておくのが良いかもしれません。
データセットの編集
「データ」メニューの「データセット」タブに移動し、アップロードしたデータセットを右クリックします。
メニューから「開く」をクリックします。

「建築年」列を選択し、右側の「建築年を西暦でエンリッチ」をクリックします。

「建築年」列の右側に「建築年_西暦」列が挿入されました。

データセットを保存します。

続いて、「ワークブックの作成」をクリックします。

ワークブックで可視化表現
「No」列と「建築年_西暦」列をコントロールキーを押しながら同時に選択し、そのままキャンバスにドラッグ&ドロップします。

こんな感じになりました。

「No」列には、各行を識別するためのデータ(連番)が入っていますが、数値データであったので合計するためのメジャー列として定義されてしまっています。
そこで、集計方法を変更します。
「No」列をクリックし、「集計(デフォルト)」-「件数」をクリックします。

列の名前が「COUNT No」となり、棒グラフが再描画されました。

2023年の右の一番高い棒は、建築年が登録されていない物件ですので、これを除外します。
除外したい棒を右クリックし、表示されるメニューの「選択項目の除去」をクリックします。

フィルタが設定され、不要なデータが除外されました。

2022年に東京都文京区で取引された不動産を建築年(西暦)別に棒グラフにできました。