公立学校の基礎情報はたいてい管理自治体のウェブサイトで公開されています。ここでは南房総市の小学校一覧を例にOpenRefineを使ってインポートしてみます。
1 OpenRefineの概要とインストール
機械可読なCSVデータといえども、データ量が増えるにつれて表記の揺れや数値単位の混在など、首尾一貫性の無い値が含まれることがよくあります。OpenRefineはこうした「乱雑な」データを整形したり、異常値を検出したりして、有意な統計解析などを行う前処理としてのデータクレンジングを行うツールです。
表記揺れの中には、スペースを除去したり、文字を補ったりする単純な文字列操作だけでは補正しきれず、マスターデータ的な原本に当たって正しいとされる名前を参照しなければならないものもあります。原本側で参照用のエンドポイントを公開しているものであれば、こうした照合(reconcile)作業もOpenRefineで行うことができます。中でもウィキデータは照合先としてだけではなくデータの登録先としても使用することができます。
インストールは非常に簡単でJREとOpenRefineをインストールするだけです。インストールのやり方はこちらの記事などを参照してください。
実行ファイルを開くとブラウザ上でOpenRefineが立ち上がります。
言語は初期値として英語が設定されているので、まずこれ(Language settings)を日本語にしてひとまず準備完了です。
(2019/11/30時点で最新のOpenRefine3.3betaではアプリを終了すると言語設定が保存されず初期値に戻ってしまうので、起動の都度言語を日本語に設定し直す必要があります)
2 南房総市のウェブサイトに掲載されている小学校一覧
3 前処理
3.1 貼り付け
上記南房総市ウェブサイトの掲載内容をコピーしていったんGoogle spread sheetに貼り付けます。
OpenRefine上での編集が難しい内容などはここで前処理を行います。
3.2 URL抽出
学校名称から張られているリンクを抽出して別カラム(学校URL)に貼り付けます。
手作業(右クリック)で個々に取り出すこともできますが、件数が多くなると対応しきれなくなるので、こちらで提供されているExcelマクロを使って抽出します。(他にやり方があればそちらでどうぞ)。
4 OpenRefine上での編集
4.1 プロジェクトの作成
上記3.2の結果をコピーしてOpenRefineに貼り付けで「次へ」「プロジェクトを作成」。
4.2 名称
名称はきっちり揃っているのでそのまま6で使います。
「南房総市」を外した名称で、略称というカラムを作り、6で使います。名称欄の▼より「カラム編集」>「このカラムに基づいてカラムを追加」
編集スクリプトの記述画面が現れます。
「略称」というカラム名をGRELでスクリプトを書いて作成します。value内に基にしたカラムの値が入っています。
substring(value,3)
4.3 所在
先頭に「千葉県」を補います。ここではカラムを追加せずに直接上書き編集します。
所在欄の▼>「セル編集」>「変換」
"千葉県"+value
先頭に「千葉県」が追加されました。
4.4 座標
所在をもとに「CSISシンプルジオコーディング実験」のAPIで座標値を取得します。
所在欄▼>「カラム編集」>「URLでカラムを追加...」
カラム名「座標」。フェッチ間隔の遅延:1000ミリ秒。
"http://geocode.csis.u-tokyo.ac.jp/cgi-bin/simple_geocode.cgi?addr="+value
座標値が取得できた。
なお「CSISシンプルジオコーディング実験」は実験の位置付けで、位置がややずれている場合もありますのでご注意ください。
4.5 座標値
「座標」欄の▼>「カラム編集」>「このカラムに基づいてカラムを変換」
value.parseXml().select("latitude")[0].xmlText()+", "+value.parseXml().select("longitude")[0].xmlText()
緯度経度だけを取り出して座標値欄に出力できました。
4.6 問い合わせ
国際電話番号表記に合わせて整形します。
"+81-"+substring(value,1,4)+"-"+substring(value,5,7)+"-"+substring(value,8,12)
5 ウィキデータ照合
5.1 項目有無の確認
ウィキデータに登録する際には同じ項目を重複作成しないように気をつける必要があります。ラベルに相当する値でウィキデータ照合を行うことで、既存項目があればそのQ番号と紐付け、無ければ新規項目の印を付けることができます。
名称欄▼で「照合(名寄せ)」>「照合(reconcile)を開始」
「サービスを追加」で以下のウィキデータ日本語のサービスURLを設定
https://tools.wmflabs.org/openrefine-wikidata/ja/api
https://wdreconcile.toolforge.org/ja/api
(2020/7/11変更)
Wikidata(ja)を選択
ここでは照合対象をクラスなどで絞り込めるのですが、どういうクラスで登録されているか分からない場合は、クラスを決めずにウィキデータ全体を検索します。名称だけで一致する候補をピックアップするので、いちばん似ているものだけを表示するために照合候補の最大件数を1件として「照合を開始」。
同一のものを指す名称(ラベル)を持つウィキデータ項目があれば名称欄からQ番号にリンクが張られて青字になるのですが、今回は全て新規項目なので「新しい項目を作成」を選びます。チェックがひとつのボックスを選ぶとその行だけ、チェックがふたつのボックスを選ぶと以下の行に同じ名称があれば同様の選択が自動的に行われます。照合し直したい場合は青字の「マッチを検索」を選びます。ここではチェックがひとつのボックスを選んでひとつずつ確認します。
6件全てに「New」と表示され、新規項目とみなされました。
5.2 基本的なプロパティを設定
小学校というクラスでよく使われているプロパティを
Wikidata Class Browserで探してみます。
国、位置する行政区画、所在地などがよく使われているようです。ここではまだカラムが無いもののうち値が明らかな「国」「位置する行政区画」「分類」を設定します。
OpenRefineでは単純にカラムを追加する機能が無いので、名称欄に基づいて各カラムを作成する操作を行います。
「位置する行政区画」「分類」も同様に追加します。なお、「分類」の値は「小学校(Q9842)」でも正しいのですが、より詳細なサブクラス「日本の小学校(Q5358913)」があるので、ここではそちらを使います。
3つのカラムと各行の値を追加できました。
5.3 項目型の値にQ番号を紐付ける
プロパティの値が項目型である場合にはウィキデータにアップロードする前にQ番号と紐付けておく必要があります。追加した3つのカラムでその操作を行います。
以下同様にして3つのカラムをQ番号と紐付けました。(青字になっています)
5.4 説明
6 ウィキデータのスキーマ作成
表形式で整形したデータをウィキデータにアップロードするにはウィキデータの構造(スキーマ)を定義する必要があります。
準備したカラムが上部に表示されます。各カラムをウィキデータのラベル、説明、別名、プロパティ、プロパティ値などに紐付けます。修飾子や出典もここで設定できます。
6.1 用語(Term):見出し部
「項目追加」でラベル、説明、別名を登録します。上段にある事前に作成したカラム名から「名称」をドラッグしてスキーマの「項目を入力」欄にドロップします。
次に「Term追加」で「用語(Term)」の下の「別名▼」のところで「ラベル」「説明」「別名」をそれぞれ1行ずつ登録します。その際「lang」には「ja」を手入力し、その右側の空欄には値、すなわち上段カラムより「名称」「説明」「略称」をそれぞれドラッグ&ドロップします。すると以下のようになります。
6.2 ステートメント:詳細部(文)
ウィキデータの登録画面とよく似た画面で、プロパティ-値の文、修飾子、出典などを追記して行きます。値が入る欄には事前に準備した上部のカラムか、文字列を直接入力します。
まずプロパティ欄にはウィキデータ入力画面と同様に、プロパティのラベルを手入力し、表示された候補リストより対象を選びます。
次にその値が入っているカラム「分類」を上段よりドラッグ&ドロップします。
以下同様にして、上段カラムの値を代入する場合はドラッグ&ドロップで、文字列を直接入力する場合は値の欄に直接手入力します。
6.3 エラー確認
致命的なエラーがある場合は該当箇所が赤くなり次に進めません。赤い箇所が無ければ上段の「項目」タブを選んで警告エラーが出ている場合はその内容を確認します。
無視して進んでも問題無い内容であることを確認し、問題があれば「スキーマ」タブに戻って修正します。
「プレビュー」タブを選ぶと、項目を登録するイメージが確認できます。
7 ウィキデータへアップロード
画面右上で「Wikidataへアップロード」を選んでアップロードします。
ウィキデータにログインしていない場合はログイン要求が来るのでログインします。
左下「編集サマリー」欄に編集の概要(南房総市の小学校を登録)を入力して「編集項目のアップロード」
画面上部に登録処理の進捗率が表示され、100%になったらウィキデータへの登録完了です。
更新状況はウィキデータ画面右上の「投稿記録」より確認できます。
OpenRefineによるウィキデータ照合・アップロードに関する詳細はWikidata:Tools/OpenRefineや@yayamamoさんの「OpenRefineを用いてWikidataの項目と照合する」もご参照ください。編集スクリプト「GREL」のチュートリアルはこちらです。