More than 5 years have passed since last update.

言語処理100本ノック-60(RedisとPython使用):KVSの構築

Last updated at 2019-03-31Posted at 2019-03-29

言語処理100本ノック 2015の60本目の記録です。
基本的に「素人の言語処理100本ノック」とほぼ同じ内容にしていたので、ブロクに投稿していなかったのですが、「第7章: データベース」のKVSについてはRedisを使ったので記録しておきます。
Reidsを使った理由は、現時点(2019年では)LevelDBより一般的だろうと考えたからです。

「言語処理100本ノック」記録

参考リンク

リンク	備考
書籍「RDB技術者のためのNoSQLガイド」	RDBに浸かっていた私には非常にわかりやすかったです
060.KVSの構築.ipynb	回答プログラムのGitHubリンク
最新RedisのUbuntuへのインストールとPythonで使うまで	インストールについて
【初心者向け】Redisのデータ型とPythonでの使い方サンプル	Redisのデータ型について整理
言語処理100本ノックでPython入門 #60(後編) - RedisでKVSの構築	Redis-pyの回答として参考にしました
素人の言語処理100本ノック:60	言語処理100本ノックで常にお世話になっています

環境

インストールに関しては記事「最新RedisのUbuntuへのインストールとPythonで使うまで」を参照ください。

種類	バージョン	内容
OS	Ubuntu18.04.01 LTS	仮想で動かしています
Redis	5.0.4	2019/3/22時点でStableの最新です
pyenv	1.2.9	複数Python環境を使うことがあるのでpyenv使っています
Python	3.7.2	pyenv上でpython3.7.2を使っていますパッケージはvenvを使って管理しています
reids-py	3.2.1	2019/3/22時点で最新

問題

第7章: データベース

artist.json.gzは，オープンな音楽データベースMusicBrainzの中で，アーティストに関するものをJSON形式に変換し，gzip形式で圧縮したファイルである．このファイルには，1アーティストに関する情報が1行にJSON形式で格納されている．JSON形式の概要は以下の通りである．

フィールド型内容例

id ユニーク識別子整数 20660

gid グローバル識別子文字列 "ecf9f3a3-35e9-4c58-acaa-e707fba45060"

name アーティスト名文字列 "Oasis"

sort_name アーティスト名（辞書順整列用）文字列 "Oasis"

area 活動場所文字列 "United Kingdom"

aliases 別名辞書オブジェクトのリスト

aliases[].name 別名文字列 "オアシス"

aliases[].sort_name 別名（整列用）文字列 "オアシス"

begin 活動開始日辞書

begin.year 活動開始年整数 1991

begin.month 活動開始月整数

begin.date 活動開始日整数

end 活動終了日辞書

end.year 活動終了年整数 2009

end.month 活動終了月整数 8

end.date 活動終了日整数 28

tags タグ辞書オブジェクトのリスト

tags[].count タグ付けされた回数整数 1

tags[].value タグ内容文字列 "rock"

rating レーティング辞書オブジェクト

rating.count レーティングの投票数整数 13

rating.value レーティングの値（平均値）整数 86

artist.json.gzのデータをKey-Value-Store (KVS) およびドキュメント志向型データベースに格納・検索することを考える．KVSとしては，LevelDB，Redis，KyotoCabinet等を用いよ．ドキュメント志向型データベースとして，MongoDBを採用したが，CouchDBやRethinkDB等を用いてもよい．

フィールド	型	内容	例
id	ユニーク識別子	整数	20660
gid	グローバル識別子	文字列	"ecf9f3a3-35e9-4c58-acaa-e707fba45060"
name	アーティスト名	文字列	"Oasis"
sort_name	アーティスト名（辞書順整列用）	文字列	"Oasis"
area	活動場所	文字列	"United Kingdom"
aliases	別名	辞書オブジェクトのリスト
aliases[].name	別名	文字列	"オアシス"
aliases[].sort_name	別名（整列用）	文字列	"オアシス"
begin	活動開始日	辞書
begin.year	活動開始年	整数	1991
begin.month	活動開始月	整数
begin.date	活動開始日	整数
end	活動終了日	辞書
end.year	活動終了年	整数	2009
end.month	活動終了月	整数	8
end.date	活動終了日	整数	28
tags	タグ	辞書オブジェクトのリスト
tags[].count	タグ付けされた回数	整数	1
tags[].value	タグ内容	文字列	"rock"
rating	レーティング	辞書オブジェクト
rating.count	レーティングの投票数	整数	13
rating.value	レーティングの値（平均値）	整数	86

【注意事項】このデータは「アーティスト名」で一意になりません。なので、単純に「アーティスト名」をKVSのキーにすると2件目以降で上書きしてしまうためファイルの件数とKVSの件数が合致しません。

60. KVSの構築

Key-Value-Store (KVS) を用い，アーティスト名（name）から活動場所（area）を検索するためのデータベースを構築せよ．

プログラム：060.KVSの構築.ipynb

Jupyter Notebookの形式をPython形式に変換すると以下のコードです。
Jupyter Notebook形式の結果は、「060.KVSの構築.ipynb」を見てください。
※リポジトリをクローンして実行する場合には、artist.jsonファイルを同じディレクトリに置いてください。GitHubの100MB制限があって置けませんでした。

060.KVSの構築.ipynb

# !/usr/bin/env python
# coding: utf-8

import json
from redis import Redis

r = Redis( )
r.flushdb()

FNAME = './artist.json'

# ファイル読み込み、パース
with open(FNAME, encoding='utf8') as data_file:
    for line in data_file:
#    for i, line in enumerate(data_file):
        data_json = json.loads(line)

        value = data_json.get('area', '')       # areaがないときばブランク
        
        # アーティスト名では一意でないためHashesデータ型として追加
        r.hset(data_json['name'], data_json['id'],value)
#        if i == 10000:
#            break

r.save()

# 確認のため登録件数を表示
print('{:,}件登録しました。'.format(r.dbsize()))

プログラム解説

「アーティスト名」で一意にならないため、Hashesデータ型を使いました。そして、Hashesのフィールド名に一意となる「id」を設定しています。
KVSを初めて使ったので、これが適しているのか自信がないのですが、次以降の問題もこれで解けています。
貧弱な環境で実行しているので、処理終了まで10分くらいかかった気がします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up