More than 5 years have passed since last update.

言語処理100本ノック-62(RedisとPython使用):KVS内の反復処理

Last updated at 2019-03-31Posted at 2019-03-31

言語処理100本ノック 2015の62本目「KVS内の反復処理」の記録です。RedisとPythonを使っています。
62本目はKVSのNoSQLデータベースに対して検索(SCAN)をする処理です。

「言語処理100本ノック」記録

参考リンク

リンク	備考
書籍「RDB技術者のためのNoSQLガイド」	RDBに浸かっていた私には非常にわかりやすかったです
062.KVS内の反復処理.ipynb	回答プログラムのGitHubリンク
最新RedisのUbuntuへのインストールとPythonで使うまで	インストールについて
【初心者向け】Redisのデータ型とPythonでの使い方サンプル	Redisのデータ型について整理
言語処理100本ノックでPython入門 #62 - KVSの反復処理	Redis-pyの回答として参考にしました
素人の言語処理100本ノック:62	言語処理100本ノックで常にお世話になっています

環境

インストールに関しては記事「最新RedisのUbuntuへのインストールとPythonで使うまで」を参照ください。

種類	バージョン	内容
OS	Ubuntu18.04.01 LTS	仮想で動かしています
Redis	5.0.4	2019/3/22時点でStableの最新です
pyenv	1.2.9	複数Python環境を使うことがあるのでpyenv使っています
Python	3.7.2	pyenv上でpython3.7.2を使っていますパッケージはvenvを使って管理しています
reids-py	3.2.1	2019/3/22時点で最新

問題

第7章: データベース

artist.json.gzは，オープンな音楽データベースMusicBrainzの中で，アーティストに関するものをJSON形式に変換し，gzip形式で圧縮したファイルである．このファイルには，1アーティストに関する情報が1行にJSON形式で格納されている．JSON形式の概要は以下の通りである．

フィールド型内容例

id ユニーク識別子整数 20660

gid グローバル識別子文字列 "ecf9f3a3-35e9-4c58-acaa-e707fba45060"

name アーティスト名文字列 "Oasis"

sort_name アーティスト名（辞書順整列用）文字列 "Oasis"

area 活動場所文字列 "United Kingdom"

aliases 別名辞書オブジェクトのリスト

aliases[].name 別名文字列 "オアシス"

aliases[].sort_name 別名（整列用）文字列 "オアシス"

begin 活動開始日辞書

begin.year 活動開始年整数 1991

begin.month 活動開始月整数

begin.date 活動開始日整数

end 活動終了日辞書

end.year 活動終了年整数 2009

end.month 活動終了月整数 8

end.date 活動終了日整数 28

tags タグ辞書オブジェクトのリスト

tags[].count タグ付けされた回数整数 1

tags[].value タグ内容文字列 "rock"

rating レーティング辞書オブジェクト

rating.count レーティングの投票数整数 13

rating.value レーティングの値（平均値）整数 86

artist.json.gzのデータをKey-Value-Store (KVS) およびドキュメント志向型データベースに格納・検索することを考える．KVSとしては，LevelDB，Redis，KyotoCabinet等を用いよ．ドキュメント志向型データベースとして，MongoDBを採用したが，CouchDBやRethinkDB等を用いてもよい．

フィールド	型	内容	例
id	ユニーク識別子	整数	20660
gid	グローバル識別子	文字列	"ecf9f3a3-35e9-4c58-acaa-e707fba45060"
name	アーティスト名	文字列	"Oasis"
sort_name	アーティスト名（辞書順整列用）	文字列	"Oasis"
area	活動場所	文字列	"United Kingdom"
aliases	別名	辞書オブジェクトのリスト
aliases[].name	別名	文字列	"オアシス"
aliases[].sort_name	別名（整列用）	文字列	"オアシス"
begin	活動開始日	辞書
begin.year	活動開始年	整数	1991
begin.month	活動開始月	整数
begin.date	活動開始日	整数
end	活動終了日	辞書
end.year	活動終了年	整数	2009
end.month	活動終了月	整数	8
end.date	活動終了日	整数	28
tags	タグ	辞書オブジェクトのリスト
tags[].count	タグ付けされた回数	整数	1
tags[].value	タグ内容	文字列	"rock"
rating	レーティング	辞書オブジェクト
rating.count	レーティングの投票数	整数	13
rating.value	レーティングの値（平均値）	整数	86

【注意事項】このデータは「アーティスト名」で一意になりません。なので、単純に「アーティスト名」をKVSのキーにすると2件目以降で上書きしてしまうためファイルの件数とKVSの件数が合致しません。

62. KVS内の反復処理

60で構築したデータベースを用い，活動場所が「Japan」となっているアーティスト数を求めよ．

プログラム：062.KVS内の反復処理.ipynb

Jupyter Notebookの形式をPython形式に変換すると以下のコードです。
Jupyter Notebook形式の結果は、「062.KVS内の反復処理.ipynb」を見てください。

062.KVS内の反復処理.ipynb

# !/usr/bin/env python
# coding: utf-8

from redis import Redis
r = Redis( )

# 繰り返しスキャン
for i, key in enumerate(r.scan_iter()):
    
    #　HashesのValue取得
    for area in r.hvals(key):
        if area == b'Japan':
            print(key.decode())

プログラム解説

RDBで考えてしまうと、SELECTとWHEREを使うのですが、全件SCANとしています(タイトルが「反復処理」となっているので正解でしょう)。
SCAN_ITERを使って全件SCANとHVALSを使ってValueの取得としています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up