言語処理100本ノック 2015の62本目「KVS内の反復処理」の記録です。RedisとPythonを使っています。
62本目はKVSのNoSQLデータベースに対して検索(SCAN)をする処理です。
「言語処理100本ノック」記録
- 言語処理100本ノック-60(RedisとPython使用):KVSの構築
- 言語処理100本ノック-61(RedisとPython使用):KVSの検索
- 言語処理100本ノック-62(RedisとPython使用):KVS内の反復処理
- 言語処理100本ノック-63(RedisとPython使用):オブジェクトを値に格納したKVS
参考リンク
リンク | 備考 |
---|---|
書籍「RDB技術者のためのNoSQLガイド」 | RDBに浸かっていた私には非常にわかりやすかったです |
062.KVS内の反復処理.ipynb | 回答プログラムのGitHubリンク |
最新RedisのUbuntuへのインストールとPythonで使うまで | インストールについて |
【初心者向け】Redisのデータ型とPythonでの使い方サンプル | Redisのデータ型について整理 |
言語処理100本ノックでPython入門 #62 - KVSの反復処理 | Redis-pyの回答として参考にしました |
素人の言語処理100本ノック:62 | 言語処理100本ノックで常にお世話になっています |
環境
インストールに関しては記事「最新RedisのUbuntuへのインストールとPythonで使うまで」を参照ください。
種類 | バージョン | 内容 |
---|---|---|
OS | Ubuntu18.04.01 LTS | 仮想で動かしています |
Redis | 5.0.4 | 2019/3/22時点でStableの最新です |
pyenv | 1.2.9 | 複数Python環境を使うことがあるのでpyenv使っています |
Python | 3.7.2 | pyenv上でpython3.7.2を使っています パッケージはvenvを使って管理しています |
reids-py | 3.2.1 | 2019/3/22時点で最新 |
問題
第7章: データベース
artist.json.gzは,オープンな音楽データベースMusicBrainzの中で,アーティストに関するものをJSON形式に変換し,gzip形式で圧縮したファイルである.このファイルには,1アーティストに関する情報が1行にJSON形式で格納されている.JSON形式の概要は以下の通りである.
フィールド 型 内容 例 id ユニーク識別子 整数 20660 gid グローバル識別子 文字列 "ecf9f3a3-35e9-4c58-acaa-e707fba45060" name アーティスト名 文字列 "Oasis" sort_name アーティスト名(辞書順整列用) 文字列 "Oasis" area 活動場所 文字列 "United Kingdom" aliases 別名 辞書オブジェクトのリスト aliases[].name 別名 文字列 "オアシス" aliases[].sort_name 別名(整列用) 文字列 "オアシス" begin 活動開始日 辞書 begin.year 活動開始年 整数 1991 begin.month 活動開始月 整数 begin.date 活動開始日 整数 end 活動終了日 辞書 end.year 活動終了年 整数 2009 end.month 活動終了月 整数 8 end.date 活動終了日 整数 28 tags タグ 辞書オブジェクトのリスト tags[].count タグ付けされた回数 整数 1 tags[].value タグ内容 文字列 "rock" rating レーティング 辞書オブジェクト rating.count レーティングの投票数 整数 13 rating.value レーティングの値(平均値) 整数 86 artist.json.gzのデータをKey-Value-Store (KVS) およびドキュメント志向型データベースに格納・検索することを考える.KVSとしては,LevelDB,Redis,KyotoCabinet等を用いよ.ドキュメント志向型データベースとして,MongoDBを採用したが,CouchDBやRethinkDB等を用いてもよい.
【注意事項】このデータは「アーティスト名」で一意になりません。なので、単純に「アーティスト名」をKVSのキーにすると2件目以降で上書きしてしまうためファイルの件数とKVSの件数が合致しません。
62. KVS内の反復処理
60で構築したデータベースを用い,活動場所が「Japan」となっているアーティスト数を求めよ.
プログラム:062.KVS内の反復処理.ipynb
Jupyter Notebookの形式をPython形式に変換すると以下のコードです。
Jupyter Notebook形式の結果は、「062.KVS内の反復処理.ipynb」を見てください。
#!/usr/bin/env python
# coding: utf-8
from redis import Redis
r = Redis( )
# 繰り返しスキャン
for i, key in enumerate(r.scan_iter()):
# HashesのValue取得
for area in r.hvals(key):
if area == b'Japan':
print(key.decode())
プログラム解説
RDBで考えてしまうと、SELECTとWHEREを使うのですが、全件SCANとしています(タイトルが「反復処理」となっているので正解でしょう)。
SCAN_ITERを使って全件SCANとHVALSを使ってValueの取得としています。