言語処理100本ノック 2015「第3章: 正規表現」の21本目「カテゴリ名を含む行を抽出」記録です。
前回は準備事項で、今回からが正規表現の実践です。今までググっては思い出していた基本内容をたくさん使っています。具体的には、raw文字列・re.VERBOSE・re.MULTILINE・トリプルクォートなど基本だらけ。
参考リンク
リンク | 備考 |
---|---|
021.カテゴリ名を含む行を抽出.ipynb | 回答プログラムのGitHubリンク |
素人の言語処理100本ノック:21 | 多くのソース部分のコピペ元 |
ゼロから覚えるPython正規表現の基本とTips | 当ノックで学習した内容を整理しました |
正規表現 HOWTO | Python公式の正規表現How To |
re --- 正規表現操作 | Python公式のreパッケージ説明 |
Help:早見表 | Wikipediaの代表的なマークアップの早見表 |
環境
種類 | バージョン | 内容 |
---|---|---|
OS | Ubuntu18.04.01 LTS | 仮想で動かしています |
pyenv | 1.2.15 | 複数Python環境を使うことがあるのでpyenv使っています |
Python | 3.6.9 | pyenv上でpython3.6.9を使っています 3.7や3.8系を使っていないことに深い理由はありません パッケージはvenvを使って管理しています |
上記環境で、以下のPython追加パッケージを使っています。通常のpipでインストールするだけです。
種類 | バージョン |
---|---|
pandas | 0.25.3 |
第3章: 正規表現
学習内容
Wikipediaのページのマークアップ記述に正規表現を適用することで,様々な情報・知識を取り出します.
正規表現, JSON, Wikipedia, InfoBox, ウェブサービス
ノック内容
Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある.
- 1行に1記事の情報がJSON形式で格納される
- 各行には記事名が"title"キーに,記事本文が"text"キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される
- ファイル全体はgzipで圧縮される
以下の処理を行うプログラムを作成せよ.
21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ.
課題補足(「カテゴリ名」について)
Help:早見表によると「カテゴリ名」は[[Category:ヘルプ|はやみひよう]]
形式です。
ファイル内の以下の部分を正規表現で抽出します。
[[Category:イギリス|*]]\n'
[[Category:英連邦王国|*]]\n'
[[Category:G8加盟国]]\n'
[[Category:欧州連合加盟国]]\n'
[[Category:海洋国家]]\n'
[[Category:君主国]]\n'
[[Category:島国|くれいとふりてん]]\n'
[[Category:1801年に設立された州・地域]]'
回答
回答プログラム 021.カテゴリ名を含む行を抽出.ipynb
from pprint import pprint
import re
import pandas as pd
def extract_by_title(title):
df_wiki = pd.read_json('jawiki-country.json', lines=True)
return df_wiki[(df_wiki['title'] == title)]['text'].values[0]
wiki_body = extract_by_title('イギリス')
# rを先頭にするとraw string でエスケープシーケンス無視
# 3重クォートで途中改行無視
# re.VERBOSEオプションを使うことによって、空白とコメント無視
# re.MULTILINEで複数行に対して検索
pprint(re.findall(r'''
^ # 文字列の先頭(なくても結果は変わらないが入れておく)
( # グループ化開始
.* # 任意の文字列0文字以上
\[\[Category: # 検索語句(\はエスケープ処理)
.* # 任意の文字列0文字以上
\]\] # 検索語句(\はエスケープ処理)
.* # 任意の文字列0文字以上
) # グループ化終了
$ # 文字列の末尾(なくても結果は変わらないが入れておく)
''', wiki_body, re.MULTILINE+re.VERBOSE))
回答解説
今回のノックの本題は以下の箇所です。
pprint(re.findall(r'''
^ # 文字列の先頭(なくても結果は変わらないが入れておく)
( # グループ化開始
.* # 任意の文字列0文字以上
\[\[Category: # 検索語句(\はエスケープ処理)
.* # 任意の文字列0文字以上
\]\] # 検索語句(\はエスケープ処理)
.* # 任意の文字列0文字以上
) # グループ化終了
$ # 文字列の末尾(なくても結果は変わらないが入れておく)
''', wiki_body, re.MULTILINE+re.VERBOSE))
findall
関数で検索結果をすべて取得
パターンにマッチした全ての文字列をリスト形式で返すのがfindall
関数です。
以下の例では、ly
が末尾につく副詞の単語をすべて抽出しています(\w
は「英数文字と下線」)。
>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']
raw文字列(raw string)でエスケープシーケンス無効
引用記号の前にr
をつけることでraw文字列(raw string)とします。raw文字列を使うことでエスケープシーケンスを無効にできます。正規表現パターンにエスケープシーケンスあると読みにくいので、raw文字列にして無効化します。
>>> print('a\tb\nA\tB')
a b
A B
>>> print(r'a\tb\nA\tB')
a\tb\nA\tB
トリプルクォートで改行使用
'''
トリプルクォート("""
でも可能)で囲むことにより、正規表現パターン中に改行を使うことができます(改行がなくても問題なし)。改行することにより正規表現パターンを読みやすくします。
a = re.compile(r'''\d +
\.
\d *''')
re.VERBOSE
でコメント・空白使用
re.VERBOSE
をパラメータflags
に渡すことで、正規表現パターン中にコメント・空白を使うことができます(使わなくても問題なし)。コメントと空白を挟むことで正規表現パターンを読みやすくします。トリプルクォートと併せて使う可読性向上方法です。
a = re.compile(r'''\d + # the integral part
\. # the decimal point
\d * # some fractional digits''', re.VERBOSE)
re.MULTILINE
で複数行検索
複数行に対してそれぞれ検索したい場合に使います。
string = r'''\
行頭 1st line
行頭 2nd line'''
# 複数行が検索対象
print(re.findall(r'^行頭.*', string, re.MULTILINE))
# ['行頭 1st line', '行頭 2nd line']
# 1行目のみが検索対象
print(re.findall(r'^行頭.*', string))
# ['行頭 1st line']
出力結果(実行結果)
プログラム実行すると以下の結果が出力されます。
['[[Category:イギリス|*]]',
'[[Category:英連邦王国|*]]',
'[[Category:G8加盟国]]',
'[[Category:欧州連合加盟国]]',
'[[Category:海洋国家]]',
'[[Category:君主国]]',
'[[Category:島国|くれいとふりてん]]',
'[[Category:1801年に設立された州・地域]]']