More than 5 years have passed since last update.

言語処理100本ノック-21:カテゴリ名を含む行を抽出

Last updated at 2020-02-09Posted at 2020-02-04

言語処理100本ノック 2015 「第3章: 正規表現」の21本目「カテゴリ名を含む行を抽出」記録です。
前回は準備事項で、今回からが正規表現の実践です。今までググっては思い出していた基本内容をたくさん使っています。具体的には、raw文字列・re.VERBOSE・re.MULTILINE・トリプルクォートなど基本だらけ。

参考リンク

リンク	備考
021.カテゴリ名を含む行を抽出.ipynb	回答プログラムのGitHubリンク
素人の言語処理100本ノック:21	多くのソース部分のコピペ元
ゼロから覚えるPython正規表現の基本とTips	当ノックで学習した内容を整理しました
正規表現 HOWTO	Python公式の正規表現How To
re --- 正規表現操作	Python公式のreパッケージ説明
Help:早見表	Wikipediaの代表的なマークアップの早見表

環境

種類	バージョン	内容
OS	Ubuntu18.04.01 LTS	仮想で動かしています
pyenv	1.2.15	複数Python環境を使うことがあるのでpyenv使っています
Python	3.6.9	pyenv上でpython3.6.9を使っています 3.7や3.8系を使っていないことに深い理由はありませんパッケージはvenvを使って管理しています

上記環境で、以下のPython追加パッケージを使っています。通常のpipでインストールするだけです。

種類	バージョン
pandas	0.25.3

第3章: 正規表現

学習内容

Wikipediaのページのマークアップ記述に正規表現を適用することで，様々な情報・知識を取り出します．

正規表現, JSON, Wikipedia, InfoBox, ウェブサービス

ノック内容

Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある．

1行に1記事の情報がJSON形式で格納される

各行には記事名が"title"キーに，記事本文が"text"キーの辞書オブジェクトに格納され，そのオブジェクトがJSON形式で書き出される

ファイル全体はgzipで圧縮される

以下の処理を行うプログラムを作成せよ．

21. カテゴリ名を含む行を抽出

記事中でカテゴリ名を宣言している行を抽出せよ．

課題補足(「カテゴリ名」について)

Help:早見表によると「カテゴリ名」は[[Category:ヘルプ|はやみひよう]]形式です。
ファイル内の以下の部分を正規表現で抽出します。

ファイル内の「カテゴリ名」部分抜粋

[[Category:イギリス|*]]\n'
[[Category:英連邦王国|*]]\n'
[[Category:G8加盟国]]\n'
[[Category:欧州連合加盟国]]\n'
[[Category:海洋国家]]\n'
[[Category:君主国]]\n'
[[Category:島国|くれいとふりてん]]\n'
[[Category:1801年に設立された州・地域]]'

回答

回答プログラム 021.カテゴリ名を含む行を抽出.ipynb

from pprint import pprint
import re

import pandas as pd

def extract_by_title(title):
    df_wiki = pd.read_json('jawiki-country.json', lines=True)
    return df_wiki[(df_wiki['title'] == title)]['text'].values[0]

wiki_body = extract_by_title('イギリス')

# rを先頭にするとraw string でエスケープシーケンス無視
# 3重クォートで途中改行無視
# re.VERBOSEオプションを使うことによって、空白とコメント無視
# re.MULTILINEで複数行に対して検索
pprint(re.findall(r'''
                     ^                  # 文字列の先頭(なくても結果は変わらないが入れておく)
                     (                  # グループ化開始
                     .*                 # 任意の文字列0文字以上
                     \[\[Category:      # 検索語句(\はエスケープ処理)
                     .*                 # 任意の文字列0文字以上
                     \]\]               # 検索語句(\はエスケープ処理)
                     .*                 # 任意の文字列0文字以上
                     )                  # グループ化終了
                     $                  # 文字列の末尾(なくても結果は変わらないが入れておく)
                     ''', wiki_body, re.MULTILINE+re.VERBOSE))

回答解説

今回のノックの本題は以下の箇所です。

pprint(re.findall(r'''
                     ^                  # 文字列の先頭(なくても結果は変わらないが入れておく)
                     (                  # グループ化開始
                     .*                 # 任意の文字列0文字以上
                     \[\[Category:      # 検索語句(\はエスケープ処理)
                     .*                 # 任意の文字列0文字以上
                     \]\]               # 検索語句(\はエスケープ処理)
                     .*                 # 任意の文字列0文字以上
                     )                  # グループ化終了
                     $                  # 文字列の末尾(なくても結果は変わらないが入れておく)
                     ''', wiki_body, re.MULTILINE+re.VERBOSE))

`findall`関数で検索結果をすべて取得

パターンにマッチした全ての文字列をリスト形式で返すのがfindall関数です。
以下の例では、lyが末尾につく副詞の単語をすべて抽出しています(\wは「英数文字と下線」)。

findall例

>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']

raw文字列(raw string)でエスケープシーケンス無効

引用記号の前にrをつけることでraw文字列(raw string)とします。raw文字列を使うことでエスケープシーケンスを無効にできます。正規表現パターンにエスケープシーケンスあると読みにくいので、raw文字列にして無効化します。

raw文字列print出力例

>>> print('a\tb\nA\tB')
a   b
A   B

>>> print(r'a\tb\nA\tB')
a\tb\nA\tB

トリプルクォートで改行使用

'''トリプルクォート("""でも可能)で囲むことにより、正規表現パターン中に改行を使うことができます(改行がなくても問題なし)。改行することにより正規表現パターンを読みやすくします。

トリプルクォート使用例

a = re.compile(r'''\d +
                   \.  
                   \d *''')

`re.VERBOSE`でコメント・空白使用

re.VERBOSEをパラメータflagsに渡すことで、正規表現パターン中にコメント・空白を使うことができます(使わなくても問題なし)。コメントと空白を挟むことで正規表現パターンを読みやすくします。トリプルクォートと併せて使う可読性向上方法です。

トリプルクォート使用例

a = re.compile(r'''\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits''', re.VERBOSE)

`re.MULTILINE`で複数行検索

複数行に対してそれぞれ検索したい場合に使います。

re.MULTILINE使用例

string = r'''\
行頭 1st line
行頭 2nd line'''

# 複数行が検索対象
print(re.findall(r'^行頭.*', string, re.MULTILINE))
# ['行頭 1st line', '行頭 2nd line']

# 1行目のみが検索対象
print(re.findall(r'^行頭.*', string))
# ['行頭 1st line']

出力結果(実行結果)

プログラム実行すると以下の結果が出力されます。

出力結果

['[[Category:イギリス|*]]',
 '[[Category:英連邦王国|*]]',
 '[[Category:G8加盟国]]',
 '[[Category:欧州連合加盟国]]',
 '[[Category:海洋国家]]',
 '[[Category:君主国]]',
 '[[Category:島国|くれいとふりてん]]',
 '[[Category:1801年に設立された州・地域]]']

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up