More than 1 year has passed since last update.

言語処理100本ノック俺の解答第3章

Last updated at 2022-07-18Posted at 2022-05-14

言語処理100本ノック第3章: UNIXコマンドの俺の解答。その他の章はこちら。

20. JSONデータの読み込み

Windows上でやっているので文字コードまわりでちょっと苦労した。

import argparse
import gzip
import json

parser = argparse.ArgumentParser()
parser.add_argument('-i', help="input gzipped JSON filename")
parser.add_argument('-o', help="outpuf filename")
args = parser.parse_args()

f_o = open(args.o, "w", encoding="utf_8", newline='\n')
f_i = gzip.open(args.i, 'rt', encoding="utf_8")
for l in f_i:
    tree = json.loads(l)
    if tree['title'] == 'イギリス':
        f_o.write(tree['text'])

21. カテゴリ名を含む行を抽出

20で作ったファイルを標準入力から受け取る前提。つまり、この21の解答を21.pyとすると、

$ python 21.py -o 21の出力 < 20の出力

とする、ということです。ふたたび、Windows上でUTF-8文字列を標準入力から受け取るのに少し面倒が。

import argparse
import sys

parser = argparse.ArgumentParser()
parser.add_argument('-o', help="outpuf filename")
args = parser.parse_args()

sys.stdin.reconfigure(encoding='utf-8')
f_o = open(args.o, "w", encoding="utf_8", newline='\n')
for l in sys.stdin:
    if l.startswith('[[Category:'):
        f_o.write(l)

22. カテゴリ名の抽出

import argparse
import sys
import re

parser = argparse.ArgumentParser()
parser.add_argument('-o', help="outpuf filename")
args = parser.parse_args()

regex = re.compile(r'^\[\[Category:([^|\]]+)')

sys.stdin.reconfigure(encoding='utf-8')
f_o = open(args.o, "w", encoding="utf_8", newline='\n')
for l in sys.stdin:
    matched = regex.match(l)
    if matched:
        f_o.write(matched.group(1)+'\n')

23. セクション構造

import argparse
import sys
import re

parser = argparse.ArgumentParser()
parser.add_argument('-o', help="outpuf filename")
args = parser.parse_args()

regex = re.compile(r'^(=+)([^=]+)')

sys.stdin.reconfigure(encoding='utf-8')
f_o = open(args.o, "w", encoding="utf_8", newline='\n')
for l in sys.stdin:
    matched = regex.match(l)
    if matched:
        level = len(matched.group(1)) - 1
        title = matched.group(2).strip()
        f_o.write(title+'\t'+str(level)+'\n')

24. ファイル参照の抽出

問題の定義が曖昧な気がする。どこまでがメディアファイル？PDFは含まれる？HTMLは？まぁ、どこまで含むかは問題の本質ではないので、適当に。
そして、Wikipediaの書式って、ファイル参照にいろんなやり方があって、正確かつ簡潔に参照を取り出すのはできなさそう。
ということは、どんな参照の仕方があるのか調べながら正規表現を作っていく過程が大事ということか。では、調べていきます。

$ grep '\.[a-zA-Z]' 20の出力 |less

として、例をピックアップすると、

|国旗画像 = Flag of the United Kingdom.svg
|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリ
スの国章]]
|位置画像 = United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
[[ファイル:Descriptio Prime Tabulae Europae.jpg|thumb|left|[[クラウディオス・プ
トレマイオス|プトレマイオス]]の『[[地理学 (プトレマイオス)|地理学]]』に基づく地
図、アルビオンと[[:en:Hibernia|ヒベルニア]]（現在のアイルランド）の文字が見える]]
[[ファイル:Population density UK 2011 census.png|thumb|right|人口分布（2011年）]]
PalaceOfWestminsterAtNight.jpg|ウェストミンスター宮殿

といったところか。
ファイル名中に括弧が出てきて、実際にはそれがURLエンコードされて使われているとか、かなり厄介だ…。あんまりキリキリと正確性を求めても空しいので、めっちゃアドホックに適当に…
正規表現だけ書いておくと、

r'.*(?:^|\||=|:)([a-zA-Z ()+]+\.(?i:jpg|jpeg|svg|ogg))'

ああ、不本意だ…

25. テンプレートの抽出

import sys
import re

regex = re.compile(r'\|([^=]+)=(.*)$')

sys.stdin.reconfigure(encoding='utf-8')
for l in sys.stdin:
    if l.startswith("{{基礎情報 "):
        break

dic = {}
current = None
for l in sys.stdin:
    l = l.strip()
    matched = regex.match(l)
    if matched:
        current = matched.group(1)
        dic[current] = matched.group(2)
    elif l.startswith("*"):
        dic[current] += l.lstrip("*")
    elif l == "}}":
        break

print(dic)

26. 強調マークアップの除去

後方参照を使って。抜粋だけ書きます。

regex_emphasys = re.compile(r'(\'{2,3}|\'{5})([^\']*)\1')
def remove_emphasys(s):
    return regex_emphasys.sub(r'\2', s)

27. 内部リンクの除去

略。次にまとめて。

28. MediaWikiマークアップの除去

ひたすら正規表現を書いていく、まさに100本ノックですねぇ。

import sys
import re

regex = re.compile(r'\|([^=]+)=(.*)$')

sys.stdin.reconfigure(encoding='utf-8')
for l in sys.stdin:
    if l.startswith("{{基礎情報 "):
        break

dic = {}
current = None
for l in sys.stdin:
    l = l.strip()
    matched = regex.match(l)
    if matched:
        current = matched.group(1).strip()
        dic[current] = matched.group(2)
    elif l.startswith("*"):
        dic[current] += l.lstrip("*")
    elif l == "}}":
        break

regex_emphasys = re.compile(r'(\'{1,3})([^\']*)\1')
regex_ref = re.compile(r'<ref(?:[^>]+)?>.*</ref>')
regex_emptytag = re.compile(r'<\w+(?:[^/>]+)?/>')
regex_lang = re.compile(r'\{\{lang\|\w+\|([^\}]*)\}\}')
regex_icon = re.compile(r'\{\{\w+ icon\}\}')
regex_center = re.compile(r'\{\{center\|([^\}]+)\}\}')
regex_tmplink = re.compile(r'\{\{仮リンク\|(?:[^\}]+)\|([^\}]+)\}\}')
regex_digit = re.compile(r'\{\{\d\}\}')
regex_file = re.compile(r'\[\[ファイル:([^|\]]+)([^\]]+)?\]\]')
regex_link = re.compile(r'\[\[(?:[^\]]+\|)?([^\[\|\]]+)\]\]')
for key in dic:
    dic[key] = regex_emphasys.sub(r'\2', dic[key])
    dic[key] = regex_ref.sub(r' ', dic[key])
    dic[key] = regex_emptytag.sub(r' ', dic[key])
    dic[key] = regex_lang.sub(r'\1', dic[key])
    dic[key] = regex_icon.sub(r' ', dic[key])
    dic[key] = regex_center.sub(r'\1', dic[key])
    dic[key] = regex_tmplink.sub(r'\1', dic[key])
    dic[key] = regex_digit.sub(r'', dic[key])
    dic[key] = regex_file.sub(r'\1', dic[key])
    dic[key] = regex_link.sub(r'\1', dic[key])
    dic[key] = dic[key].strip()

print(dic)

29. 国旗画像のURLを取得する

言語処理っぽいところではないところで苦労した。
APIの接続先がhttps://www.mediawiki.org/w/api.php とか https://ja.wikipedia.org/w/api.php とかだと、pageidが-1でmissingという属性が入ったものが返ってくる。つまり目当てのものが見つからないということらしい。
で、API:Imageinfoの説明をよくよく眺めてみると、最後のほうのAdditional notesのところにFiles uploaded to the Wikimedia Commons will appear to be missing when accessed from other MediaWiki wikisなんて書いてあるので、もしかしてと思って https://commons.wikimedia.org/w/api.php に繋いでみたら、ビンゴ！

import requests

url = "https://commons.wikimedia.org/w/api.php"
params = {
    "action": "query",
    "prop": "imageinfo",
    "titles": "File:Flag of the United Kingdom.svg",
    "format": "json",
    "iiprop": "url"
}

json = requests.Session().get(url=url, params=params).json()
pages = json['query']['pages']
page = pages[next(iter(pages))] 
print(page['imageinfo'][0]['url'])

本当はファイル名を28で作った辞書型オブジェクトから取得すべきところですが、そんなことどうでもいいくらい苦労したので、そこはサボってます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

言語処理100本ノック俺の解答 第3章