国会のホームページから議員の名前を抽出する

  • 13
    いいね
  • 0
    コメント

国会議員の名前リストが欲しくなったので、
参議院のホームページの議員一覧のページから議員の名前を抽出するスクリプトを作成しました。

scrape_rep_name.py

from lxml import html
import requests

page = requests.get('http://www.sangiin.go.jp/japanese/joho1/kousei/giin/194/giin.htm')

tree = html.fromstring(page.content)
rep_names = tree.xpath('//a[contains(@href, "profile")]/text()')

for name in rep_names:
    name_without_zenkaku_space =  name.replace(u" ", "")

    if name_without_zenkaku_space[0] is not '[': 
        print (name_without_zenkaku_space)