政府CIOポータルのオープンデータのオープンデータ伝道師一覧のpptxの表をスクレイピング
wget https://cio.go.jp/sites/default/files/uploads/documents/opendata-dendoushi_ichiran.pptx -O ichiran.pptx
pip install python-pptx
import pptx
import pandas as pd
prs = pptx.Presentation("ichiran.pptx")
dfs = []
for page in prs.slides:
data = [[cell.text for cell in row.cells] for row in page.shapes[1].table.rows]
dfs.append(pd.DataFrame(data[1:], columns=data[0]))
df = pd.concat(dfs).set_index("No.")
df["所属団体等"] = df["所属団体等"].str.replace("\n", "", regex=True)
df1 = df.join(
df["氏名"].str.split("\n", expand=True).rename(columns={0: "ふりがな", 1: "名前"})
).drop("氏名", axis=1)
df2 = df1.reindex(columns=["名前", "ふりがな", "主な活動エリア", "これまでの主な実績等", "所属団体等"])
df2.to_csv("ichiran.csv", encoding="utf_8_sig")