7
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

PDFの表からデータを取り出すtabulizerパッケージ

Posted at

PDFの表からデータを取り出すtabulizerパッケージです。下記のTwitter記事を参考にしました。

パッケージ読み込み

library(tidyverse)
library(tabulizer)

あつかう表はこのような形式。北海道庁が公開しているコロナウィルス感染症のPDFデータです。
01pdf.png

説明すべきことはあまりありません。map_dfr()apply系の関数です。初めて使用しましたが、便利です。

tb <- 
  tabulizer::extract_tables("0421.pdf") %>%  # pdfデータを読み込み
  purrr::map_dfr(as.data.frame) %>%  # data.frame形式に変換
  as_tibble() %>%  # tibble形式に変換(やらなくても良いけど)
  filter(V2 !="(公表)" , V2 !="公表日" )  # データとして読み込まれたヘッダ行を削除
# カラム名をrename
colnames(tb) <-
  c("No","公表日","年代","性別","居住地","周囲の患者の発生", "濃厚接触者の状況")  
# csv書き出し
tb %>% 
  write_csv("0421.csv")

無事に全てのデータが書き出されました。
02.png

7
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?