RubyでPDFのテキスト抽出メモ。pdf-readerが便利でした。
https://github.com/yob/pdf-reader
install
gem install pdf-reader
テキスト抽出
reader = PDF::Reader.new("sample.pdf")
reader.pages.each do |page|
puts page.text
end
ページ数やメタデータも取れる
puts reader.pdf_version
puts reader.info
puts reader.metadata
puts reader.page_count
カンタン!