More than 5 years have passed since last update.

[Ruby]pdf-readerでPDFからテキスト抽出

Posted at 2014-07-26

RubyでPDFのテキスト抽出メモ。pdf-readerが便利でした。
https://github.com/yob/pdf-reader

gem install pdf-reader

reader = PDF::Reader.new("sample.pdf")

reader.pages.each do |page|
  puts page.text
end

puts reader.pdf_version
puts reader.info
puts reader.metadata
puts reader.page_count

カンタン！