[Ruby]pdf-readerでPDFからテキスト抽出

More than 3 years have passed since last update.

RubyでPDFのテキスト抽出メモ。pdf-readerが便利でした。

https://github.com/yob/pdf-reader


install

gem install pdf-reader


テキスト抽出

reader = PDF::Reader.new("sample.pdf")

reader.pages.each do |page|
puts page.text
end


ページ数やメタデータも取れる

puts reader.pdf_version

puts reader.info
puts reader.metadata
puts reader.page_count

カンタン!