Ruby
PDF

[Ruby]pdf-readerでPDFからテキスト抽出

More than 3 years have passed since last update.

RubyでPDFのテキスト抽出メモ。pdf-readerが便利でした。
https://github.com/yob/pdf-reader

install

gem install pdf-reader

テキスト抽出

reader = PDF::Reader.new("sample.pdf")

reader.pages.each do |page|
  puts page.text
end

ページ数やメタデータも取れる

puts reader.pdf_version
puts reader.info
puts reader.metadata
puts reader.page_count

カンタン!