PDFをRubyでテキスト抽出する

  • 7
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

PowerPointとかWordから文字を抽出してえって思ってOfficeDoc→PDF→テキスト抽出ってルートを考えた
OfficeのドキュメントをRubyでPDFに変換

道具

PDFをRubyで使う系ライブラリ

なんかいろいろあったけど、今回の目的はテキスト抽出で、上の2つではテキスト抽出がつらぽよだったから最後のやつを使うことにした

使ってみる

gem i poppler
require "poppler"

document = Poppler::Document.new("hoge.pdf")

puts document[0].get_text
puts document.count

document.each do |page|
  puts page.get_text
end

Coolだね!