0
0

More than 1 year has passed since last update.

Javaを使用してPDFのテキストコンテンツを読み取る方法

Posted at

背景

今回の記事では、JavaアプリケーションでPDFファイルのテキストコンテンツを読み取る方法を紹介します。
JavaアプリケーションでPDFドキュメントを読み取るために、サードパーティのPDFコンポーネントを使用できます。この記事で使用されているコンポーネントは、JAVA用の無料のJava PDFコンポーネントであるFree Spire.PDF for JAVAです。

JARファイルの取得とインポート:

公式ウェブサイトからjarファイルパッケージをダウンロードします。ダウンロードした後、ファイルを解凍し、libフォルダー内のSpire.Pdf.jarファイルをJavaプログラムにインポートします。
01.png

PDFテキストを読み取るコード一覧

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

    public static void main(String[] args) {

        //PdfDocumentインスタンスを作成する
        PdfDocument doc = new PdfDocument();

        //PDFファイルをロードする
        doc.loadFromFile("C:\\Users\\Administrator\\Desktop\\test.pdf");

        StringBuilder sb = new StringBuilder();

        PdfPageBase page;

        //PDFページをトラバースしてテキストを取得する
        for (int i = 0; i < doc.getPages().getCount(); i++) {
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }

        FileWriter writer;

        try {
            //テキストファイルにテキストを書き込む
            writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }
        doc.close();
    }
}

元のPDFドキュメント:
02.png

エクスポートしたPDFドキュメント:
03.png

以上はJavaでPDFドキュメントからテキストコンテンツを読み取る方法でした、最後まで読んでいただき誠にありがとうございます。ではまた!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0