More than 1 year has passed since last update.

Javaを使用してPDFのテキストコンテンツを読み取る方法

Posted at 2022-01-04

背景

今回の記事では、JavaアプリケーションでPDFファイルのテキストコンテンツを読み取る方法を紹介します。
JavaアプリケーションでPDFドキュメントを読み取るために、サードパーティのPDFコンポーネントを使用できます。この記事で使用されているコンポーネントは、JAVA用の無料のJava PDFコンポーネントであるFree Spire.PDF for JAVAです。

JARファイルの取得とインポート：

公式ウェブサイトからjarファイルパッケージをダウンロードします。ダウンロードした後、ファイルを解凍し、libフォルダー内のSpire.Pdf.jarファイルをJavaプログラムにインポートします。

PDFテキストを読み取るコード一覧

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

    public static void main(String[] args) {

        //PdfDocumentインスタンスを作成する
        PdfDocument doc = new PdfDocument();

        //PDFファイルをロードする
        doc.loadFromFile("C:\\Users\\Administrator\\Desktop\\test.pdf");

        StringBuilder sb = new StringBuilder();

        PdfPageBase page;

        //PDFページをトラバースしてテキストを取得する
        for (int i = 0; i < doc.getPages().getCount(); i++) {
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }

        FileWriter writer;

        try {
            //テキストファイルにテキストを書き込む
            writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }
        doc.close();
    }
}

元のPDFドキュメント：

エクスポートしたPDFドキュメント：

以上はJavaでPDFドキュメントからテキストコンテンツを読み取る方法でした、最後まで読んでいただき誠にありがとうございます。ではまた！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up