背景
今回の記事では、JavaアプリケーションでPDFファイルのテキストコンテンツを読み取る方法を紹介します。
JavaアプリケーションでPDFドキュメントを読み取るために、サードパーティのPDFコンポーネントを使用できます。この記事で使用されているコンポーネントは、JAVA用の無料のJava PDFコンポーネントであるFree Spire.PDF for JAVAです。
JARファイルの取得とインポート:
公式ウェブサイトからjarファイルパッケージをダウンロードします。ダウンロードした後、ファイルを解凍し、libフォルダー内のSpire.Pdf.jarファイルをJavaプログラムにインポートします。
PDFテキストを読み取るコード一覧
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class Extract_Text {
public static void main(String[] args) {
//PdfDocumentインスタンスを作成する
PdfDocument doc = new PdfDocument();
//PDFファイルをロードする
doc.loadFromFile("C:\\Users\\Administrator\\Desktop\\test.pdf");
StringBuilder sb = new StringBuilder();
PdfPageBase page;
//PDFページをトラバースしてテキストを取得する
for (int i = 0; i < doc.getPages().getCount(); i++) {
page = doc.getPages().get(i);
sb.append(page.extractText(true));
}
FileWriter writer;
try {
//テキストファイルにテキストを書き込む
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
doc.close();
}
}
以上はJavaでPDFドキュメントからテキストコンテンツを読み取る方法でした、最後まで読んでいただき誠にありがとうございます。ではまた!