PDF文書に余計な内容のページが含まれている場合、残りの内容が正確で、焦点が合っていて、文書の意図された目的と一致していることを確実にするために、これらのページを削除することが必要です。この記事では、無料の.NET PDFライブラリを使用して、プログラムでPDFからページを削除する方法を学びます。
必要な道具:
-
IDEA
-
Spire.OCR for Java - 多言語、フォントの認識、JPG, PNG, GIF, BMP, TIFF などのよく使われる画像からのテキスト情報の読み取りに対応した Java OCR コンポーネント。
- 製品パッケージのダウンロードリンク: https://www.e-iceblue.com/Download/ocr-for-java.html
- またはMavenリポジトリからインポートします:
<repositories> <repository> <id>com.e-iceblue</id> <name>e-iceblue</name> <url>https://repo.e-iceblue.cn/repository/maven-public/</url> </repository> </repositories> <dependencies> <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.ocr</artifactId> <version>1.9.0</version> </dependency> </dependencies>
-
その他の依存ファイル。お使いのオペレーティング・システムに基づいて対応するファイルをダウンロードし、指定されたファイル・パスに解凍します。
Javaで画像中のテキストをOCR認識する手順
1. IDEAで新規プロジェクトを作成し、Spire.OCR.jarをインポートする。
2. ダウンロードした 「dependencies 」フォルダをIDEAプロジェクトのディレクトリにコピーします。
3. 上記の必要な依存関係をインポートしていることを確認し、以下のコードを実行して画像内のテキストをスキャン/読み取ります。
import com.spire.ocr.OcrScanner;
import java.io.*;
public class ReadImage {
public static void main(String[] args) throws Exception {
// 依存ファイルのパスを指定する
String dependencies = "dependencies\\";
// 言語ファイルのパスを指定する
String languageFile = "japandata";
// スキャンする画像のパスを指定する
String imageFile = "img.png";
//出力ファイルのパスを指定する
String outputFile = "ImageText.txt";
// OcrScannerオブジェクトを作成し、その依存ファイル・パスを設定する
OcrScanner scanner = new OcrScanner();
scanner.setDependencies(dependencies);
// 指定された言語ファイルをロードする
scanner.loadLanguageFile(languageFile);
// 指定した画像ファイルをスキャンする
scanner.scan(imageFile);
// スキャンしたテキストの内容を取得する
String scannedText = scanner.getText().toString();
// 出力ファイルオブジェクトの作成
File output = new File(outputFile);
// 出力ファイルがすでに存在する場合は削除する
if (output.exists()) {
output.delete();
}
// スキャンしたテキスト内容を出力ファイルに書き込むために、BufferedWriterオブジェクトを作成する
BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile));
writer.write(scannedText);
writer.close();
}
}
使用中に問題が発生した場合は、フォーラムでご連絡ください。