test.js
// npm install pdf-parse
const fs = require('fs');
const pdf = require('pdf-parse'); // npm install pdf-parse
async function extractTextFromTextBasedPDF(pdfPath) {
try {
const dataBuffer = fs.readFileSync(pdfPath);
const data = await pdf(dataBuffer);
console.log('抽出されたテキスト:');
console.log(data.text);
// 日本語文字が正しく抽出されているかチェック
const hasJapanese = /[\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FAF]/.test(data.text);
console.log('日本語文字が含まれている:', hasJapanese);
return data.text;
} catch (error) {
console.error('PDF解析エラー:', error);
return null;
}
}
// 使用例
extractTextFromTextBasedPDF('./test.pdf')
.then(text => {
if (text) {
console.log('成功: 日本語テキストが正しく抽出されました');
}
});
C:\Users\XX\textract-test>node test.js
Warning: TT: undefined function: 32
抽出されたテキスト:
日本語開始
改行
改行
日本語終了
日本語文字が含まれている: true
成功: 日本語テキストが正しく抽出されました
test.pdf
日本語開始
改行
改行
日本語終了