Simple Translator(外国語翻訳ツール)のPDFのテキスト抽出機能
概要
以前、外国語の翻訳を一括(連続)で行う以下のアプリケーションを作りましたが、外国語論文PDFを翻訳する機能を説明していなかったので新しく記事を作成しました。
※ここでは外国語論文PDFを翻訳する機能の説明を行いますが、外国語論文を読む人は外国語特許文献も読むことが多いので外国語特許文献情報を取得し、一括翻訳(連続翻訳)する記事のリンクも以下に載せておきます。
Simple Translator(外国語翻訳ツール)のページはこちら
Google Patentsから取得した特許文献情報をDeepLで一括翻訳(連続翻訳)する説明のページはこちら
技術的に工夫した点
課題
現在の仕事において外国語論文PDFを読む機会が多く、翻訳が面倒なのでどうにかできないか調べたところ、WordでPDFを開いてテキストを取得できることが分かりました。しかし、PDFから取得したテキストには問題があります。テキストが途中で分断されていたり、テキストに制御文字などが含まれていたりする問題があるので、ただ翻訳するだけでは正確な翻訳が得られません。
解決手段
PDFから取得したテキストを一旦Excelに出力し、出力されたテキストを修正してから翻訳するようにしました。すべてを自動で行うのではなく「テキスト取得」と「テキスト翻訳」の間に手作業で行う「テキスト編集」をワンクッション入れた半手動のアプリケーションとしました。
作業手順としては大きく分けて以下の4つを行います。
- ExcelからPDF選択ボタンを押してPDFを選択すると、PDFから取得したテキストがセルに出力される
- 取得したテキストを整形ボタンで整形する
- 整形したテキストを手作業で編集する
- 編集したテキストをDeepLで翻訳する
必要なもの
OS
- Microsoft Windows 10 または Microsoft Windows 11
ソフトウェア
- Google Chrome
- Microsoft Excel 2010、Microsoft Excel 2016、Microsoft Excel 2019(Excel 2013、Excel 2021 は未確認)
- Microsoft Word 2016 または Microsoft Word2019(Word 2010、Word 2013、Word2021 は未確認)
- Chrome Driver
使い方
- SimpleTranslator の zip ファイル← クリックしてダウンロードします。
- 上記 1.でダウンロードした zip ファイルを解凍し、SimpleTranslator フォルダ内の SimpleTranslator.xlsm を開きます。
- 言語選択コンボボックスを選択します。
- 翻訳先の言語を選択します。
- 表示順を「翻訳文 → 原文」「原文 → 翻訳文」のどちらにするかのラジオボタンを選択します。
-
サンプルページをクリックすると以下のPDFが表示されるので下矢印をクリックします。
- 「名前を付けて保存」ダイアログが表示されるので「mud」と入力して「保存ボタン」を押し、PDFを保存します。
- 「PDF選択ボタン」を押します。
- 保存したPDFを選択し「OKボタン」を押します。
- WordでPDFを開き、テキストを取得する処理が始まります。※今のところプログレスバーなどの処理を入れていないので画面が止まったようになります。
- テキストを取得すると画面に取得したテキストが表示されるので「整形ボタン」を押し、取得したテキストを整形します。
- 不必要なテキストを削除します。赤枠囲まれたセルを選択し、キーボードの「Deleteキー」を押しテキストを削除します。
- 空白行を詰めるための「整形ボタン」を押します。
- 9行目のセルと10行目のセルのテキストが分断されているので、9行目のセルと10行目のセルを選択し「結合ボタン」を押します。
- 9行目のセルと10行目のセルが結合され、空白が詰められます。以上の作業を繰り返し、テキストが正しくなるまで修正します。
- テキストを修正したら「翻訳(HTML)ボタン」を押します
- 「名前を付けて保存」ダイアログが表示されます。
- 名前を入力し保存します。ここでは「mud」と入力し「保存ボタン」を押します。
- 翻訳が開始され、プログレスバーが表示されるのでしばらく待ちます。
- 翻訳が完成するとブラウザが立ち上がり翻訳結果が出力されます。
- 翻訳結果は HTML の形式でアプリケーションと同じ場所のディレクトリに作成されます。