Simple Translator(外国語翻訳ツール)の特許文献情報抽出機能
概要
以前、外国語の翻訳を一括(連続)で行う以下のアプリケーションを作りましたが、あまり需要のない外国語特許文献を翻訳する機能を説明していなかったので新しく記事を作成しました。自分は弁理士でも翻訳の専門家でもないので大きなことは言えませんが、発明内容の理解には十分なレベルで翻訳されると思います。特許に関わるすべての方々、頑張ってください!
※現状、Google Patentsにアクセスするときの文献番号のチェックを行っていません。文献番号を正確に入れないと特許文献情報を取得できません。いずれチェックをいれるかもしれません。
※ここでは外国語特許文献情報を一括翻訳(連続翻訳)する機能の説明を行いますが、外国語特許文献を読む人は外国語論文も読むことが多いので外国語論文PDFからテキスト情報を取得し、一括翻訳(連続翻訳)する記事のリンクも以下に載せておきます。
Simple Translator(外国語翻訳ツール)のページはこちら
外国語論文PDFからテキストを取得し、DeepLで一括翻訳(連続翻訳)するページはこちら
技術的に工夫した点
課題
現在の仕事において外国語特許文献を読む機会が多く、用意された翻訳ツールの翻訳精度が低いので、どうにかできないか調べたところ、Google Patentsから特許文献情報を取得できることが分かりました。しかし、Google Patentsから取得した特許文献情報には問題があります。段落番号が途中で抜けていたり、段落番号が間違っていたりする問題があるので、ただ翻訳するだけでは正確な翻訳が得られません。
解決手段
Google Patentsから取得した特許文献情報を一旦Excelに出力し、出力された特許文献情報を修正してから翻訳するようにしました。すべてを自動で行うのではなく「特許文献情報取得」と「特許文献情報翻訳」の間に手作業で行う「特許文献情報編集」をワンクッション入れた半手動のアプリケーションとしました。
作業手順としては大きく分けて以下の4つを行います。
- Excelの文献番号入力欄に文献番号を入力して検索ボタンを押すと、Google Patentsから取得した特許文献情報がセルに出力される
- 取得した特許文献情報を特許整形ボタンで整形する
- 整形した特許文献情報を手作業で編集する
- 編集した特許文献情報をDeepLで翻訳する
必要なもの
OS
- Microsoft Windows 10 または Microsoft Windows 11
ソフトウェア
- Google Chrome
- Microsoft Excel 2010、Microsoft Excel 2016、Microsoft Excel 2019(Excel 2013、Excel 2021 は未確認)
- Chrome Driver
使い方
- SimpleTranslator の zip ファイル← クリックしてダウンロードします。
- 上記 1.でダウンロードした zip ファイルを解凍し、SimpleTranslator フォルダ内の SimpleTranslator.xlsm を開きます。
- 言語選択コンボボックスを選択します。
- 翻訳先の言語を選択します。
- 表示順を「翻訳文 → 原文」「原文 → 翻訳文」のどちらにするかのラジオボタンを選択します。
- 「文献番号入力欄」を選択し、文献番号を入力します。ここでは「US20220001273」と入力したとします。
- 「検索ボタン」を押します。バックグラウンドでGoogle Chromeを開きGoogle Patentsにアクセスし、特許文献情報を取得します。
- 特許文献情報が取得されます。段落番号([0001][0002]など)がある場合は「特許整形ボタン」を押します。そうでない場合は「整形ボタン」を押します。
- 段落番号がある場合は特許文献情報が段落ごとに整形されます。
- ここで段落番号が途中で抜けていたり、段落番号が間違っていたりした場合は手で段落番号を修正してください。
- 段落番号に誤りがなくなったら再度「特許整形ボタン」を押します。
- 整形後、「翻訳(HTML)ボタン」を押します。
- 「名前を付けて保存」ダイアログが表示されます。ここでは「US20220001273」と入力し「保存ボタン」を押します。
- 翻訳が開始され、プログレスバーが表示されるのでしばらく待ちます。
- 翻訳が完成するとブラウザが立ち上がり翻訳結果が出力されます。
- 翻訳結果は HTML の形式でアプリケーションと同じ場所のディレクトリに作成されます。