はじめに
pdfで書かれた特許文書内の化合物をどうにかSDFやSMILES形式で簡単にゲットできないかということで、掲題の件調べてみた。
参考文献からたどった程度であるが、あまりにも種類が多かったため、商用化されていないものなどはいくつか端折った。
PS. あんまり人に教えたくないけど、最新論文の序論や、レビュー論文読むのが情報収集にめちゃ効率的ですね。
OSRA: Optical Structure Recognition Application
WEBまたはコマンドラインで利用できる。
画像以外にもPDFに対応している。
上はNCIで開発されたVersion1であり、フリーソフトである。
Version2も以下で継続的に開発されている。
https://sourceforge.net/p/osra/wiki/Download/
Vervion2は認識率が上がっているがバイナリ版は有償となっているようだ。
CLiDE
Keymoduleで開発された商用ソフトウェア。画像の他にもPDFやHTML, ワード等様々な形式に対応している。
Standardでは1つずつだが、Professionalでは1度に大量の化合物を処理できるようだ。またこれらGUI版の他コマンドライン版のBatchというラインナップもある。
ChemoCR
URL:https://www.scai.fraunhofer.de/en/business-research-areas/bioinformatics/products/chemocr.html
SCAI社が提供する商用の化学構造式の認識プログラム。パターン認識技術と高度な機械学習の概念を組み合わた手法による。GUI、バッチ処理ともに可能とある。
Kekule: OCR-optical chemical (structure) recognition
199年代にJoe R. McDaniel, Jason R. Balmuth らによって開発された化学構造式の認識プログラム。詳しくは以下論文参照
論文:https://pubs.acs.org/doi/abs/10.1021/ci00008a018
ChemInfty
URL:http://www.inftyproject.org/jp/ChemInfty/
科学技術振興機構 研究成果最適展開支援事業(育成研究)平成21〜23年「文献や特許データベース中の化学構造式の認識と検索」のプロジェクトで開発された。
DECIMER: towards deep learning for chemical image recognition
URL: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00469-w
化学的な前提知識を一切(とまでは言い過ぎか?)用ないDeepLearningのみによる手法の論文。
論文では、5,000万から1億の構造の学習データで、ほぼ正確な予測を達成できる可能性があることが示唆されている。
OSSとオープンデータに基づいており、いかなる目的にも利用可能とある。githubにも公開されているため、機会があれば試して紹介したい。