More than 3 years have passed since last update.

画像から化学構造式を抽出するソフトウェアについてざっくり調べてみた

Last updated at 2020-12-26Posted at 2020-12-26

はじめに

pdfで書かれた特許文書内の化合物をどうにかSDFやSMILES形式で簡単にゲットできないかということで、掲題の件調べてみた。

参考文献からたどった程度であるが、あまりにも種類が多かったため、商用化されていないものなどはいくつか端折った。

PS. あんまり人に教えたくないけど、最新論文の序論や、レビュー論文読むのが情報収集にめちゃ効率的ですね。

OSRA: Optical Structure Recognition Application

WEBまたはコマンドラインで利用できる。
画像以外にもPDFに対応している。
上はNCIで開発されたVersion1であり、フリーソフトである。

Version2も以下で継続的に開発されている。
https://sourceforge.net/p/osra/wiki/Download/
Vervion2は認識率が上がっているがバイナリ版は有償となっているようだ。

CLiDE

Keymoduleで開発された商用ソフトウェア。画像の他にもPDFやHTML, ワード等様々な形式に対応している。
Standardでは1つずつだが、Professionalでは1度に大量の化合物を処理できるようだ。またこれらGUI版の他コマンドライン版のBatchというラインナップもある。

ChemoCR

URL:https://www.scai.fraunhofer.de/en/business-research-areas/bioinformatics/products/chemocr.html

SCAI社が提供する商用の化学構造式の認識プログラム。パターン認識技術と高度な機械学習の概念を組み合わた手法による。GUI、バッチ処理ともに可能とある。

Kekule: OCR-optical chemical (structure) recognition

199年代にJoe R. McDaniel, Jason R. Balmuth らによって開発された化学構造式の認識プログラム。詳しくは以下論文参照

論文：https://pubs.acs.org/doi/abs/10.1021/ci00008a018

ChemInfty

URL:http://www.inftyproject.org/jp/ChemInfty/

科学技術振興機構　研究成果最適展開支援事業（育成研究）平成21〜23年「文献や特許データベース中の化学構造式の認識と検索」のプロジェクトで開発された。

DECIMER: towards deep learning for chemical image recognition

URL: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00469-w

化学的な前提知識を一切(とまでは言い過ぎか?)用ないDeepLearningのみによる手法の論文。
論文では、5,000万から1億の構造の学習データで、ほぼ正確な予測を達成できる可能性があることが示唆されている。
OSSとオープンデータに基づいており、いかなる目的にも利用可能とある。githubにも公開されているため、機会があれば試して紹介したい。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up