目的
Materials Informaticsではデータの収集が大事だが、自社の資料や特許などPDF中の構造式の画像からSMILES式に変換してまとめるのは大変に手間がかかる。
先日発表されたChatGPTのGPT-Builder機能を使って、構造式の画像をアップロードするとSMILES式を回答するbotを作成して回答精度を検証する。
準備
試薬サイトから、適当に構造式をスクショで撮った。
結果
一回戦
ターゲット①:メジャーかつシンプルな構造である、Bisphenol A
凄い!
クリアかと思いきや、SMILES式を描画すると正しくなかった。
ターゲット②:今日のおすすめの構造
またしても名称は分かっているようだ。
構造式は気持ちはわかるが、Nの数も違うし、正しくない。
二回戦
2つの構造とも名前は正解したが、構造は正しくなかった。ファイル名につけた化合物名をカンニングしているだけの可能性があるため、ファイル名はtest_1.png、test_2.pngとしてみた。
ターゲット①:シンプルな構造(Bisphenol A)
ファイル名をマスクしても構造を読み取れた。凄い!
SMILES式は間違っており先ほどと同じ構造。拘りがある模様。
ターゲット②:少し複雑(Hexahydro-1H,4H,7H-3a,6a,9a-triazaphenalene)
名称は正しい。
SMILES式は先ほどと同じで不正解。
ターゲット③:光学異性体(L-Azidohomoalanine)
またしても、名称と構造は正解!
SMILES式は不正解だった。アジドまで理解していたのに惜しい。立体構造は読み取れなかった。
ターゲット④:糖類(n-Dodecyl-β-D-maltoside)
正しくなかった。直鎖の構造に着目した模様。
SMILES式も正しくなかったが、含酸素構造は認識している。
まとめ
GPT-4Vでも構造式からSMILES式の出力はできなかった。
とはいえ、化合物自体は比較的認識できているので、PubchemのAPIと組み合わせて名称からSMILES式の出力はできそう。
ちなみに、深層学習による構造式変換ライブラリのDECIMERでは、①~③について正確にSMILES式を出力できたので、また次回に。