LoginSignup
3
1

GPT-Builderで構造式の画像からSMILES式を出力してみる

Last updated at Posted at 2023-11-10

目的

Materials Informaticsではデータの収集が大事だが、自社の資料や特許などPDF中の構造式の画像からSMILES式に変換してまとめるのは大変に手間がかかる。
先日発表されたChatGPTのGPT-Builder機能を使って、構造式の画像をアップロードするとSMILES式を回答するbotを作成して回答精度を検証する。

準備

試薬サイトから、適当に構造式をスクショで撮った。

結果

一回戦

ターゲット①:メジャーかつシンプルな構造である、Bisphenol A
image.png
凄い!
クリアかと思いきや、SMILES式を描画すると正しくなかった。
image.png

ターゲット②:今日のおすすめの構造
image.png
またしても名称は分かっているようだ。
構造式は気持ちはわかるが、Nの数も違うし、正しくない。
image.png

二回戦

2つの構造とも名前は正解したが、構造は正しくなかった。ファイル名につけた化合物名をカンニングしているだけの可能性があるため、ファイル名はtest_1.png、test_2.pngとしてみた。
ターゲット①:シンプルな構造(Bisphenol A)
ファイル名をマスクしても構造を読み取れた。凄い!
image.png

SMILES式は間違っており先ほどと同じ構造。拘りがある模様。
image.png

ターゲット②:少し複雑(Hexahydro-1H,4H,7H-3a,6a,9a-triazaphenalene)
名称は正しい。
image.png
SMILES式は先ほどと同じで不正解。
image.png
ターゲット③:光学異性体(L-Azidohomoalanine)
またしても、名称と構造は正解!
image.png
SMILES式は不正解だった。アジドまで理解していたのに惜しい。立体構造は読み取れなかった。
image.png
ターゲット④:糖類(n-Dodecyl-β-D-maltoside)
正しくなかった。直鎖の構造に着目した模様。
image.png
SMILES式も正しくなかったが、含酸素構造は認識している。
image.png

まとめ

GPT-4Vでも構造式からSMILES式の出力はできなかった。
とはいえ、化合物自体は比較的認識できているので、PubchemのAPIと組み合わせて名称からSMILES式の出力はできそう。
ちなみに、深層学習による構造式変換ライブラリのDECIMERでは、①~③について正確にSMILES式を出力できたので、また次回に。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1