The Cambridge Structural Database (CSD)
有機化合物や金属有機化合物などの世界一のデータベース。日本でアカデミックに利用する場合、大阪大学蛋白研究室が運用しているサーバーを利用することになる。実際にこのデータベースに触る機会があったが、日本語のドキュメントがあまり充実していないためまとめてみた。今後このデータベースを触るひとの助けになればと思う。
CSD-Systemの構成
データベースと付属の周辺ソフト、apiのまとまりをCSD-System
とよぶ。CSD-Systemには以下のものが同封されている。流れとしてはConQuest
でデータベースを検索して、Mercury
で検索結果の化合物を分析するといった感じ。プログラミングを用いた検索、解析としてAPIも提供されている。
- ConQuest: CSD-System を検索・表示するためのソフト
- Mercury: 結晶構造表示およびジオメトリーを始めとする検索結果を統計処理するソフト
- IsoStar: Knowledge base の分子間相互作用のデータベース
- Mogul: Knowledge base の分子内ジオメトリーのデータベース
- WebCSD: Web インターフェースで CSD のデータを簡易的に検索 (1D/2D検索のみ)
- PreQuest: In-house database を CSD フォーマットに変換するためのソフトウエア (配布終了のため,個別にご相談ください)
- CSD Python API: script を書くことで自在な検索やワークフローを構築
CSDにはどのようなデータが保存されているか
csdのファイルフォーマットがなにかよくわからないが、データの中身はほぼcifファイルと同じものだと思う。構造データは多いが、化学的データはほぼない。参考にConQuest
の検索結果の表示として
- Author
- Reference
- Publication DOI
- Deposition
- Publication Notes
- Formula
- Compound
- Synonym
- CCDC Class
- Spacegroup
[Name, Number] - Cell
[a,b,c, alpha, beta, gamma, Volume] - Reduced Cell
[a,b,c alpha, beta, gamma, Volume] - Molecular Volume
- Chemical Units
- Z, Z'
- R-Factor(%)
- Disorder
- Temperature(K)
- Density
[CCDC, Author] - Intensity Meas
- Average Sigma(C-C)
- Experimental Notes
- CCDC Notes
- Natural Source
- Melting Point
- Colour
- Chemical Notes
- Habit
- Recryst.Solvent
- Plymorph
- Crystal Notes
がある。ConQuest User Guide and Tutorials に
それぞれの意味について詳しく載っている。僕もわかる範囲で解説をするとまず前半は論文情報なので良いが、
-
Formula
組成式 -
Compound
IUPACの命名法の化合物名 -
Spacegroup
[Name, Number]
空間群 -
Cell
[a,b,c, alpha, beta, gamma, Volume]
結晶の単位胞あたりの3辺の長さや角度体積 -
Reduced Cell
[a,b,c alpha, beta, gamma, Volume]
緩和したセルあたりの3辺の長さや角度体積 -
Molecular Volume
上記の体積を分子の数で割ったもの -
Chemical Units
結晶を構成する分子やイオンの数。 -
Z, Z'
Zは単位胞あたりの分子の数。Z'はよくわからない。 -
R-Factor(%)
R因子。モデルと実験値の正確性の指標。 -
Disorder
欠陥があるかどうか。 -
Temperature(K)
温度。 -
Density [CCDC, Author]
密度 -
Intensity Meas
おそらくMeasurementの略で測定方法だと思う。 -
Average Sigma(C-C)
炭素間の平均の長さの標準偏差?
以下は付加情報でデータがあるものとないものが出てくる。必ずしもあるわけではないことに注意。
- Experimental Notes
- CCDC Notes
- Natural Source
- Melting Point
- Colour
- Chemical Notes
- Habit
- Recryst.Solvent
- Plymorph
- Crystal Notes
CSDでのファイル形式
ConQuestで検索した結果は以下のファイル形式でexportできる。
- cif
- cifmif
- sdf
- smile
- shelx
- tab
- txt
- coord
- tsv
- fdat
- mol2
- pdb
- refcode
- xml
sdfやcifにはよく変換できるが物によってはsmileには変換できないものもあった。sdfとしてexportしてRDKit
でいろいろいじるとかできそうである。
Python APIリファレンス
このapiはデータベースに同封されています。アカデミーの場合、阪大蛋白研究室のサーバーをリモートで接続して使うことが想定されますが、この場合はそちらのサーバーでapiを実行することになります。