Python
chemoinformatics
csd

The Cambridge Structural Database (CSD)​ まとめ


The Cambridge Structural Database (CSD)​

有機化合物や金属有機化合物などの世界一のデータベース。日本でアカデミックに利用する場合、大阪大学蛋白研究室が運用しているサーバーを利用することになる。実際にこのデータベースに触る機会があったが、日本語のドキュメントがあまり充実していないためまとめてみた。今後このデータベースを触るひとの助けになればと思う。


CSD-Systemの構成

データベースと付属の周辺ソフト、apiのまとまりをCSD-Systemとよぶ。CSD-Systemには以下のものが同封されている。流れとしてはConQuestでデータベースを検索して、Mercuryで検索結果の化合物を分析するといった感じ。プログラミングを用いた検索、解析としてAPIも提供されている。


  • ConQuest: CSD-System を検索・表示するためのソフト

  • Mercury: 結晶構造表示およびジオメトリーを始めとする検索結果を統計処理するソフト

  • IsoStar: Knowledge base の分子間相互作用のデータベース

  • Mogul: Knowledge base の分子内ジオメトリーのデータベース

  • WebCSD: Web インターフェースで CSD のデータを簡易的に検索 (1D/2D検索のみ)

  • PreQuest: In-house database を CSD フォーマットに変換するためのソフトウエア (配布終了のため,個別にご相談ください)

  • CSD Python API: script を書くことで自在な検索やワークフローを構築


CSDにはどのようなデータが保存されているか

csdのファイルフォーマットがなにかよくわからないが、データの中身はほぼcifファイルと同じものだと思う。構造データは多いが、化学的データはほぼない。参考にConQuestの検索結果の表示として


  • Author

  • Reference

  • Publication DOI

  • Deposition

  • Publication Notes

  • Formula

  • Compound

  • Synonym

  • CCDC Class

  • Spacegroup
    [Name, Number]

  • Cell
    [a,b,c, alpha, beta, gamma, Volume]

  • Reduced Cell
    [a,b,c alpha, beta, gamma, Volume]

  • Molecular Volume

  • Chemical Units

  • Z, Z'

  • R-Factor(%)

  • Disorder

  • Temperature(K)

  • Density
    [CCDC, Author]

  • Intensity Meas

  • Average Sigma(C-C)

  • Experimental Notes

  • CCDC Notes

  • Natural Source

  • Melting Point

  • Colour

  • Chemical Notes

  • Habit

  • Recryst.Solvent

  • Plymorph

  • Crystal Notes

がある。ConQuest User Guide and Tutorials

それぞれの意味について詳しく載っている。僕もわかる範囲で解説をするとまず前半は論文情報なので良いが、


  • Formula

    組成式


  • Compound

    IUPACの命名法の化合物名


  • Spacegroup

    [Name, Number]

    空間群


  • Cell

    [a,b,c, alpha, beta, gamma, Volume]

    結晶の単位胞あたりの3辺の長さや角度体積


  • Reduced Cell

    [a,b,c alpha, beta, gamma, Volume]

    緩和したセルあたりの3辺の長さや角度体積


  • Molecular Volume

    上記の体積を分子の数で割ったもの


  • Chemical Units

    結晶を構成する分子やイオンの数。


  • Z, Z'

    Zは単位胞あたりの分子の数。Z'はよくわからない。


  • R-Factor(%)

    R因子。モデルと実験値の正確性の指標。


  • Disorder

    欠陥があるかどうか。


  • Temperature(K)

    温度。


  • Density [CCDC, Author]

    密度


  • Intensity Meas

    おそらくMeasurementの略で測定方法だと思う。


  • Average Sigma(C-C)

    炭素間の平均の長さの標準偏差?


以下は付加情報でデータがあるものとないものが出てくる。必ずしもあるわけではないことに注意。


  • Experimental Notes

  • CCDC Notes

  • Natural Source

  • Melting Point

  • Colour

  • Chemical Notes

  • Habit

  • Recryst.Solvent

  • Plymorph

  • Crystal Notes


CSDでのファイル形式

ConQuestで検索した結果は以下のファイル形式でexportできる。


  • cif

  • cifmif

  • sdf

  • smile

  • shelx

  • tab

  • txt

  • coord

  • tsv

  • fdat

  • mol2

  • pdb

  • refcode

  • xml

sdfやcifにはよく変換できるが物によってはsmileには変換できないものもあった。sdfとしてexportしてRDKitでいろいろいじるとかできそうである。


Python APIリファレンス

このapiはデータベースに同封されています。アカデミーの場合、阪大蛋白研究室のサーバーをリモートで接続して使うことが想定されますが、この場合はそちらのサーバーでapiを実行することになります。