3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

The Cambridge Structural Database (CSD)​ まとめ

Last updated at Posted at 2018-11-21

The Cambridge Structural Database (CSD)​

有機化合物や金属有機化合物などの世界一のデータベース。日本でアカデミックに利用する場合、大阪大学蛋白研究室が運用しているサーバーを利用することになる。実際にこのデータベースに触る機会があったが、日本語のドキュメントがあまり充実していないためまとめてみた。今後このデータベースを触るひとの助けになればと思う。

CSD-Systemの構成

データベースと付属の周辺ソフト、apiのまとまりをCSD-Systemとよぶ。CSD-Systemには以下のものが同封されている。流れとしてはConQuestでデータベースを検索して、Mercuryで検索結果の化合物を分析するといった感じ。プログラミングを用いた検索、解析としてAPIも提供されている。

  • ConQuest: CSD-System を検索・表示するためのソフト
  • Mercury: 結晶構造表示およびジオメトリーを始めとする検索結果を統計処理するソフト
  • IsoStar: Knowledge base の分子間相互作用のデータベース
  • Mogul: Knowledge base の分子内ジオメトリーのデータベース
  • WebCSD: Web インターフェースで CSD のデータを簡易的に検索 (1D/2D検索のみ)
  • PreQuest: In-house database を CSD フォーマットに変換するためのソフトウエア (配布終了のため,個別にご相談ください)
  • CSD Python API: script を書くことで自在な検索やワークフローを構築

CSDにはどのようなデータが保存されているか

csdのファイルフォーマットがなにかよくわからないが、データの中身はほぼcifファイルと同じものだと思う。構造データは多いが、化学的データはほぼない。参考にConQuestの検索結果の表示として

  • Author
  • Reference
  • Publication DOI
  • Deposition
  • Publication Notes
  • Formula
  • Compound
  • Synonym
  • CCDC Class
  • Spacegroup
    [Name, Number]
  • Cell
    [a,b,c, alpha, beta, gamma, Volume]
  • Reduced Cell
    [a,b,c alpha, beta, gamma, Volume]
  • Molecular Volume
  • Chemical Units
  • Z, Z'
  • R-Factor(%)
  • Disorder
  • Temperature(K)
  • Density
    [CCDC, Author]
  • Intensity Meas
  • Average Sigma(C-C)
  • Experimental Notes
  • CCDC Notes
  • Natural Source
  • Melting Point
  • Colour
  • Chemical Notes
  • Habit
  • Recryst.Solvent
  • Plymorph
  • Crystal Notes

がある。ConQuest User Guide and Tutorials
それぞれの意味について詳しく載っている。僕もわかる範囲で解説をするとまず前半は論文情報なので良いが、

  • Formula
    組成式

  • Compound
    IUPACの命名法の化合物名

  • Spacegroup
    [Name, Number]
    空間群

  • Cell
    [a,b,c, alpha, beta, gamma, Volume]
    結晶の単位胞あたりの3辺の長さや角度体積

  • Reduced Cell
    [a,b,c alpha, beta, gamma, Volume]
    緩和したセルあたりの3辺の長さや角度体積

  • Molecular Volume
    上記の体積を分子の数で割ったもの

  • Chemical Units
    結晶を構成する分子やイオンの数。

  • Z, Z'
    Zは単位胞あたりの分子の数。Z'はよくわからない。

  • R-Factor(%)
    R因子。モデルと実験値の正確性の指標。

  • Disorder
    欠陥があるかどうか。

  • Temperature(K)
    温度。

  • Density [CCDC, Author]
    密度

  • Intensity Meas
    おそらくMeasurementの略で測定方法だと思う。

  • Average Sigma(C-C)
    炭素間の平均の長さの標準偏差?

以下は付加情報でデータがあるものとないものが出てくる。必ずしもあるわけではないことに注意。

  • Experimental Notes
  • CCDC Notes
  • Natural Source
  • Melting Point
  • Colour
  • Chemical Notes
  • Habit
  • Recryst.Solvent
  • Plymorph
  • Crystal Notes

CSDでのファイル形式

ConQuestで検索した結果は以下のファイル形式でexportできる。

  • cif
  • cifmif
  • sdf
  • smile
  • shelx
  • tab
  • txt
  • coord
  • tsv
  • fdat
  • mol2
  • pdb
  • refcode
  • xml

sdfやcifにはよく変換できるが物によってはsmileには変換できないものもあった。sdfとしてexportしてRDKitでいろいろいじるとかできそうである。

Python APIリファレンス

このapiはデータベースに同封されています。アカデミーの場合、阪大蛋白研究室のサーバーをリモートで接続して使うことが想定されますが、この場合はそちらのサーバーでapiを実行することになります。

3
1
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?