More than 5 years have passed since last update.

PhytoMine-Pythonで特定の植物種の遺伝子配列データを効率よく取得する方法

Posted at 2020-10-05

前回、PhytoMine-Pythonで遺伝子情報を取得する方法を紹介しました。
今回、PhytoMine-Pythonで遺伝子の配列を取得する簡単な方法がわかったので備忘録として。

1. PhytoMineのDataSourcesにアクセス

2. 取得したい配列へのリンクにアクセス

今回はProteinsを選択。

3. 配列を取得したい植物種のリンクを選択

今回はポプラ（Populus trichocarpa）を選択。

4. 右上のGenerate Python Codeをクリック

すると、Pythonコードが出てきます。このコードをコピペで使うことができます。python2用になっているので、print文の書き換えが必要ですが、それ以外はそのまま使えるようです。

以下は、指定した植物種のデータをcsv形式で保存する用に改変したものです。

import pandas as pd
from intermine.webservice import Service
service = Service("https://phytozome.jgi.doe.gov/phytomine/service")
query = service.new_query("Protein")
query.add_constraint("organism.shortName", "=", "P. trichocarpa", code = "A")

seq_df = []

for row in query.rows(size=size):
    seq_df.append(row)

seq_df = pd.DataFrame(seq_df,columns=row.keys())
seq_df.to_csv("20201005_Proteins_Top20.csv")

こんな感じで保存されます。

今回はお試しなので最初の20遺伝子のみ保存するようにしていますが、原理的には全ての遺伝子を一括で保存できるはずです。

ちなみに、プルダウンで他の言語も選択できます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up