前回、PhytoMine-Pythonで遺伝子情報を取得する方法を紹介しました。
今回、PhytoMine-Pythonで遺伝子の配列を取得する簡単な方法がわかったので備忘録として。
1. PhytoMineのDataSourcesにアクセス
2. 取得したい配列へのリンクにアクセス
今回はProteinsを選択。
3. 配列を取得したい植物種のリンクを選択
今回はポプラ(Populus trichocarpa)を選択。
4. 右上のGenerate Python Codeをクリック
すると、Pythonコードが出てきます。このコードをコピペで使うことができます。python2用になっているので、print文の書き換えが必要ですが、それ以外はそのまま使えるようです。
以下は、指定した植物種のデータをcsv形式で保存する用に改変したものです。
import pandas as pd
from intermine.webservice import Service
service = Service("https://phytozome.jgi.doe.gov/phytomine/service")
query = service.new_query("Protein")
query.add_constraint("organism.shortName", "=", "P. trichocarpa", code = "A")
seq_df = []
for row in query.rows(size=size):
seq_df.append(row)
seq_df = pd.DataFrame(seq_df,columns=row.keys())
seq_df.to_csv("20201005_Proteins_Top20.csv")
こんな感じで保存されます。
今回はお試しなので最初の20遺伝子のみ保存するようにしていますが、原理的には全ての遺伝子を一括で保存できるはずです。
ちなみに、プルダウンで他の言語も選択できます。