0
0
お題は不問!Qiita Engineer Festa 2024で記事投稿!
Qiita Engineer Festa20242024年7月17日まで開催中!

ブラウザ上でアミノ酸配列のモチーフ図を作成する [適当なタンパク質の選定~multiple alignment~図の作成]

Last updated at Posted at 2024-06-26

Chip-seq解析の結果を図示する際に、どのようなDNA配列が多くみられるか、モチーフ解析を行い、モチーフ図で示すことがある。
一方で、モチーフ図はDNA配列以外にも、アミノ酸配列の保存性を図示する際にも有用である。

本記事ではWebLogoという、ブラウザ上で簡単にモチーフ図を作成できるツールを紹介する。
具体的には、複数のアミノ酸配列をアライメントし、ブラウザ上でモチーフ図を作成する手順を、備忘録としてまとめる。

データの選定 (解析用に適当なタンパク質を選ぶ)

まず、モチーフ図を作成するためのデータを用意する。

PROSITEを用いて、適当なモチーフを検索してみる。
"zinc finger"で検索した結果の中から、PDOC00300 GATA-type zinc finger domain signature and profileに注目した。
"Scan UniProtKB (Swiss-Prot and/or TrEMBL) entries against PS50114"というボタンを押して、このモチーフを持つタンパク質を検索した。
その中から、適当にいくつかのタンパク質を選び、multi fastaファイルとして保存した。

>P23772_GATA3_MOUSE
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLGHSYMEAQYPLTEEVDVLFNIDGQGNHVP
SYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALSSHHTASPWNLSPFSKTS
IHHGSPGPLSVYPPASSSSLAAGHSSPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDEK
ECLKYQVQLPDSMKLETSHSRGSMTTLGGASSSAHHPITTYPPYVPEYSSGLFPPSSLLG
GSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPL
IKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKEG
IQTRNRKMSSKSKKCKKVHDALEDFPKSSSFNPAALSRHMSSLSHISPFSHSSHMLTTPT
PMHPPSGLSFGPHHPSSMVTAMG
>P23771_GATA3_HUMAN
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLSHSYMDAAQYPLPEEVDVLFNIDGQGNHV
PPYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALGSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLSGGHASPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVPLPDSMKLESSHSRGSMTALGGASSSTHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPL
IKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKEG
IQTRNRKMSSKSKKCKKVHDSLEDFPKNSSFNPAALSRHMSSLSHISPFSHSSHMLTTPT
PMHPPSSLSFGPHHPSSMVTAMG
>P23825_GATA3_CHICK
MEVSTDQPRWVSHHHPAVLNGQHPDSHHPTLGHTYMDPTQYPLAEEVDVLFNIDGQGNPV
PPYYGNSVRATVQRYPTAHHGSQVCRPPLLHGSLPWLDGSKALSSHHSASPWNLSPFSKT
SIHHSSPGPLSVYPPASSSTLSAGHSSPHLFTFPPTPPKDVSPDPSISTPGSTGSTRQDE
KECIKYQVSLADTMKLESSHSRSSMASLGGATSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDNLEDFPKSSSFNPAALSRHMSSISHISPFSHSSHMLTTP
TPMHPPSSLSFGPHHPSSMVTAMG
>P23767_GAT1A_XENLA
MDYTTLTTQDPDPNYTESGLASTSEDSQFLYGLGGESSPGHYGGAVSSRAVGGFRHSPVF
QTFPLHWPETSAGIPSNLTAYGRSTGTLSFYPSAASALGPITSPPLYSASSFLLGSAPPA
EREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGGGQEFSLFQSTEDRECVN
CGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPLIRPKKRLIVSKRAGTQCSNCHTSTT
TLWRRNASGDPVCNACGLYYKLHNVNRPLTMKKEGIQTRNRKVSSRSKKKKQLDNPFEPP
KAGVEEPSPYPFGPLLFHGQMPPMGHMINPPHHFLQSPRISHSAPAVSYRQAASGVTPP
>P43429_GATA1_RAT
MDFPGLGALGTSEPLPQFVDSALVSSTSDSAGFFSSGPESLDTASSSTSPNAATAAATAL
AYYREAEAYRHSPVFQVYPLLNSMEGIPGSSPYASWAYSKTALYPASTVCPSHEDAPSQT
LEDPDGKNNNTFLETLKTERLSPDLLTLGTALPTSLPVTSSAYGGADFPSPFFSPTGSPL
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRP
LIRPKKRMIVSKRAGTQCTNCQTTTTTLWRRNASGDPVCNACGLYYKLHQVNRPLTMRKD
GIQTRNRKASGKGKKKRGSSLAGAGAAEGPAGGFMVVAGGSSSGNCGEVAPGLTLGTAGT
AHLYQGLGPVVLSGPVSHLMSFPGPLLGSPTASFPTGPVPTTTSTSVVSPLSS

multiple alignmentの実行

上記のfasta形式ファイルをinputに、clustalWを用いて、Multiple Sequence Alignmentを行った(Output Formatはfasta形式に設定する。他はデフォルトで良い)
実行すると、以下のfastaファイルが得られる。

>P23772_GATA3_MOUSE
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLGHSYMEAQYP-LTEEVDVLFNIDGQGNHV
PSYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALSSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLAAGHSSPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVQLPDSMKLETSHSRGSMTTLGGASSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDALED-----------------------FPKSSSFNPAAL
SRHMSSLSHISPFSHSSHMLTTPTPMHPPSGLSFGPHHPSSMVTAMG------
>P23771_GATA3_HUMAN
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLSHSYMDAAQYPLPEEVDVLFNIDGQGNHV
PPYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALGSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLSGGHASPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVPLPDSMKLESSHSRGSMTALGGASSSTHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTG-RECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDSLED-----------------------FPKNSSFNPAAL
SRHMSSLSHISPFSHSSHMLTTPTPMHPPSSLSFGPHHPSSMVTAMG------
>P23825_GATA3_CHICK
MEVSTDQPRWVSHHHPAVLNGQHPDSHHPTLGHTYMDPTQYPLAEEVDVLFNIDGQGNPV
PPYYGNSVRATVQRYPTAHHGSQVCRPPLLHGSLPWLDGSKALSSHHSASPWNLSPFSKT
SIHHSSPGPLSVYPPASSSTLSAGHSSPHLFTFPPTPPKDVSPDPSISTPGSTGSTRQDE
KECIKYQVSLADTMKLESSHSRSSMASLGGATSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDNLED-----------------------FPKSSSFNPAAL
SRHMSSISHISPFSHSSHMLTTPTPMHPPSSLSFGPHHPSSMVTAMG------
>P23767_GAT1A_XENLA
-------------MDYTTLTTQDPD-------PNYTESGLASTSEDSQFLYGLGGESS--
PGHYGGAVSS-------RAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGRSTGTLSFY
PSAASALGPITSPPLYSASSFLLGSAPP--------------------------------
------------------AEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIG
GGG-------QEFSLFQSTEDRECVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRP
LIRPKKRLIVSKRAGTQCSNCHTSTTTLWRRNASGDPVCNACGLYYKLHNVNRPLTMKKE
GIQTRNRKVSSRSKKKKQLDNPFEPPKAGVE-----------------EPSPYPFGPLLF
HGQMPPMGHMINPPH--HFLQSPRISHSAPAVSYR--QAASGVTPP-------
>P43429_GATA1_RAT
----------MDFPGLGALGTSEPLPQFVDSALVSSTSDSAGFFSSGPESLDTASSSTSP
NAATAAATALAYYREAEAYRHSPVFQVYPLLNSMEGIPGSSPYASWAYSKTALYPASTVC
PSHEDAPSQTLEDPDGKNNNTFLETLKT--------------------------------
------------------ERLSPDLLTLGTALPTSLPVTSSAYGGADFPSPFFSPTGSPL
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRP
LIRPKKRMIVSKRAGTQCTNCQTTTTTLWRRNASGDPVCNACGLYYKLHQVNRPLTMRKD
GIQTRNRKASGKGKKKRGSSLAGAGAAEGPAGGFMVVAGGSSSGNCGEVAPGLTLGTAGT
AHLYQGLGPVVLSGPVSHLMSFPGPLLGSPTASFPTGPVPTTTSTSVVSPLSS

アライメントの結果が、このままだと見づらいので、Color Align Conservationというブラウザ上のサービスを使用する
上記のアライメント結果のファイルをinputに、実行すると以下に示すように、アライメントの結果がわかりやすく表示される。

スクリーンショット 2024-06-26 21.30.38.png

この中から、P23772_GATA3_MOUSEの240-319に対応するアライメントの結果について、以下でモチーフ図を作成することにする。

モチーフ図の作成

上記にように、アライメントの結果から、必要な部分のみ抽出し、multi fastaファイルとしてまとめた。

>P23772_GATA3_MOUSE
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23771_GATA3_HUMAN
GGSPTGFGCKSRPKARSSTG-RECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23825_GATA3_CHICK
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23767_GAT1A_XENLA
GGG-------QEFSLFQSTEDRECVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPLIRPKKRLIVSKRAGTQCSN
>P43429_GATA1_RAT
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRPLIRPKKRMIVSKRAGTQCTN

これをinputとして、モチーフ図を作成する。
モチーフ図の作成には、WebLogoというブラウザ上のサービスを利用した。
アライメントの結果をファイルをアップロードまたはフォームに直接貼り付け、optionの設定を行い、"create logo"のボタンを押して図を作成する。

ここでは、デフォルト設定から以下を変更した。
Small Sample Correction: Off
Multiline Logo (Symbols per Line): On [16]

完成した図は以下の通りである。

filebxWEDT.png

配列の保存性がわかりやすく図示されたと思う。

なお、今回使用したWebLogoは、アミノ酸配列だけではなく、DNA配列にも対応している。
optionの設定方法含め、詳しくは以下を参照してほしい。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0