Chip-seq解析の結果を図示する際に、どのようなDNA配列が多くみられるか、モチーフ解析を行い、モチーフ図で示すことがある。
一方で、モチーフ図はDNA配列以外にも、アミノ酸配列の保存性を図示する際にも有用である。
本記事ではWebLogoという、ブラウザ上で簡単にモチーフ図を作成できるツールを紹介する。
具体的には、複数のアミノ酸配列をアライメントし、ブラウザ上でモチーフ図を作成する手順を、備忘録としてまとめる。
データの選定 (解析用に適当なタンパク質を選ぶ)
まず、モチーフ図を作成するためのデータを用意する。
PROSITEを用いて、適当なモチーフを検索してみる。
"zinc finger"で検索した結果の中から、PDOC00300 GATA-type zinc finger domain signature and profileに注目した。
"Scan UniProtKB (Swiss-Prot and/or TrEMBL) entries against PS50114"というボタンを押して、このモチーフを持つタンパク質を検索した。
その中から、適当にいくつかのタンパク質を選び、multi fastaファイルとして保存した。
>P23772_GATA3_MOUSE
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLGHSYMEAQYPLTEEVDVLFNIDGQGNHVP
SYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALSSHHTASPWNLSPFSKTS
IHHGSPGPLSVYPPASSSSLAAGHSSPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDEK
ECLKYQVQLPDSMKLETSHSRGSMTTLGGASSSAHHPITTYPPYVPEYSSGLFPPSSLLG
GSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPL
IKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKEG
IQTRNRKMSSKSKKCKKVHDALEDFPKSSSFNPAALSRHMSSLSHISPFSHSSHMLTTPT
PMHPPSGLSFGPHHPSSMVTAMG
>P23771_GATA3_HUMAN
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLSHSYMDAAQYPLPEEVDVLFNIDGQGNHV
PPYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALGSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLSGGHASPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVPLPDSMKLESSHSRGSMTALGGASSSTHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPL
IKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKEG
IQTRNRKMSSKSKKCKKVHDSLEDFPKNSSFNPAALSRHMSSLSHISPFSHSSHMLTTPT
PMHPPSSLSFGPHHPSSMVTAMG
>P23825_GATA3_CHICK
MEVSTDQPRWVSHHHPAVLNGQHPDSHHPTLGHTYMDPTQYPLAEEVDVLFNIDGQGNPV
PPYYGNSVRATVQRYPTAHHGSQVCRPPLLHGSLPWLDGSKALSSHHSASPWNLSPFSKT
SIHHSSPGPLSVYPPASSSTLSAGHSSPHLFTFPPTPPKDVSPDPSISTPGSTGSTRQDE
KECIKYQVSLADTMKLESSHSRSSMASLGGATSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDNLEDFPKSSSFNPAALSRHMSSISHISPFSHSSHMLTTP
TPMHPPSSLSFGPHHPSSMVTAMG
>P23767_GAT1A_XENLA
MDYTTLTTQDPDPNYTESGLASTSEDSQFLYGLGGESSPGHYGGAVSSRAVGGFRHSPVF
QTFPLHWPETSAGIPSNLTAYGRSTGTLSFYPSAASALGPITSPPLYSASSFLLGSAPPA
EREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGGGQEFSLFQSTEDRECVN
CGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPLIRPKKRLIVSKRAGTQCSNCHTSTT
TLWRRNASGDPVCNACGLYYKLHNVNRPLTMKKEGIQTRNRKVSSRSKKKKQLDNPFEPP
KAGVEEPSPYPFGPLLFHGQMPPMGHMINPPHHFLQSPRISHSAPAVSYRQAASGVTPP
>P43429_GATA1_RAT
MDFPGLGALGTSEPLPQFVDSALVSSTSDSAGFFSSGPESLDTASSSTSPNAATAAATAL
AYYREAEAYRHSPVFQVYPLLNSMEGIPGSSPYASWAYSKTALYPASTVCPSHEDAPSQT
LEDPDGKNNNTFLETLKTERLSPDLLTLGTALPTSLPVTSSAYGGADFPSPFFSPTGSPL
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRP
LIRPKKRMIVSKRAGTQCTNCQTTTTTLWRRNASGDPVCNACGLYYKLHQVNRPLTMRKD
GIQTRNRKASGKGKKKRGSSLAGAGAAEGPAGGFMVVAGGSSSGNCGEVAPGLTLGTAGT
AHLYQGLGPVVLSGPVSHLMSFPGPLLGSPTASFPTGPVPTTTSTSVVSPLSS
multiple alignmentの実行
上記のfasta形式ファイルをinputに、clustalWを用いて、Multiple Sequence Alignmentを行った(Output Formatはfasta形式に設定する。他はデフォルトで良い)
実行すると、以下のfastaファイルが得られる。
>P23772_GATA3_MOUSE
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLGHSYMEAQYP-LTEEVDVLFNIDGQGNHV
PSYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALSSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLAAGHSSPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVQLPDSMKLETSHSRGSMTTLGGASSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDALED-----------------------FPKSSSFNPAAL
SRHMSSLSHISPFSHSSHMLTTPTPMHPPSGLSFGPHHPSSMVTAMG------
>P23771_GATA3_HUMAN
MEVTADQPRWVSHHHPAVLNGQHPDTHHPGLSHSYMDAAQYPLPEEVDVLFNIDGQGNHV
PPYYGNSVRATVQRYPPTHHGSQVCRPPLLHGSLPWLDGGKALGSHHTASPWNLSPFSKT
SIHHGSPGPLSVYPPASSSSLSGGHASPHLFTFPPTPPKDVSPDPSLSTPGSAGSARQDE
KECLKYQVPLPDSMKLESSHSRGSMTALGGASSSTHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTG-RECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDSLED-----------------------FPKNSSFNPAAL
SRHMSSLSHISPFSHSSHMLTTPTPMHPPSSLSFGPHHPSSMVTAMG------
>P23825_GATA3_CHICK
MEVSTDQPRWVSHHHPAVLNGQHPDSHHPTLGHTYMDPTQYPLAEEVDVLFNIDGQGNPV
PPYYGNSVRATVQRYPTAHHGSQVCRPPLLHGSLPWLDGSKALSSHHSASPWNLSPFSKT
SIHHSSPGPLSVYPPASSSTLSAGHSSPHLFTFPPTPPKDVSPDPSISTPGSTGSTRQDE
KECIKYQVSLADTMKLESSHSRSSMASLGGATSSAHHPITTYPPYVPEYSSGLFPPSSLL
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRP
LIKPKRRLSAARRAGTSCANCQTTTTTLWRRNANGDPVCNACGLYYKLHNINRPLTMKKE
GIQTRNRKMSSKSKKCKKVHDNLED-----------------------FPKSSSFNPAAL
SRHMSSISHISPFSHSSHMLTTPTPMHPPSSLSFGPHHPSSMVTAMG------
>P23767_GAT1A_XENLA
-------------MDYTTLTTQDPD-------PNYTESGLASTSEDSQFLYGLGGESS--
PGHYGGAVSS-------RAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGRSTGTLSFY
PSAASALGPITSPPLYSASSFLLGSAPP--------------------------------
------------------AEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIG
GGG-------QEFSLFQSTEDRECVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRP
LIRPKKRLIVSKRAGTQCSNCHTSTTTLWRRNASGDPVCNACGLYYKLHNVNRPLTMKKE
GIQTRNRKVSSRSKKKKQLDNPFEPPKAGVE-----------------EPSPYPFGPLLF
HGQMPPMGHMINPPH--HFLQSPRISHSAPAVSYR--QAASGVTPP-------
>P43429_GATA1_RAT
----------MDFPGLGALGTSEPLPQFVDSALVSSTSDSAGFFSSGPESLDTASSSTSP
NAATAAATALAYYREAEAYRHSPVFQVYPLLNSMEGIPGSSPYASWAYSKTALYPASTVC
PSHEDAPSQTLEDPDGKNNNTFLETLKT--------------------------------
------------------ERLSPDLLTLGTALPTSLPVTSSAYGGADFPSPFFSPTGSPL
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRP
LIRPKKRMIVSKRAGTQCTNCQTTTTTLWRRNASGDPVCNACGLYYKLHQVNRPLTMRKD
GIQTRNRKASGKGKKKRGSSLAGAGAAEGPAGGFMVVAGGSSSGNCGEVAPGLTLGTAGT
AHLYQGLGPVVLSGPVSHLMSFPGPLLGSPTASFPTGPVPTTTSTSVVSPLSS
アライメントの結果が、このままだと見づらいので、Color Align Conservationというブラウザ上のサービスを使用する
上記のアライメント結果のファイルをinputに、実行すると以下に示すように、アライメントの結果がわかりやすく表示される。
この中から、P23772_GATA3_MOUSEの240-319に対応するアライメントの結果について、以下でモチーフ図を作成することにする。
モチーフ図の作成
上記にように、アライメントの結果から、必要な部分のみ抽出し、multi fastaファイルとしてまとめた。
>P23772_GATA3_MOUSE
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23771_GATA3_HUMAN
GGSPTGFGCKSRPKARSSTG-RECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23825_GATA3_CHICK
GGSPTGFGCKSRPKARSSTEGRECVNCGATSTPLWRRDGTGHYLCNACGLYHKMNGQNRPLIKPKRRLSAARRAGTSCAN
>P23767_GAT1A_XENLA
GGG-------QEFSLFQSTEDRECVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPLIRPKKRLIVSKRAGTQCSN
>P43429_GATA1_RAT
SSAAYSSPKFHGSLPLAPCEARECVNCGATATPLWRRDRTGHYLCNACGLYHKMNGQNRPLIRPKKRMIVSKRAGTQCTN
これをinputとして、モチーフ図を作成する。
モチーフ図の作成には、WebLogoというブラウザ上のサービスを利用した。
アライメントの結果をファイルをアップロードまたはフォームに直接貼り付け、optionの設定を行い、"create logo"のボタンを押して図を作成する。
ここでは、デフォルト設定から以下を変更した。
Small Sample Correction: Off
Multiline Logo (Symbols per Line): On [16]
完成した図は以下の通りである。
配列の保存性がわかりやすく図示されたと思う。
なお、今回使用したWebLogoは、アミノ酸配列だけではなく、DNA配列にも対応している。
optionの設定方法含め、詳しくは以下を参照してほしい。