3分くらいでできるゲノム解析

  • 44
    いいね
  • 0
    コメント

はじめに

※ この記事の内容は決して学術的なものではなく,ぼくの浅学さによる誤解があるかもしれません.

こんにちは.メディアアートコースメンターのハルくんです.

ぼくは大学で情報科学と生命科学を勉強しています.(ちなみに高校時代は文系でした)

最近,ペットに粘菌(Dictyostelium discoideum) を飼い始めました.

unspecified-1.jpg

最短経路問題を解いたりできるとっても賢いやつです.

さて,みなさんは人間という生き物のゲノム情報をデータとして捉えたとき,どのぐらいのファイルサイズになるかご存知ですか? だいたい700メガバイト,CD-R1枚分だそうです.

少し計算してみましょう.人間をはじめ,地球上のありとあらゆる生き物は"ATGC"という4つの塩基の組み合わせによってできています.この4つをコンピュータが扱うデータの最小単位,ビットで表現するとそれぞれ2ビットで表現できます(例:00,01,10,11).そして人間のゲノム情報(ヒトゲノム)は約30億個の塩基対で構成されています.
したがって30億個 × 2ビット = 60億ビット = 750メガバイト となります.

もし人間を最低限の情報量で表現しようとするとたったCD-R1枚分に収まってしまうのです.

人間とチンパンジーは似ているのか

ネットサーフィンをしていたら面白い記事を見つけました.
Our DNA is 99.9% the same as the person sitting next to us — and we're surprisingly similar to a bunch of other living things

内容は英語ですが要約して抜粋すると,

  • ヒトとヒト同士は遺伝的に99%似ている
  • ヒトとチンパンジーは96%似ている
  • ヒトとネコは90%似ている
  • ヒトとネズミは(部分的に)85%似ている
  • ヒトとウシは80%似ている
  • ヒトとショウジョウバエは(病原性の遺伝子が)61%似ている
  • ヒトとニワトリは60%似ている
  • ヒトとバナナは60%似ている

と書いてあります.
ヒトとチンパンジーとが似ているという話はよく聞きますよね.

実際のところ,どうなんでしょう.

材料を揃える

ヒトとチンパンジー,ネコ,ネズミ,ウシ,ショウジョウバエ,ニワトリのゲノム情報をネットで集めます.(バナナは今回省きます)

今の時代,ネットで日用品が購入できるように,ネットでゲノム情報が手に入るんです.

はじめに述べたようにヒトのゲノム情報は数百メガバイトありますし,その他の生き物も相応のサイズがあるので今回は上記の生物が共通して持っているタンパク質,Ribosomal RNA small subunit methyltransferase NEP1に関わるものだけを使うことにします.

データはタンパク質のアミノ酸配列データベース「UniProt」からダウンロードします

スクリーンショット 2016-12-15 12.14.41.png

目的の生物を検索してチェック欄にチェックを入れ上部のAdd to basket というボタンを押すとカゴの中に保存ができます.

心なしかUIがAmazonに似ている気がしますね.お金はかからないので安心してください.

今回は

ヒト
- Homo sapiens (Human)
チンパンジー
- Pan troglodytes (Chimpanzee)
ネコ
- Felis catus (Cat) (Felis silvestris catus)
ネズミ
- Mus musculus (Mouse)
ウシ
- Bos taurus (Bovine)
ショウジョウバエ
- Drosophila melanogaster (Fruit fly)
ニワトリ
- Gallus gallus (Chicken)

をFASTA というファイル形式でダウンロードします.

スクリーンショット 2016-12-14 21.26.05.png

材料を揃えるだけで3分近く経過してしまったような気がしますが,あの3分でクッキングする料理番組でも,「こちらにあらかじめn時間冷蔵庫で寝かせておいたXXXがあります」といった具合に,材料を揃える時間はカウントしませんよね.そういうことです.

系統樹を作成する

生物の進化における枝分かれを樹木の枝葉のように表現した図を系統樹といいます.
先ほどダウンロードした生物のデータをもとに系統樹を作成します.

通常はRやPerl,Python,専用のソフトウェアなどを使うことが多いのですが,オンラインで系統樹を作成できるWEBアプリを見つけたので,それでさくっと作ります.

http://www.phylogeny.fr/

サイトを下へスクロールしていくと「Phylogeny analysis」の項に"One Click"というリンクがあるのでクリックします.

するとファイルをアップロードできるようになっているので先ほどダウンロードしたFASTAファイルを選択します.
スクリーンショット 2016-12-14 21.18.56.png

しばらくすると系統樹が得られます.
わかりやすいよう,それぞれの項目を簡略に書き換えます.

phylo_tree.png

ヒトとチンパンジーが他の生物と比較するととても近い距離にいることがわかりますね.

ついで,ネズミに近く,つぎにネコやウシに近いことがわかります.ニワトリは離れていて,ショウジョウバエはかなり遠くに位置しています.

系統樹は作成に使用するツールによって,アスキーアートで表現できたり,

       , sp|Q92979|NEP1_HUMAN
   ____|
 ,|    | tr|K7CTR3|K7CTR3_PANTR
 ||
 ||____ tr|F1N532|F1N532_BOVIN
_|
 |______ sp|O35130|NEP1_MOUSE
 |
 |        ____________ tr|F1N832|F1N832_CHICK
 |_______|
         |_____________________________________________ sp|Q9W4J5|NEP1_DROME

こんな風に表現できたりします.

figure_1.png

順番の前後はありますが,おおむね最初に紹介したヒトとの遺伝的な類似度に近い結果が得られたかと思います.
今回使用した遺伝的な領域とは別の領域を選んだ場合には,順番がまた少し入れ替わったりするかもしれません.
また,

人間とチンパンジーのDNAは99%一致するというのは本当なのか?

こちらの記事で紹介されているように,ヒトとその他の生き物が遺伝的に似ているといっても,その度合いは様々な条件を設定した上での話のようです.条件によっても順番がまた少し入れ替わったりするかもしれません.

おわりに

思いの外,簡単にヒトとチンパンジーが近い生き物であることがわかったかと思います.

最近は生命をテーマにしたアート作品も多いので,こういうことも知っておけば何かの一助になるのではないでしょうか.

下のGIFアニメはぼくが以前作った,OpenCVでヒトの動きを検出して,そこにヒトゲノムをplot することでATGCでヒトを表現したものです.


openFrameworks でFASTA形式のファイルを読み込んでヒトの形にplot した