初めに
仕事として、遺伝子系のプログラムを手伝うこととなり、初めてのことが多くて困惑しています(´;ω;`)
ということで、学んでいったことを忘れる前にどっかに書こうと思って、この記事を書いてみました。
あくまで備忘録なんで、図とかコード追加するかは不明だけど、何とかわかりやすく書ければなと。
ここでは疾患ゲノム解析についての大まかな内容と、きっとこういうことだろうという自分なりの解釈を書いています。
もちろん専門家でも何でもないんで、ぜひ間違っていたら教えてほしいです!!
というわけで、まずは全体像から!!
ワークフロー
この章ではこの作業でやりたいことと、全体の手順について述べる。
疾患ゲノム解析とは、一般的な遺伝子との違いを確かめることで、遺伝子由来の疾患を探すというものである。
「えっ?」って言いたくなる人もいると思う。
簡単に言うと… (言える自信はないが…)
A君「病気って、遺伝子情報のせいで起こることもあるらしいよね。」
A君「遺伝子情報から糖尿病になりやすいとか、目が悪くなりやすいとかいろいろ分かればいいのに!」
B君「じゃあ、糖尿病の人とそうじゃない人の遺伝子情報を比較して、違いを見ればわかるんじゃない??」
A君「いやでも、その遺伝子情報が本当に糖尿病の違いを表してるかわからないじゃない。」
A君「違いが10個見つかったとして、全てが糖尿病を引き起こすものとは言えないし…」
B君「じゃあ、大量に人の遺伝子情報を手に入れて、遺伝子のテンプレを作ろう!」
B君「そのテンプレと比較したら、少なくとも他の人と自分でどんな遺伝子の違いがあるのか分かるだろ」
A君「違いが分かったって、同じことだろ?」
A君「結局その違いがなんの病気を引き起こすかは分からないじゃないか」
B君「うーん」
B君「でも、その違いを大量に集めて、傾向をつかむってのはできるんじゃない??」
B君「この遺伝子が違うと、こういう症状になりやすいとかぐらいは分かるんじゃない??」
お分かりいただけただろうか???
多分わからないと思うが、要は…
- 左に一般的なの遺伝子を、右に被験者の遺伝子を置いて、間違い探しをする。
- 見つかった間違いから、遺伝子による疾患の傾向をつかむ。
ということだ。
今回はそれを様々なツールの紹介とともに行っていく。
シーケンスデータ
まず、被験者のデータを持ってくるとこから解析が始まる。
とは言っても、遺伝子の情報を一本丸ごと持ってこれるわけではないらしい。
すなわち、断片的な遺伝子情報を大量に持ってくることしかできないということだ。
間違い探しの例に直すと、被験者の絵が1枚絵ではなく小さな絵が大量にあるイメージ。
ここでTrimmomaticというツールを使う。
このツールは、バラバラの遺伝子情報に対して解析しやすいように加工するためのツールらしい。
(場合によってはやらなくてもよいらしいが、それについてはよくわかってないです…泣)
リファレンスゲノムデータ
次に、遺伝子情報のテンプレが必要になる。
間違い探しでいうと、もう片方の絵というイメージかな。
ここでは、このデータをリファレンスゲノムデータと呼ぶ。
マッピング
ここで解析するデータを1つ1つ見ていくこととなる。
まず、リファレンスゲノムデータの中で一番近いと思われる場所を探していく。
間違い探しの例でいうと、この小さな絵はここらへんじゃないかな??
と、テンプレの絵を見ながら、小さな絵が当てはまりそうな場所を探していくイメージ。
これにより、被験者側の小さな絵を1枚1枚置いてって、1枚絵を作成していく。
この作業はBWAというツールを使って、被験者の遺伝子をマッピングしていく。
その後、PicardやSamtoolsというツールを使って、データを解析しやすくなるよう加工をする。
例えば、index付の作業では、遺伝子の番地を作成する。
間違い探しの例でいうと、絵を格子状にブロック分けして、
間違いはAの2番にあります!!
ってな感じで、ほかの人に伝えやすくする作業といえばいいのかな??
データとの差異を見る
マッピングしたデータから、遺伝子の欠損や挿入を探す。
先ほどの過程でリファレンスゲノムデータに、シーケンスデータをマッピングした。
これにより、リファレンスゲノムデータとの差異が発見しやすくなっている。
間違い探しの例でいうと、ここでやっと2枚の絵が完成したので、間違い探しを行おうというわけだ。
この間違い探しを行うことで、一般の人と被験者のデータの差異を見つけることになる。
ここでGATK(Genome Analysis Toolkit)を使うことで検出を行う。
意味づけ
前章でGATKを使って、遺伝子の間違い探しを行った。
もちろんこれで終わりではなく、その違いがどのような変化を及ぼすかを知りたくなる。
そこで、これまでの研究で分かったデータと照らし合わせて、
その遺伝子の違いによってどんな病気や障害が発生するかを調べる必要がある。
間違い探しの例でいうと、やっと間違い探しが終わったので、
この間違いがどんな意味があるのかなと、調べてみる感じ。
…いや、間違い探しでこの過程は見たことないけど( ´∀` )
ここで使うのがAnnvorである。
感想
正直、まだまだ始めたばっかりで、分からないことが多いっす…。
そもそも遺伝子についても中学や高校でやったはずだけど、ほとんど覚えてない…。
けど、雇ってもらった以上迷惑はかけたくないので、頑張りたいと思います。
また色々分かったことがあれば備忘録としてQiitaに書いていこうかな~
(でも書くの大変だから、次はいつになるかなあ…なんて笑)
もし「ここが違うよ!」とか、
「こんなツールがあるよ!」などあれば、気軽にコメントいただけるとありがたい。
WCLとか使ってプログラムを書かせていただいているので、
その辺についてもいろいろ備忘録として書ければなあ…と思います。
参考文献
(2015)清水厚志、坊農秀雅.『細胞工学別冊 次世代シークエンサーDRY解析教本』.株式会社学研メディカル秀潤社.p142~193.