バイオインフォって敷居高い
NGSの進化とともにますます技術として定着してきたバイオインフォマティクスですが、データベースの充実とともにわかることが増えてきました。さらに、シーケンスの値段も下がってきて、どんなラボでも動かせる当たり前の技術になってきました。しかし、NGSでの解析の難関は最終工程です。パソコンで黒い画面を見ながら、よく分からない暗号を生物学者が打たないといけません。反復作業なので慣れてくるとキャラクターで操作する方が楽に感じてきますが、慣れてないときは、、、それはそれはストレスが溜まる作業の連続です。僕自身の経験をシェアするとともに、どうやって勉強してきたのかを振り返りたいと思います。
バイオインフォの勉強を始めたきっかけ
バイオインフォマティクスの勉強を始めたきっかけはズバリ卒論です。当初、マイクロアレイをやる予定でしたので、Rを使ってやりたいと思い、プログラミングの勉強を始めました。ただ、その後試薬の関係でRNA-Seqにするかもという展開になり、急遽DRY解析本を手に取った記憶があります。当時ラボでは16S rRNAの解析が精一杯という感じで、(ITSもやってましたが)、少なくともRNA-Seqについて聴きに行ける人はいませんでした。他のラボに聴きに行くと、CLCを使ったとか、委託で全部やってもらったとか、誰もコマンドでやってませんでした。まぁ仕方ないと思い、DRY解析本を写経するところから始めました。
最初は辛かった
最新版のDRY解析本とは違い、第一版は購入時点で発売から時間が経ってましたので、写経では動きません。度々エラーが出るし、そんなコマンドねえよってMacに怒られるし、イライラしながらやっていた記憶があります。ただ、Macが間違えているのではなく、常に自分が間違えているわけなので、何度も見直し、何度も書き直しをしていると、少しずつ意味がわかってきました。ある意味時間が経過していたことで、非常に勉強になりました。
RNA-SeqでTophatはダメだと言われる
TwitterでTophatを使っているのは時代遅れという内容のツイートを見かけました。こっちは死ぬ気で勉強したんだぞ、と思いつつ、調べていくとHisat2があることを知りました。Dry解析本で学んだ基礎を生かして、Hisat2を動かすと思ったよりすんなり動いて、RNA-Seqで大抵のことが出来るようになりました。RNA-SeqはRでの作業が多いのが一つラッキーでした。
RNA-Seq中止、ゲノムをやることにする
せっかくRNA-Seqをランできるようにしましたが、RNA-Seqが当時めちゃ高くて、あまり条件を試せなさそうだったので、思い切って違うテーマをやることにしました。それまでの勉強が無駄になった感じがありましたが、思いきりが重要だと思い、バクテリアゲノム解析をやり始めました。ゲノム解析での問題点は、「使うべきソフトウェアがそもそもよくわからない」、「どんな解析があるのかよくわからない」です。ここから先は十分な教科書がなかったので、ネットで調べながらやることにしました。主にお世話になったのはUesakaさんのMacでインフォマティクスと製作者のGithubページだと思います。最初に辞書としてMacでインフォマティクスを用いて調べて、そのあとGithubに飛んでマニュアルを見ながら解析をするという感じです。マニュアルがよくわからなければ、Macでインフォマティクスに戻ってUesakaさんの説明を読む、そんな感じでやってました。
この辺でminicondaを知る
最初パッケージとしてMacportsを使っていましたが、あまり有用性を感じていませんでした。Dry解析本を読んだ後、homebrewに飛びました。brew install hogeで色々落として使えるようになりました。なんて便利なんだと深夜のラボで感動した記憶が残っています。ただ、Dry解析本時点であまり深くhomebrewのすごさに気づいていませんでした。自分で勉強し始めて、homebrewの便利さを知りました。そして、minicondaを知りました。conda install hogeだけでなく、仮想も作れるわけです。うーん、すごい。解析の幅が広がりました。
ここまで来てようやく大抵の論文が読めるようになる
特定分野を理解できているかどうかの指標として、論文が読めるかどうかってあると思います。僕は少なくともそれで自分の理解度を試します。minicondaで解析ソフトなどを入れ始めた頃にようやく論文が読めるようになりました。実験屋になる予定だったのでそういう論文は読めますが、研究室に入った後も自分の解析系の論文は意味不明でした。ただ、解析を始めて、自分で手を動かす中で読める論文が増え、今では最新の論文を読んで、環境さえあれば自分のパソコンで動かして確かめるくらいは簡単にできます。
今の自分とこれからの自分
バイオインフォマティクスの勉強を始めて100%世界観が変わったと思います。意味もきちんと理解してできる解析はまだ数えるほどですが、自分にとって新しい解析を覚えることのハードルはあまり高くないです。今までの経験があるわけですし、基本的にどんなソフトでも環境さえあれば動かせるわけですから。ただ、今の自分の問題点は、人が作ったものを動かすだけという点に収まっている点だと思います。これからの自分として、新しいものを作りたい、と思います。今は使う側から作る側になれたらと思い、勉強中です!自分のバイオインフォに対する知識はまだまだだと思いますが、これからももっと学んで、多くのことを吸収していきます。流れとしては以上です。
これから始める人へオススメの本やサイト
本
本として以下3冊は非常にオススメです。これとネットがあれば基本的な事は全て理解できると思います。
王道 DRY解析本
この本は写経本です。半年間この本で修行しましょう!
Dr. Bonoの生命科学データ解析
この本は教科書です。この本で根本を理解しましょう!
Rとグラフで実感する生命化学のための統計入門
この本は辞書です。Rでやりたい解析を探して、真似できます!
サイト
オススメのサイトとして、最強のサイトを4つご紹介します。
Macでインフォティクス
辞書です。というかソフト名でググったら、めちゃ出てきます。解説もわかりやすいです。
Bioinfomatics
理論も載っていて、意味を理解したいときに閲覧しています。わかりやすいです。
Kadota先生のページ
RNA-Seq関連、マイクロアレイ関連では世界一の情報量です。勉強になります。
Togo TV
統合TVは、生命科学分野の有用なデータベースやウェブツールの活用法を動画で紹介するウェブサイトです。DBCLSの職員、先生方には頭が上がりません。
これ以外に製作者が自ら教えてくれるGithubや海外の講義が受けられるYouTubeで大抵のことはわかります。変なエラーが起きたら、GithubのIssuesやTwitterを見ましょう。
素人が気をつけるべきこと
僕が感じているプロと素人の違いはズバリ打ち慣れているかどうかです。プロはすごいんです。素人は敵いません。残念ですが、少しやった程度では到底追いつけません。僕はおよそ2年勉強しましたが、追いつける気がしません。そこで、素人がすんなりと作業を終わらせるコツ (普段僕がやること) を紹介します。
その1. Tabボタンを使う
Tabボタンをターミナルで利用すると入力が補完されます。例えば、A.txtとB.txtが入っているディレクトリを触るときにAと打って、Tabを打つと、A.txtが自動入力されます。これを使うとファイル名の打ち間違えは無くなります。
その2. コピペする
自分でできる限りコマンドを打つのはやめましょう。我々はかっこよくインフォマティクスする必要はないのです。コピペでも成功すればいいのです。レポートではありません。慣れてきたら、自分で打っていけばいいと思います。
その3. For構文を多用する
作業数を減らしましょう。打たずして制するのです。
https://shellscript.sunone.me/for.html
PCについて
バクテリアのゲノム、16S rRNA程度の解析なら、物にもよりますが4コアで十分です。20万とか30万とかの高級PCは不要です。ヤフオクで6, 7万のiMacを落とすといいと思います。容量は大きめがいいです。1TBは割と数ヶ月で無くなります。ただし、ヒトゲノムや真核生物のRNA-Seqなどは話が別です。また、ナノポアなどのロングリードがあまりにも多いとiMacだと止まるかもです。スペックは何をしたいかに依存しますが、そこまで高くなくても始められるということです。
最後に
読みづらい文だったと思いますが、ここまで読んでいただきありがとうございました。これからもちょくちょくQiitaを更新していく予定ですので、リバイス、質問をよろしくお願いします。