自己紹介
@kmoooooog です。
博士号取得後民間で機械学習エンジニアやってたのですがアカデミアに舞い戻り、今年の二月からはJAMSTECでメタゲノム解析をやっております。
また、その他の活動として株式会社tayoの代表として「イケてるJREC-IN」みたいなサービスである https://tayo.jp を作っておりますのでそちらもよろしくお願いいたします。取材記事はこちら。
初日はいざわパイセンによるポエミィなメタゲノム賛歌から始まったので、このニッチなアドベントカレンダーの発起人として僕もポエムを書かせていただこうかと思います。
せめてもの爪痕を残すために攻撃的なタイトルを付けましたが、反論ある方は是非アドベントカレンダー上でお願いします。
メタゲノム嫌い
僕は博士課程では基本的に単離株の比較ゲノム解析をメインでやっていました。その時はすごく「メタゲノム嫌いだなぁ」と思っていて、その理由は次のような感じです。
データの再現性が低い
僕の専門の海洋を例に取ると、例えば2017年の4月に黒潮域の海洋表層で取ったメタゲノムサンプルがあったとします。このサンプルには以下のような様々な因子が影響しています。
- メソッドによる影響
- サンプリング方法
- サンプル調整方法
- シーケンス方法
- 環境要因による影響
- 季節
- 当日の海流
- 当日の天気
- その他あらゆる環境条件
さらに当然地球温暖化や海洋酸性化などの長いスパンでの海洋環境の変化にも影響を受けるので、2018年の4月に取ったサンプルでも同じ結果が出るかというと全くそんなことはないです。
②に列挙したように「刻一刻と変わる環境要因全ての影響を受ける」ため、本来であればメタゲノムは時系列で観測することが非常に重要なのですが、それも①の「メソッドによる影響」が邪魔をします。
近年落ち着いてきたとはいえシーケンス技術は日進月歩であり、10年前のシーケンス方法が今でも使えるかというとNOであることが非常に多いためです。僕の出身研究室では5年前ぐらいまで454が現役で動いていましたが、もはやサポートも切れており古の技術と化しています。
本当は定点観測で長期の微生物群集構造の変化を追いたいのに、シーケンス技術は数年のスパンで技術革新がどんどん来てしまうので手法がどんどん変わってしまう。この辺りのギャップにメタゲノムの苦しさを感じていました。
あと、個人的には生物学を博物学でなく科学たらしめているのは再現性だろうと思っているので「絶対に再現できないデータ」というのは単純に扱うのが怖いです。
データの再利用性が低い
単離株のゲノムは基本的にコンプリートしてしまえばあらゆるシーケンサーで同じ結果が出ると仮定できますが、メタゲノムの場合はシーケンサーが変わると結果が大きく変わります。
遥か昔にSangarで読まれたE. coli や Synechocystis のゲノムは今後もずっと使われるでしょうが、10年後に今よりずっと進歩したシーケンサーで読まれたメタゲノムデータを2019年の技術で読まれたメタゲノムデータと統合して解析したいかと思うと微妙です(実際にはやらざるを得ないことになるんでしょうが、しんどそう)。
また、単離株ゲノムの場合は「とりあえずあんまりゲノム読まれてないグループのゲノムを読めば後々そこから発見がある」ことが往々にして考えられますが、メタゲノムだとおそらくそういうケースはずっと少ないかと思われます。ゲノムと違ってデータが積み上がらない感じにもメタゲノム解析のしんどさかと思います。
じゃあどうするの
上記のメタゲノムdisは「自分がメタゲノム解析やりたくない理由」な訳ですが、今僕はひたすらメタゲノムデータを捌くお仕事をしています。僕がひねくれているからというのもありますが、「環境微生物学分野のバイオインフォマティシャンとしてメタゲノムを避け続ける人生は歩めないだろう」という思いもありました。
散々disっておきながらやはりここ20年ぐらいの環境微生物学の発達はほぼメタゲノム解析によるものだと思っているし、「誰が、どこで、何をしているか」という環境微生物学のビッグクエスチョンを一挙に解決する夢の手法であるのは間違いありません。
では、どうするのか。僕の思うメタゲノムで重要な点は以下です。
漫然とデータを取らない
「適当に読んだゲノム」には一定の価値がありますが、上記のデータ再利用性の観点から、「適当に読んだメタゲノム」は概ねゴミです。
「なんか面白いの出てこないかな〜」とか「せっかくサンプリング行くからメタゲノムも〜」みたいなふわっとしたモチベーションはよっぽど面白いサンプル取れない限りまとまった論文にするのはキツいと思うので、「研究としてのストーリー」は単離株のゲノムよりもより強く意識する必要があると思います。
さっさと論文を書く
昨今のシーケンサーの進歩に対して僕らの論文執筆速度はあまり変わりません。ムーアの法則を超えて僕らの論文執筆速度を加速する ネクストジェネレーションアーティクルライティングAI
みたいな技術革新を待ち続けていますが、しばらくそんな時代は来そうにないです。なのでおとなしく、「データが古くなる前に発表」は心がけなきゃいけません。 データが古くなる前に発表
は次世代シーケンサーの関わる全ての研究に言えることだとは思いますが。
でっかいブーメランを投げちゃったのでぼくも早く論文書きます。
終わりに
苦しみもいっぱいありますが、不確かさが大きい分、解析には技量が問われるところがありメタゲノムデータはとても触っていて楽しいです。次はそんな話ができればなぁと思います。