この記事は、メタゲノム Advent Calendar 2019によるものです。
(記事書く人が少なくなんかトリなんですけど・・・ええんかこれ)
メタゲノマーによる、メタゲノマーのためのアドベントカレンダーと銘打ってたような気もしますが、
どう考えても自分がメタゲノマーだとは思えへん。
どちらかというと培養株(実験)ごりごりタイプなので。
とはいえ、論文紹介程度なら、勉強がてら色々と読むし、"metagenome"が出てくるものも昨今だとは珍しくないので書けるだろうという感じで引き受けました。
#紹介する論文
タイトルは、
Unlinked rRNA genes are widespread among bacteria and archaea
(https://www.nature.com/articles/s41396-019-0552-3)
繋がっていないrRNAはバクテリア、アーキアに広く存在している
ISMEに今年の10月出たばかりの論文です。
(オープンアクセスじゃなかったので、引用という形にせよ、図を引っ張ってきて貼り付けるの、どうなんやろか・・・という葛藤の末、論文の図は載せていないので皆さん各自でアクセスしてね)
##超ラフ解説
rRNAって、同一オペロンにあって、16S-23Sと"linked"してるよね?
→え?してへんのもあるよね
→分類群毎に、してる・してへんの偏りがあるよね
→環境中でも結構見つかるよ
(専門外とは言わないまでも、微生物屋さん以外が読んでも良いように心がけます。むしろ強い人、物足りなかったらごめんなさい)
#ここがよかったポイント
・単に環境を調べて何がどれだけ出たか、みたいなのではなく、これまで環境中では知られていない特徴を炙り出した
・徐々に増えつつあるlong-readなmetagenomeを使っている
・しかもlong-readだからこそ"unlinked"かどうかという情報が得られやすく、強みを活かせていると思う
・培養株のゲノムを普段の研究でパラパラ眺めるくらいだと、「隣にないなー」くらいだったのがタイトル通り「widespread」を感じられた
・普遍的にunlinkedがあることで、結構いろんな実験(PCRやったりシーケンスやったりプローブ作成やったり?)に影響あるんちゃう感
#背景
リボソームは生命にとっていうまでもなく、めちゃくちゃ重要です。
それを構成する要素の1つであるrRNAはバクテリア、アーキアにおいて多くが保存された領域を持っているわけです。
通常は、rRNA遺伝子は1つのオペロン状に存在している(16S-23S-5S; ITSは今、無視)。
しかし、しばしば16S-23Sが離れているものもまた存在していて、これを"unlinked"と表現しています。
最初に見つかったのは、Thermus thermophilusで、その後、すぐにPlanctomycetesのPirellula marinaや、Buchnera aphidicola、Rickettsia prowazekiiで見つかったらしい
この中でも、order Rickettsialesで広く見られる特徴だったので、ゲノム縮小に伴う、細胞内共生などの結果としてunlinkedなrRNAができたのかと考えられていたようです
こういう、"株"とか”個々のゲノム”ベースでは、「うん、あるよねー」だったのを近年(もはや近年なのかも微妙やが)急速に集まってきているオープンにされているwholeゲノムの中に、どれくらいあるのかというのが出発点。
CPR(Candidate Phyla Radiation)では、unlinkedどころか、16Sの中にイントロンが入っているという変化球を見せてくれるというのは有名ですが(Brown et al. 2015, Nature)、
絶対一緒に使いたい(だろう)ものが、全然近くにない、しかも分類群によっちゃ、むしろunlinkedが当たり前っていうデータが出ているので衝撃
#ざっとしたmaterials&methods
・1万個のバクテリア、アーキアゲノム(RefSeqでcomplete genomeとなっているもの)と、いろんな環境からのlong-read metagenome 1700万リード(>1000bp)を解析し、unlinkedなものを推定
・その際、rRNAのペアが1500bp以上離れていたらunlinked, 1500bp以内ならlinkedと定義。
・それぞれのゲノムが、linked, unlinked, mixedの3パターンのどれになるかをカウント
"mixed"はrRNAをマルチコピー持っていて、linked, unlinkedが両方ある場合。
・基本的に同種で複数のwholeゲノムがある場合は代表1つのみでlinkedかunlinkedかをカウントした。その際、株によってlinked, unlinkedが分かれる場合は、1:1としてカウント。
・MinION/PromethIONと、illuminaのlong-read technologyをつかって合計15サンプルをlong-read metagenomeとして解析。
得られたリード:nanoporeで1687万(平均で5300bp)、illuminaで85万リード(平均8800bp)ほど。
これをフィルタリングして用いた。
####rRNAの長さについて
16Sは、4000bp以内、23Sは6800bp以下と仮定。
これはCPRや、Nostoc, Salmonellaなど、イントロンを含むグループから算出した。
(余談: NostocとかSalmonellaもなん!?ってなりました。みなさん知ってました?)
======
・codon usage proxy (ΔENC’)を用いると、minimum generation timeが推定できる。
仮説的には、unlinked rRNA遺伝子を持つものは、growth rateが遅いというものがあるのでそれを検証した
####codon usage proxy
初めて聞いた。論文調べてみると、"codon usage bias (ΔENC’)" って出てきますね。
Nearly Neutrality and the Evolution of Codon Usage Bias in Eukaryotic Genomes (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2323827/)
Fig.1Cに真核まで含めてプロットしたものがある。たしかに、generation timeの目安になりそう?
細菌・古細菌間程度でもそれが通用するっていうのは、refを探してません。(論文中に書いてるのかな?)
・16Sと23Sを切断して成熟させるための酵素、RNase IIIが存在するかどうかをカウント
(結果解説でなんでカウントしたかはもう少し触れます)
#結果、図の解説
##Fig.2
NCBIのwholeゲノムについて、いわゆるITS領域はほとんどが1500bp以下で、平均は418bp (つまり"linked")
3.65%については、"unlinked"になっていた。
グループごとで5%以上、unlinkedになっているものは、
・Spirochetesのgenus Borrelia,
・Epsionbacteriota(Proteobacteriaから分かれてphylum扱い: https://www.frontiersin.org/articles/10.3389/fmicb.2017.00682/full) のfamily Helicobacteraceae,
・Alphaproteobacteriaのorder Rickettsiales,
・TenericutesのMycoplasma gallisepticum
共生細菌っぽいグループ(↑)ではなく、基本的に自由生活性と考えられる中で、特筆すべき高い割合だったのは、
・Deinococcus-Thermusのfamily Thermaceae, Deinococcaceae,
・Chloroflexiのfamily Dehalococcoidaceae,
・Planctomycetesのfamily Phycisphaeraceae, Planctomycetaceae,
・Euryarchaeotaのclass Thermoplasmata
ゲノムの数が少ないグループは置いておくとして、例えばDeinococcus-Thermsなんかは30個中75%くらいがunlinkedで、残りがmix。
なんなんや、こいつらは。こうまでしてunlinkedに偏っていることにメリットあるんやろか。
##いよいよlong-read metagenome
・NCBIの登録情報だけでは、微生物の多様性を正確に反映していない。人の健康などに関わるisolateされた株に偏りがち (long-read metagenomeでやろうとした理由の1つがこれか?)
・分類群ごとに見てみると有名どころなら
すでにあるデータセットを使ったものやと、Planctomycetes(約70%)が顕著
今回の研究でやったデータなら、Crenarchaeota(約75%), Armatimonadetes(約40%), Verrucomicrobia(約30%)あたりが結構高いのでは?という感じです。
・分類群ごとではなく、実際の環境サンプルごとで見ると、
土壌の41%以上のrRNA遺伝子がunlinkedになっている一方で、
human gutはすべてlinkedなrRNA遺伝子だった。
(Fig. 3)
(残念ポイントとして、soil, sediment, activated sludge, human gut以外の環境についてはサンプルを得てへんので不明。水圏・・・ぐぬぬ)
・あまり研究されていないグループ(門など)についてもunlinked 16S rRNAの証拠が得られた
グループによっては100%、unlinkedになっているグループもある(これはデータ数が少ないというのも一因ですが)
##Fig.4~Fig.5
・unlinkedなものは細菌や古細菌の中でランダムに分布しているわけではない
→つまりある程度分類群ごとに偏っている
先行研究では(本文中ではHistoricallyとあるが)、unlinked rRNAは共生細菌でよく見られていたので、genomic driftや弱いセレクションの結果として"副産物"としてできたのではないかと仮説が立てられていた
→ということでゲノムサイズとlinked/unlinkedの分布を比較した
→有意な相関はなかった。(つまりそういう副産物的結果ではないと考えられる?)
#####linked/unlinkedでゲノムの中身を見た際、違いがあるのかを解析
linked rRNAの場合、同一オペロンで制御することは、成長の早いバクテリア・アーキアでより強く現れるはず。(細胞内での主要なエネルギー消費はリボソーム合成)
→ということでゲノムあたりのrRNAコピー数やmaximum growth rateを予測
→コピー数は4.25vs2.72で有意にunlinkedの方が低かった。
また、ΔENC'(先述)から予測したminimum generation timeはunlinkedなものが長い。
(maximumなgrowth rateと、minimumなgeneration timeという、本文中のこの段落で2つ出てきて別のものを比べたようにみえるが、最大限速く成長する=世代時間は最小になるやろうということで根本的には同じ)
→unlinkedな方がgeneration timeが長いし、rRNAのコピー数も少ない(つまり一気にたくさんribosomeを作れない?)ということで成長遅いだろう
####結果として最後に・・・
16Sと23Sを切り離すRNase IIIについては、それが必要ないunlinkedなグループでは、RNaseの遺伝子も持っていないのが普通ではないか?
→実際に平均的に1.0vs0.71でencodeされている数は有意に少ない
#Discussion
今回の結果で期待通り、unlinked rRNAが環境中、そして様々な系統(30 phyla)に広く存在していることが明らかになった。
その中で、培養株のcompleteゲノムではunlinkedが0%だったVerrucomicrobiaでも、long-read data setでは82/217個が見つかったことから、培養できるかどうかのバイアスがあるだろう。
(majority groupのCa. Udaeobacter copiosusがunlinked)
一般的に16Sと23Sのセットでの解析は分類の解像度を上げられるが、今回の結果から、unlinkedなものも多くあり、正しく拾えない可能性がある。
つまりlinkedなものを拾いやすくし、本来より細菌や古細菌の多様性を見逃してしまうかもしれない
→なぜなら、平均でulinkedなものでは16S-23Sの距離は~410kbpなので、PCRで増やせるサイズを超えている。
(CPRなんかはそもそも16Sですら正しく増やせへんのでは?とも思います。)
###unlinked rRNAはなぜ存在するのか?
先述の通り、ribosomeの合成は細胞内で非常に多くのエネルギーを割く必要があり、
同時に発現させて調節することは**"等しい割合"**で16Sと23Sを作れるので、重要。
特にgrowthが速い菌とか。
unlinkedなものどうすんねん・・・となった時に、
**"等しい割合で発現していない"**という状況下なら、そこまでdisadvantageにならへんのでは?という考察。
population sizeが小さい集団内においては、セレクションが弱い中で遺伝子を落とすとかゲノムを縮小させるというのは、そこまで効率的とは言えないだろうということで、
付かず離れず、ではないけど、unlinkedなものが成り立っているかもしれないと。
(小さい集団というのがまさに共生細菌とかだよね、という書き振り)
####しかし
今回の解析で、free-livingなグループで、高い割合でunlinkedになっているものも見られた(先述)。
これらは、populationが小さかったり、偽遺伝子があったり、ゲノム縮小があったりということではなく、genetic driftなどでunlinkedなものができた、というには証拠不十分だと述べられています。
→
ということで、
なんらかの特定の状況下でfree-livingなやつらでもunlinked rRNAが優位性を示す可能性はあるだろうと
(1つのアイデアなのか?)
別々に16S, 23Sを転写することでRNase IIIがほとんど存在していないunlinked保有のグループ(上述)では、この遺伝子(酵素)を削減できるだろうと。
でもunlinkedなものでも、RNase IIIをノックアウトしたBorrelia burgdorferiやHelicobacter pyloriでは、unprocessed rRNAが蓄積してしまっていて、生存はできているものの、growth rateが下がったようです(これは先行研究)。
一方で、一部のbacteriophageでは、ホストのRNase IIIを使って翻訳を数桁上昇させるようで(これも先行研究)、
RNase IIIを持たないor少ないというのは、バクテリア・アーキアにとってgrowth rateを下げてしまうかもしれんが、"守り"という意味では生態学的な意味はあるかもしれないと考察しています。(トレードオフって書いてありますね)
以上が論文のざっとした紹介です。
Deinococcus-Thermus、扱っているグループの1つですが、
まさかこんな側面での面白さもあるとは・・・。
高いDNA修復機構とこのunlinked rRNAが繋がると面白いんやが。
##最後に
(メタゲノマーの)皆さん、unlinked rRNAにはお気をつけて!!
Widely distributedですよ!!
水圏でどうなんか、long-read metagenomeで見てみる/やってみたいですよね!?
よね!!!?
最後まで読んでいただきありがとうございました。メタゲノマーアドベントカレンダー、トリでした。(多分)
ちなみに明後日は、別の「今年読んだ一番好きな論文アドベントカレンダー2019」の記事を書きます。
それはブログで紹介するので、もしよろしければ。
Twitter: @nkjmu
Blogはこれ
良いお年を。