Inchwormとは
Trinityのなかで利用されている、readを大まかにアセンブリしてcontigを生成するアルゴリズムです。ここではその概要を記述しています。
リード、カバレッジについての説明はこちらの資料を参照してください。
アルゴリズム
ここでは7塩基に着目していきます(k-merのk=7とします)。上図の左側のように、GATTACAという7塩基配列のカバレッジが10であるとします。一番右のAから1塩基分だけ枝を伸ばしていきます。するとATTACAGのカバレッジは4、ATTACAAは0、ATTACATは1、ATTACACは4であることがわかりました。次は最もカバレッジの高いATTACAGとATTACACに着目します。
-
ATTACAG側
ここから1塩基を伸ばします。するとTTACAGAが最もカバレッジの高い5であることがわかりました。 -
ATTACAC側
こちら側も1塩基だけ伸ばします。するとこちらはTTACACG, TTACACA, TTACACT, TTACACCのカバレッジは1であることがわかりました。
両側の結果を比較するとTTACAGAが最もカバレッジが高いということがわかりました。
ここから、GATTACAGAという塩基配列が元のデータにもあるのではないか、とわかります。
同様に左側にも塩基の枝を広げていき、このcontigを作成していきます。