最近Genome Biologyで出た、k-merベースで実験のQCを行うツール、
kPAL(Python)のチュートリアル(http://kpal.readthedocs.org/en/latest/tutorial.html
)にざっと目を通した。
kPALのインストール
pip install kPAL
または
git clone https://github.com/LUMC/kPAL.git
cd kPAL
pip install -e .
kPALの使い方
ヘルプの表示
kpal -h
テストデータをダウンロード
wget http://kpal.readthedocs.org/en/latest/_downloads/tutorial.zip
unzip tutorial.zip
cd tutorial
# a_1.fa, a_2.fa, b_1.fa, b_2.fa, c_1.fa, c_2.fa, d_1.fa, d_2.faの8つのfastaファイル(4ペア)がある事を確認
ls
8-merで解析、_1側のfastaファイルの結果を、reads_1.k8に保存
kpal count -k 8 *_1.fa reads_1.k8
reads_1.k8はバイナリファイルで、kpal infoで中身が確認できる
kpal info reads_1.k8
_2側も同様に
kpal count -k 8 *_2.fa reads_2.k8
_1側と_2側の結果をマージして、merged.k8に保存
kpal merge reads_1.k8 reads_2.k8 merged.k8
マージ結果は、以下のように確認できる(マージされると_で名前が連結されるらしい)
kpal info merged.k8 -p c_1_c_2
k-merベースでのサンプル間の距離
kpal distance reads_1.k8 reads_2.k8 -l c_1 -r c_2
総当たりでの距離
kpal matrix merged.k8 -