Velocytoはいけてるsingle cell解析ツールで、2018年にNatureにでたあと、瞬く間に流行った解析手法。
https://www.nature.com/articles/s41586-018-0414-6
細胞分化の軌跡などをみるときには、monocleなどのツールよりも直感的に分かりやすい(個人的な感想)。
インストール
installation guideを参考に進める。
環境は、python>=3.6が推奨のようなので、とりあえず3.8で作る。
conda create -n velocyto_env python=3.8
そのあとで、指定のライブラリーとvelocytoをインストール。samtoolsも必須なので、なければいれる。
conda activate velocyto_env
conda install numpy scipy cython numba matplotlib scikit-learn h5py click samtools
pip install velocyto
cellranger
これで準備オッケーなので、まずは、cellrangerの処理から。
--include-intronsのオプションをつけ忘れないようにする。
cellranger count --id=test --transcriptome=refdata-gex-mm10-2020-A --fastq=fastq --sample=sample --include-intron
--idは、出力のフォルダ名。
--transcriptomeは、10Xのサイトからダウンロードできるリファレンスデータ。今回はマウス。
--fastqは、fastqファイルが入っているフォルダ。
--sampleは、fastqファイルの名前のパターン。 sample_S1_L000_のsampleの部分。
あとはぼーっと待つ。
velocyto
次に、cellrangerの出力を使って、velocytoを動かす。
velocyto run10x -m mm10_rmsk.gtf test/ refdata-gex-mm10-2020-A/genes/genes.gtf
run10xのxが小文字なことに注意!
これに気づかず30分ぐらいむしゃくしゃした。
velocyto run10x -m mask.gtf [cellrangerで出力されるoutsの直上のフォルダ] [cellrangerで使ったリファレンス]
-mは mm10のゲノムのリピート配列をマスクしたgtfファイル。
maskfileのダウンロードはここからダウンロードできる。
[outsの直上のフォルダ]は、今回は、testという名前。
[リファレンス]は、 10xの公式からダウンロードしたリファレンスデータの中に入っているので、それを指定。
その後、さらにぼーっと待っていると、testディレクトリの中に、velocytoという新しいディレクトリができ、その中に.loomファイルができている。
次は、Rかpythonの作業。
また次の機会に。