メモ書きです。
公式のREADME見ればいいんじゃないの、という話のような気もしますが一旦まとめておきます。
内容としては引用元(ADMIXTOOLS 2 README)を日本語にしただけですので、詳しくは引用先を参照して下さい。
ADMIXTOOLSにはオリジナルのADMIXTOOLSとR言語版のADMIXTOOLS 2があります。
ADMIXTOOLS 2の方が速くてシンプルとのことなので、今回はADMIXTOOLS 2を使用します。
Install
READMEに書いてることそのままです。
devtoolsをインストールしていない場合はそちらを先に。
以下のコマンドでADIMIXTOOLSを使用するにあたって必要なパッケージはすべて入るとのこと。
エラーが出たらREADMEに従って個別に入れるなどしましょう。
devtools::install_github("uqrmaie1/admixtools")
解析
PGDspiderを利用して.vcf
をEIGENSOFT形式に変換します。
GUI版でSPIDファイルを作って、CUI版で作業するのが楽です。使用メモリ量とか調整できるのがいい…ということを最近知りました。
↑参考記事:PGDSpiderをコマンドラインで使用する
などとやってみると、.geno
.ind
.snp
ができます。
.geno
ができると書きましたが、これは作られたファイルのうちのなんか数字が羅列されているやつを.geno
にrenameしています。
これら3つのファイル名を同じものにして、Rで読み込みます。
library(admixtools)
genotype_data <- "path/to/yourdata"#.geno .ind .snpを全部読み込むために拡張子は書かないこと
f2blocks = f2_from_geno(genotype_data, auto_only = FALSE)
f4Result <- f4(f2_blocks)
print(f4Result, n = Inf)
#とりあえず保存したいならこの下のやつとかで…
write.csv(f4Result, file = "f4_results.csv", row.names = FALSE)
#auto_only = FALSEは染色体名に数値以外が入っていても解析できるようにするコマンド。
#n = Infはあるぶんだけ全部コンソール上に表示するために付けています。データが膨大にある場合はやめたほうがいいかも。Infinityです。
f4統計量の計算を行うためにはf2統計量の計算結果が必要なので、順番としてはf2() → f4()となります。
引用文献・記事
Maier, Flegontov et al. 2023. On the limits of fitting complex models of population history to f-statistics. eLife 2023;12:e85492. https://doi.org/10.7554/eLife.85492
ADMIXTOOLS 2 README:https://github.com/uqrmaie1/admixtools/blob/2f6957a36224c15884abf84c543aefddf46352f0/README.md#admixtools-2
mhiromi, PGDSpiderをコマンドラインで使用する:https://qiita.com/mhiromi/items/596fa597d5d5c505ff61