ADMIXTOOLS 2でABBA-BABA test (f4 statistics)を回すメモ

Last updated at 2025-07-28Posted at 2025-07-28

メモ書きです。
公式のREADME見ればいいんじゃないの、という話のような気もしますが一旦まとめておきます。
内容としては引用元（ADMIXTOOLS 2 README）を日本語にしただけですので、詳しくは引用先を参照して下さい。

ADMIXTOOLSにはオリジナルのADMIXTOOLSとR言語版のADMIXTOOLS 2があります。
ADMIXTOOLS 2の方が速くてシンプルとのことなので、今回はADMIXTOOLS 2を使用します。

Install

READMEに書いてることそのままです。
devtoolsをインストールしていない場合はそちらを先に。
以下のコマンドでADIMIXTOOLSを使用するにあたって必要なパッケージはすべて入るとのこと。
エラーが出たらREADMEに従って個別に入れるなどしましょう。

devtools::install_github("uqrmaie1/admixtools")

解析

PGDspiderを利用して.vcfをEIGENSOFT形式に変換します。
GUI版でSPIDファイルを作って、CUI版で作業するのが楽です。使用メモリ量とか調整できるのがいい…ということを最近知りました。
↑参考記事:PGDSpiderをコマンドラインで使用する

などとやってみると、.geno .ind .snpができます。
.genoができると書きましたが、これは作られたファイルのうちのなんか数字が羅列されているやつを.genoにrenameしています。

これら3つのファイル名を同じものにして、Rで読み込みます。

library(admixtools)

genotype_data <- "path/to/yourdata"#.geno .ind .snpを全部読み込むために拡張子は書かないこと

f2blocks = f2_from_geno(genotype_data, auto_only = FALSE)

f4Result <- f4(f2_blocks)

print(f4Result, n = Inf)

#とりあえず保存したいならこの下のやつとかで…
write.csv(f4Result, file = "f4_results.csv", row.names = FALSE)

#auto_only = FALSEは染色体名に数値以外が入っていても解析できるようにするコマンド。
#n = Infはあるぶんだけ全部コンソール上に表示するために付けています。データが膨大にある場合はやめたほうがいいかも。Infinityです。

f4統計量の計算を行うためにはf2統計量の計算結果が必要なので、順番としてはf2() → f4()となります。

引用文献・記事

Maier, Flegontov et al. 2023. On the limits of fitting complex models of population history to f-statistics. eLife 2023;12:e85492. https://doi.org/10.7554/eLife.85492
ADMIXTOOLS 2 README：https://github.com/uqrmaie1/admixtools/blob/2f6957a36224c15884abf84c543aefddf46352f0/README.md#admixtools-2
mhiromi, PGDSpiderをコマンドラインで使用する：https://qiita.com/mhiromi/items/596fa597d5d5c505ff61

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up