LoginSignup
3

More than 3 years have passed since last update.

posted at

updated at

【Linux】遺伝統計ソフトPLINKを使ってみた

はじめに

仕事で統計遺伝学が必要になりそうなので、遺伝統計ソフトのPLINKを使ってみた。
最近、いい感じの本が出版されたんで、ハンズオンでやってみた。

ゼロから実践する 遺伝統計学セミナー

ただ、この本はWindows用に書かれているので、Macでのやり方を備忘録的に書いていこうかなー、と。
この本いいです。

PLINKのダウンロード

以下のページからPLINKのMacOS版をダウンロード。

PLINK

Macのターミナルを起動。
ターミナル上で、cdコマンドで作業ディレクトリを指定する。

作業ディレクトリの指定
$ cd /作業ディレクトリのパス/

ダウンロードしたPLINK(PLINK実行ファイル)を作業ディレクトリに移動する。

PLINKの起動

ターミナル上で、./plinkと入力する。

PLINK起動
$ ./plink

実行結果

PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3

  plink <input flag(s)...> [command flag(s)...] [other flag(s)...]
  plink --help [flag name(s)...]

Commands include --make-bed, --recode, --flip-scan, --merge-list,
--write-snplist, --list-duplicate-vars, --freqx, --missing, --test-mishap,
--hardy, --mendel, --ibc, --impute-sex, --indep-pairphase, --r2, --show-tags,
--blocks, --distance, --genome, --homozyg, --make-rel, --make-grm-gz,
--rel-cutoff, --cluster, --pca, --neighbour, --ibs-test, --regress-distance,
--model, --bd, --gxe, --logistic, --dosage, --lasso, --test-missing,
--make-perm-pheno, --tdt, --qfam, --annotate, --clump, --gene-report,
--meta-analysis, --epistasis, --fast-epistasis, and --score.

"plink --help | more" describes all functions (warning: long).

PLINKは./plink --(コマンド) (引数)で実行。

ファイルの読み込み

ファイルの読み込みコマンドは--file--bfile
--fileは、ped|map形式のジェノタイプデータを読み込む。
--bfileは、bed|bim|fam形式のジェノタイプデータを読み込む。
NGSデータはvcf形式が基本だけど、ped|map形式に変換したデータ、ped|map形式をバイナリ形式に変換したbed|bim|fam形式を使ったりする。

--outは、出力ファイルの名前を指定する。

今回のファイルは、作業ディレクトリ内に格納したSNP.bedSNP.bimSNP.fambed|bim|fam形式とする。
なので--bfileの引数は、ファイルの拡張子前のSNPとなる。

ファイルの読み込み
$ ./plink --bfile SNP --out test

これを実行するとtest.logというファイルが生成する。
このファイルはテキストエディタか、次のコマンドで開く。


$ less test.log

アレル頻度の計算

--freqでそれぞれのSNPのアレル頻度を計算できる。

SNPのアレル頻度を計算
$ ./plink --bfile SNP --out test1 --freq

出力したファイルはテキストエディタか、次のコマンドで開く。


$ less test1.frq

SNPのフィルタリング

解析をする前に、ゲノムデータのフィルタリングを行って、マイナーアレル(MAF)頻度が1%あるいは0.5%以下のSNPを除外する。
GWASでの御作法的な。
--maf(数値)で数値以下のMAFのSNPを除外する。
--make-bedでフィルタリング後のデータを新しいbed|bim|fam形式ファイルとして作成。
今回は1%以下のSNPを除外する。

マイナーアレル頻度でSNPをフィルタリング
$ ./plink --bfile SNP --out test2 --maf 0.01 --make-bed

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
3