LoginSignup
3
3

More than 3 years have passed since last update.

【Linux】遺伝統計ソフトPLINKを使ってみた

Last updated at Posted at 2020-03-20

はじめに

仕事で統計遺伝学が必要になりそうなので、遺伝統計ソフトのPLINKを使ってみた。
最近、いい感じの本が出版されたんで、ハンズオンでやってみた。

ゼロから実践する 遺伝統計学セミナー

ただ、この本はWindows用に書かれているので、Macでのやり方を備忘録的に書いていこうかなー、と。
この本いいです。

PLINKのダウンロード

以下のページからPLINKのMacOS版をダウンロード。

PLINK

Macのターミナルを起動。
ターミナル上で、cdコマンドで作業ディレクトリを指定する。

作業ディレクトリの指定
$ cd /作業ディレクトリのパス/

ダウンロードしたPLINK(PLINK実行ファイル)を作業ディレクトリに移動する。

PLINKの起動

ターミナル上で、./plinkと入力する。

PLINK起動
$ ./plink

実行結果

PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3

  plink <input flag(s)...> [command flag(s)...] [other flag(s)...]
  plink --help [flag name(s)...]

Commands include --make-bed, --recode, --flip-scan, --merge-list,
--write-snplist, --list-duplicate-vars, --freqx, --missing, --test-mishap,
--hardy, --mendel, --ibc, --impute-sex, --indep-pairphase, --r2, --show-tags,
--blocks, --distance, --genome, --homozyg, --make-rel, --make-grm-gz,
--rel-cutoff, --cluster, --pca, --neighbour, --ibs-test, --regress-distance,
--model, --bd, --gxe, --logistic, --dosage, --lasso, --test-missing,
--make-perm-pheno, --tdt, --qfam, --annotate, --clump, --gene-report,
--meta-analysis, --epistasis, --fast-epistasis, and --score.

"plink --help | more" describes all functions (warning: long).

PLINKは./plink --(コマンド) (引数)で実行。

ファイルの読み込み

ファイルの読み込みコマンドは--file--bfile
--fileは、ped|map形式のジェノタイプデータを読み込む。
--bfileは、bed|bim|fam形式のジェノタイプデータを読み込む。
NGSデータはvcf形式が基本だけど、ped|map形式に変換したデータ、ped|map形式をバイナリ形式に変換したbed|bim|fam形式を使ったりする。

--outは、出力ファイルの名前を指定する。

今回のファイルは、作業ディレクトリ内に格納したSNP.bedSNP.bimSNP.fambed|bim|fam形式とする。
なので--bfileの引数は、ファイルの拡張子前のSNPとなる。

ファイルの読み込み
$ ./plink --bfile SNP --out test

これを実行するとtest.logというファイルが生成する。
このファイルはテキストエディタか、次のコマンドで開く。


$ less test.log

アレル頻度の計算

--freqでそれぞれのSNPのアレル頻度を計算できる。

SNPのアレル頻度を計算
$ ./plink --bfile SNP --out test1 --freq

出力したファイルはテキストエディタか、次のコマンドで開く。


$ less test1.frq

SNPのフィルタリング

解析をする前に、ゲノムデータのフィルタリングを行って、マイナーアレル(MAF)頻度が1%あるいは0.5%以下のSNPを除外する。
GWASでの御作法的な。
--maf(数値)で数値以下のMAFのSNPを除外する。
--make-bedでフィルタリング後のデータを新しいbed|bim|fam形式ファイルとして作成。
今回は1%以下のSNPを除外する。

マイナーアレル頻度でSNPをフィルタリング
$ ./plink --bfile SNP --out test2 --maf 0.01 --make-bed
3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3