More than 3 years have passed since last update.

NGSデータ解析のスキル

Posted at 2021-10-25

　多くの方には次世代シーケンサー（NGS）のデータ解析をしている人はどんなことをやっているのか、わかりづらいところがあるかと思います。そこで、どんなことをやっているのかイメージをもっていただければと、著者が実際に使っているスキルを思い出せる限りざっと書き出してみました。ちょっとでも親しみを感じていただけると幸いです。

計算

統計基礎

　様々な統計手法を解析データに応用します。

Excel

　用意されている関数を組み合わせれば、Excelでも複雑な解析ができます。

R

　R言語というものを使って指示を出すのでとっつきにくいですが、一般的なプログラミング言語よりお手軽でわかりやすいです。Excelと比べ、次のような利点があります。

大規模データや、メモリを消費するような計算が実行できる。
複雑なプロットやきれいな図が作れる。
複雑な計算も提供されているパッケージを使って簡単に解決できることがある。

Linux

　CentOSやUbuntu上のコマンドラインでいろいろ解析しています。コマンドラインで操作するのと、環境を準備するのに抵抗があるかもしれませんが、やってみれば思ったよりできる！と感じられるツールかと思います。たくさんのコマンドがありますが、どんなコマンドを使えるといいか、使用頻度が高いと感じるものを挙げてみます。

操作

　ls / cd / mkdir / df / free / ps / top

ファイルやデータの閲覧

　less / cat / head / tail / wc / file

ファイルやデータの加工、解析

　vim / cut / grep / diff / join / paste / sort / uniq

　NGSデータ用の解析ツールはLinuxで使うことを前提にしていることが多いので、その点からしても重要です。ツールのインストールではよくわからないエラーが出ることが多いので、ある意味でツールのセッティングが腕の見せ所でもあります。

プログラミング

　書いてすぐ実行できるスクリプト言語を1つ使えると便利です。勉強する時間がかかりますが、上記では対応しきれない複雑な条件でデータ抽出ができたりします。NGSではゲノム全体を網羅的に見たりとスケールが大きいため、結果が得られても閲覧できる情報量に落とせるかが重要になりやすいです。

awk
perl
python

など

NGSの知識

シーケンスデータに含まれるものがどんなデータであるかわかれば、何をすれば良いか予想が付きます。

シーケンスの機種や、シングルエンドとペアエンドの違いなど、どうやってシーケンスしているか
Whole GenomeやExomeなど、なんの配列なのか
どういった種類のミスシーケンスがありえるか

など

　ここまで見ていただくと、なかなか専門性が高いということがお分かりいただけるかと思います。ですが、NGSはゲノムを網羅的に調べる手段（ツール）として優秀です。自身で解析されずとも、より多くの方に親しみを持ってNGSを活用いただけると幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up