多くの方には次世代シーケンサー(NGS)のデータ解析をしている人はどんなことをやっているのか、わかりづらいところがあるかと思います。そこで、どんなことをやっているのかイメージをもっていただければと、著者が実際に使っているスキルを思い出せる限りざっと書き出してみました。ちょっとでも親しみを感じていただけると幸いです。
計算
統計基礎
様々な統計手法を解析データに応用します。
Excel
用意されている関数を組み合わせれば、Excelでも複雑な解析ができます。
R
R言語というものを使って指示を出すのでとっつきにくいですが、一般的なプログラミング言語よりお手軽でわかりやすいです。Excelと比べ、次のような利点があります。
- 大規模データや、メモリを消費するような計算が実行できる。
- 複雑なプロットやきれいな図が作れる。
- 複雑な計算も提供されているパッケージを使って簡単に解決できることがある。
Linux
CentOSやUbuntu上のコマンドラインでいろいろ解析しています。コマンドラインで操作するのと、環境を準備するのに抵抗があるかもしれませんが、やってみれば思ったよりできる!と感じられるツールかと思います。たくさんのコマンドがありますが、どんなコマンドを使えるといいか、使用頻度が高いと感じるものを挙げてみます。
操作
ls / cd / mkdir / df / free / ps / top
ファイルやデータの閲覧
less / cat / head / tail / wc / file
ファイルやデータの加工、解析
vim / cut / grep / diff / join / paste / sort / uniq
NGSデータ用の解析ツールはLinuxで使うことを前提にしていることが多いので、その点からしても重要です。ツールのインストールではよくわからないエラーが出ることが多いので、ある意味でツールのセッティングが腕の見せ所でもあります。
プログラミング
書いてすぐ実行できるスクリプト言語を1つ使えると便利です。勉強する時間がかかりますが、上記では対応しきれない複雑な条件でデータ抽出ができたりします。NGSではゲノム全体を網羅的に見たりとスケールが大きいため、結果が得られても閲覧できる情報量に落とせるかが重要になりやすいです。
- awk
- perl
- python
など
NGSの知識
シーケンスデータに含まれるものがどんなデータであるかわかれば、何をすれば良いか予想が付きます。
- シーケンスの機種や、シングルエンドとペアエンドの違いなど、どうやってシーケンスしているか
- Whole GenomeやExomeなど、なんの配列なのか
- どういった種類のミスシーケンスがありえるか
など
ここまで見ていただくと、なかなか専門性が高いということがお分かりいただけるかと思います。ですが、NGSはゲノムを網羅的に調べる手段(ツール)として優秀です。自身で解析されずとも、より多くの方に親しみを持ってNGSを活用いただけると幸いです。