More than 3 years have passed since last update.

Unipro UGENEを使ったサンガーSeqの生データ処理

bioinformatics

Last updated at 2022-06-15Posted at 2021-09-26

※遺伝解析初心者向け！

次世代シーケンサーが広く普及した現在でも、旧世代のサンガー法シーケンサーの需要は高いままである。サンガーシーケンシングは短い領域しか読めないが、速く、手軽に、高精度な配列データを取得できる。ただし、塩基シグナルの波形をベースコールする際のエラーは目視によって手動で修正しなければならず、サンプル数が多い場合は非常に手間である。

Unipro UGENEは高機能なGUI遺伝解析ソフトで、サンガーからNGSまで、様々な解析に対応している。
UGENEでは、参照配列にサンガー由来の波形データをマッピングすることで、データの確認と修正を正確かつ簡便に行うことができる。

ここでは、波形データ処理の一連の流れを初学者向けに解説する。
ミスや分かりにくい点があればコメントで指摘してください。

Unipro UGENEの特徴

UGENEでは、例えばこんなことができます。

核酸やタンパク質の配列を作成・編集・アノテーション
配列内の高速検索、アライメント
in silico PCR
オンラインデータベースによる検索（NCBI, PDB等）
ローカルおよびNCBI Genbank BLAST検索
PCRプライマー設計
プラスミドの構築とアノテーション
クローニングベクターの設計によるin silicoクローニング
ショートリードのゲノムマッピング
NGS生データの処理
次世代シーケンスデータ（BAMファイル）の可視化
SAMtoolsによるバリアントコーリング
RNA-seq、ChIP-seqデータの解析
SPAdesによるDe novoアセンブリ
DNA配列中のダイレクトリピート、インバーテッドリピート、タンデムリピートの検索
系統樹の構築（ML, NJ, BI）と編集
タンパク質の二次構造予測
共有ストレージの作成と利用（研究室用）

個人的にサンガーSeqを解析する際に便利は点は以下の4つです。

リファレンスマッピングによって波形データの確認・修正ができる
高速なアライメントツール（例えばMAFFT）が実装されている
アライメント後、変異サイトやカバー率の可視化が便利
置換率の計算や予備的な系統樹構築がUGENE上で実行できる

インストール

以下の公式サイトからダウンロードする。

Unipro UGENEはWindows, macOS, Linusに対応している

リファレンス配列の準備

シーケンスしたサンプルと同じ種もしくは近縁種の相同領域の塩基配列データ（fasta形式かGenbank形式）が必要となる。
手持ちでない場合はNCBIの塩基配列データベースで学名と遺伝子名で検索し、配列データを取得する。

ミトコンドリアDNAの場合、可能であればミトゲノム（mtDNA全長配列）を利用したい（対象遺伝子の全長を得られるため）。
ミトゲノムを検索する際は学名に「mitochondrion complete genome」を追加して検索する。キーワードを追加しなくても、Sequence Lengthでソートすると、ミトゲノムがあれば一番上にくるだろう。

ミトゲノムがある場合、対象の遺伝子領域だけを取得する

配列データの詳細画面（GenBank形式）から目的の遺伝子を探し、[gene]をクリックする。

目的の遺伝子（ここではCOX1）の配列がハイライトされるので、右下の[FASTA]をクリックする。

選択した遺伝子の配列がfasta形式で出力されるので、右上の[Send to:]からComplete Record、File、fasta形式を選択して[Create File]で保存する。

ミトゲノムがない場合は部分配列を取得する

ダウンロードしたいデータにチェックを入れて、右上の[Send to:]からComplete Record、File、fasta形式を選択して[Create File]で保存する。

波形データのチェック

読み込み

UGENEを起動したら、**[Tools]　→　[Sanger data analysis]　→　[Map reads to reference]**を選択する。

するとこんなウィンドウが出てきます。

[Reference]
準備した参照配列を選択します。Fasta形式かGenbank形式に対応しています。
[Reads]
サンガーシーケンサーから出力された.ab1形式か.scf形式の波形ファイルを選択します。同じ領域であれば全てのサンプルを選択します。リードの向きは自動で補正してくれるので、気にしなくて良い。
[Setting]
Trimming quality threshold：品質の低い塩基をトリミングする基準を設定する。おすすめは50ぐらい。トリミングしない場合は0にする。
Mapping min similarity ：参照配列と類似度の低いサンプルを除外する基準を設定する。参照配列と同種であれば90ぐらいでも良い。うまく読めていない部分が長いサンプルがある場合は除外されないように低めに設定する。
Read name in result alignment：サンプル名をファイル内の配列名にするかファイル名にするか選択する。
[Result alighment]
書き出し場所とファイル名を指定する。

設定を終えたらMapする。すると以下のような画面が出てくる。

左上の波形マークのボタンをクリックすると波形が可視化される。
一番上の配列が参照配列で、その下の配列がコンセンサス配列（全サンプルで一致していない塩基はハイライトされる）を表す。
配列の位置を表す数字の下には、読み込んだサンプルの配列と波形が表示される。

注意！
フィルタリングが厳しすぎる場合、品質の低いサンプルが除外される場合がある。
また、通過したサンプルがない場合はエラーがでる。

編集

ベースコールされていない（Nになっている）箇所や、リファレンス配列と異なっている箇所を目視で確認する。
（配列のみを表示させてスクリーニングし、おかしい部分は波形を表示して確認するのが楽）

編集をする場合は、対象の塩基を選択し、Shift+Rで編集モードにしてから、変更後の塩基（A,T,C,Gなど）を入力する（Macの場合）。右クリックして[Edit]　→　[Replace character/gap]でもできる。

リードの頭や末端部など、品質の低い部分が続く場合は、[Edit]　→　[Trim left or right end]で指定の部位から先端or末端までトリミングすることもできる。

書き出し

編集後、配列データのみを書き出すときは、Project内のMapped Readsを右クリックし、[Export/Import]　→　[Export alignment without chromatograms...]を選択。ファイル名、ファイルフォーマット（Fastaなど）、参照配列を含むか否かを設定して書き出したら終わり。

参考サイト

公式のYoutubeチャンネルでは、UGENEの使い方が丁寧に説明されている

macでインフォマティクスのUGENEの機能を説明した日本語記事

引用する際は以下の論文を。
Okonechnikov K, Golosova O, Fursov M, the UGENE team. 2012. Unipro UGENE: a unified bioinformatics toolkit. Bioinformatics, 28: 1166–1167.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up