第1回:モンスターハンターの世界で学ぶバイオインフォマティクス
はじめに
こんにちは!今回は、モンスターハンターの世界に登場する「リオス科」という架空の飛竜種を題材に、RNA-seq解析を学ぶプロジェクトをご紹介します。
「RNA-seq解析って難しそう...」「実際のデータがないと勉強できないのでは?」と思っている方も多いかもしれません。しかし、仮想ゲノムとシミュレーションデータを使えば、自分のペースで解析手法を学べます。
対象読者
本シリーズは、以下のような方を想定しています。
- RNA-seq解析に興味はあるが、実データや環境構築が難しいと感じている方
- バイオインフォマティクス初学者〜初中級者
- Python / R / Linux に少し触れたことがある理系・エンジニア
- モンスターハンターの世界観を科学的に楽しみたい方
このシリーズでは、初心者にも分かりやすく、かつ実践的な内容で、RNA-seq解析の一連の流れを解説していきます。
以下が具体的なこのシリーズの学習テーマになります!

プロジェクトの背景:リオス科の性的二形
リオレウス(オス)とリオレイア(メス)
リオス科は、極端な性的二形を示す飛竜種として知られています:

- リオレウス(オス):「空の王者」として、翼が大きく発達し、優れた飛行能力を持ちます
- リオレイア(メス):「巣の守護者」として、尾棘と毒腺が発達し、地上戦に特化しています
このような形態差は、どのような遺伝的基盤によって生み出されるのでしょうか?
仮説:遺伝子発現とコピー数変動
私たちは、以下の仮説を立てました:
-
Hox遺伝子の発現ドメインシフト
- オス:翼基部でHox発現が前方シフト → 翼の成長が促進
- メス:尾椎領域でHox発現が後方シフト → 尾棘の形成が強化
-
CNV(コピー数変動)による形態分化
- オス:翼基部軟骨形成遺伝子(BMP/Wnt系)のコピー数増加
- メス:尾棘・毒腺関連遺伝子のコピー数増加
-
性選択と役割分担
- オス:探索・急襲に適した形態
- メス:防衛・巣保護に適した形態
なぜ「仮想ゲノム」なのか?
現実のデータ解析の課題
実際の生物で性差や形態進化を調べるには:
- 複数種・複数個体のゲノム配列が必要
- 組織別RNA-seqデータの取得に時間とコストがかかる
- 実験的検証(遺伝子改変など)は倫理的・技術的制約がある
仮想ゲノムの利点
仮想ゲノム・シミュレーションデータを使えば:
- 研究仮説(「オスで翼遺伝子が高発現」「メスで尾棘遺伝子がCNV増加」など)を先に設計できる
- その仮説に基づいて「データがどう見えるか」を予測・再現できる
- 解析パイプラインの動作確認や、統計手法の検証に使える
つまり、**「仮説駆動型の学習・検証ツール」**として機能します。

プロジェクトの全体像
使用する技術スタック
このプロジェクトでは、以下の技術を使用します:
ゲノム・アノテーション
- バックボーン:Gallus gallus (ニワトリ) GRCg7b
- アノテーション:Ensembl release 112
RNA-seq解析
- シミュレーション:polyester (R/Bioconductor)
- アライメント:HISAT2
- カウント:カスタム関数(トランスクリプトベース)
- 発現解析:DESeq2
CNV解析
- ツール:Control-FREEC(予定)
- データ形式:BED/VCF
可視化
- R: ggplot2, pheatmap
- Python: matplotlib, seaborn
ワークフロー概要
このシリーズで学べること
このシリーズを最後まで進めると、**「RNA-seq解析を一通り“自分で回して、結果を語れる”状態」**になります。
1. 解析環境を自分で用意できるようになる
できるようになること
- RNA-seq解析用の環境をゼロから作れる
- データや結果を迷わず管理できる
- 「動かない理由が分からない」から脱却できる
- 他人の環境に依存せず、解析を再現・やり直しできるようになる
2. RNA-seqデータが「どうやって生まれるか」が分かる
できるようになること
- どんな条件差が、どんな発現差を生むか設計できる
- 架空でも「意味のあるRNA-seqデータ」を作れる
3. RNA-seq解析の中身をブラックボックスにしない
できるようになること
- アライメントやカウントの役割を理解できる
- エラーが出ても「どこを疑うべきか」が分かる
4. 発現差を“統計として”説明できるようになる
できるようになること
- DESeq2で発現差を検出できる
- p値・logFCの意味を理解して結果を読める
5. 結果を図で説明できるようになる
できるようになること
- 火山図・ヒートマップ・PCAを作れる
- 図から“何が起きているか”を読み取れる
6. ゲノム変化と発現変化を結びつけて考えられる
できるようになること
- CNVと発現量の関係を解析できる
- 仮説→検証→説明、の流れを体験できる
最終的にできるようになること
RNA-seq解析を「流れ」で理解し、
自分でデータを作り、解析し、結果を説明できるようになる
次のステップ
次回は、環境構築とデータ準備について詳しく解説します。conda環境の構築から、バックボーンゲノムの取得、染色体リネームまで、実際のコマンドを交えながら説明します。
お楽しみに!

