初めに
近年、単一細胞解析技術の進展により、細胞の分化過程や運命決定のメカニズムを解明する研究が加速しています。しかしながら、このような高次元で複雑なデータを解析するには、適切なアルゴリズムが必要不可欠です。そこで注目されているのが、Palantirというツールです。
Palantirは、細胞分化を確率的プロセスとしてモデル化し、幹細胞から終端状態までの分化経路を高精度で再現するアルゴリズムです。Mass Cytometryや単一細胞RNAシーケンス(scRNA-seq)といった多次元データに対応し、擬似時間(pseudotime)の計算や運命確率の推定を可能にします。また、分岐点や重要な遺伝子発現動態を特定する機能も備えており、細胞生物学や再生医療の研究において強力なツールとなっています。
本記事では、Palantirの基本的な仕組みや利点、具体的な活用方法について詳しく解説します。
論文紹介
Setty, M., Kiseliovas, V., Levine, J. et al. Characterization of cell fate probabilities in single-cell data with Palantir. Nat Biotechnol 37, 451–460 (2019). https://doi.org/10.1038/s41587-019-0068-4
以下で論文に基づきPalantirの仕組みを簡単に説明します。
Palantirの原理とは、高解像度の疑似時間順序付けの細胞を生成し、各細胞状態に対して各最終状態に分化する確率を割り当てることです。これは従来の細胞運命モデルと異なります。
従来の細胞運命モデルでは、細胞分化は一連の離散的なステップを経て進行し、各段階で細胞が特定の運命に固定されると考えられていました。この枠組みでは、細胞分化は直線的であり、分岐点ごとに明確な決定が行われるという前提がありました。
しかし、単一細胞RNAシーケンス(scRNA-seq)の技術が進歩するにつれ、細胞分化や運命決定が実際には連続的かつ確率的である可能性が示唆されるようになりました。
Palantirは、この新しい視点を取り入れ、細胞運命を確率的プロセスとしてモデル化します。このアルゴリズムは、低次元空間上で細胞状態の連続性を捉え、擬似時間(pseudotime)を用いて分化過程を高解像度で再現します。また、各細胞に対して終端状態に到達する確率(分岐確率)を割り当てることで、細胞の可塑性(他の運命への柔軟性)をエントロピーとして定量化します。
つまり大量の細胞を見るとそこには様々な分化の程度の細胞があり、そこから各細胞に対して疑似的な時間を生成します。そしてそうした各細胞に対して最終分化状態になる確率を割り当てることでどの程度他の運命になりうるのか(ならないのか)を定量化できるということです。
環境、用いたデータ
実行環境
OS - 5.4.0-67-generic #75-Ubuntu SMP Fri Feb 19 18:03:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
CPU - Intel(R) Core(TM) i9-10920X CPU @ 3.50GHz ×23
メモリ - 131.6 GB
データ
Paul et al. (2015)
このデータはscanpyのtutorialであるTrajectory inference for hematopoiesis in mouseで用いられているものです。
細胞運命のデータとして代表的な造血細胞のものです。
解析
解析は基本的にチュートリアルに従います。
QC(クオリティーチェック)
QCは以下の2つを行いました。
- ミトコンドリア、リボソームで足切り、フィルタリング
- Doublet除去
- これらについてこちらで解説しています。
具体的には以下で行いました。
sc.pp.scrublet(adata, batch_key="sample")
sc.pp.filter_cells(adata, min_genes=100)
sc.pp.filter_genes(adata, min_cells=3)
その後チュートリアルに従い正規化、HVG (Highly Variable Genes)の選択、PCA、Diffusion mapsを行います。
PCA、Diffusion mapsはともに次元削減に使われるものですが、詳しくは以下の記事が参考になります。
データの中に入っていたannotaion情報を確認します。
クラスター名 | 細胞タイプ | 説明 |
---|---|---|
1Ery - 6Ery | 赤血球系統(Erythroid lineage) | 赤芽球(proerythroblastやerythroblast)の分化段階を表し、初期から成熟段階まで含まれる。 |
7MEP | 巨核球-赤血球前駆細胞(MEP) | 赤血球と巨核球系統への分化が可能な前駆細胞。 |
8Mk | 巨核球(Megakaryocyte) | 血小板を産生する細胞。 |
9GMP, 10GMP | 顆粒球-単球前駆細胞(GMP) | 顆粒球や単球への分化が可能な前駆細胞。 |
11DC | 樹状細胞(Dendritic Cell, DC) | 抗原提示機能を持つ免疫細胞。 |
12Baso, 13Baso | 好塩基球(Basophil) | アレルギー反応や炎症に関与する顆粒球。 |
14Mo, 15Mo | 単球(Monocyte) | マクロファージや樹状細胞への分化が可能な免疫細胞。 |
16Neu, 17Neu | 好中球(Neutrophil) | 細菌感染に対する主要な防御役割を果たす顆粒球。 |
18Eos | 好酸球(Eosinophil) | 寄生虫感染やアレルギー反応に関与する免疫細胞。 |
19Lymph | リンパ球(Lymphocyte) | B細胞、T細胞、NK細胞などのリンパ系免疫細胞を含む可能性。 |
その後MAGICを利用してデータを補完し、その後Palantirを実行します。
Palantir実行のために一つだけ決定しなければならないものがあります。それが初期細胞です。ここでは造血幹細胞HSCです。HSCのマーカーとしてはCD34がよく知られており、今回もCD34が最もよく発現している細胞を初期細胞とします。
start_cell = adata.obs_names[adata[:, 'Cd34'].X.argmax()]
ここまできたら少し立ち止まっていろいろ確認してみましょう。
umapでの位置は以下となります。
代表的なマーカー遺伝子の発現は以下の様になっています。
遺伝子名 | 細胞タイプ |
---|---|
CD34 | 造血幹細胞(HSC) |
MPO | 好中球 |
GATA1 | 赤血球系 |
IRF8 | 単球系前駆細胞 |
CD34の発現が最も大きいものを初期細胞に選んだのに、位置が少しずれているので初期細胞の発現量は外れ値の可能性があります。なのでCD34の発現量を縦軸に、細胞を横軸にとったプロットを見てみましょう。
Palantir実行
pr_res = palantir.core.run_palantir(
adata, start_cell, num_waypoints=500
)
結果は以下となります。
Pseudotimeは疑似時間であり、どれだけ初期細胞から時間がたったかを表します。これはつまり疑似時間が違えば違う細胞であることから、細胞のクラスタリングと似た結果になります。
また、ここでのPseudotimeが0とは初期細胞を表します。しかしこれは上で示した初期細胞の位置と一致していません。したがって今回の場合CD34ではなく他のマーカーで初期細胞を決定したほうがよいかもしれません。
Entropyは細胞の可塑性(他の運命への柔軟性)であり、Pseodptimeとおおむね逆の結果になることがわかります。つまり、疑似時間がたてばたつほどおおむね他の細胞への柔軟性は減るということです。プロットの結果は矛盾していません。
左下の2つはターミナル状態(終端状態)となる確率を表します。それぞれの細胞がW31350(Neu)になる確率、W38920(Ery)になる確率を表します。
次は疑似時間と終端状態となる確率のプロットです。
W31350(Neu)、W38920(Ery)ともに0.1のあたりで大きな遺伝子発現の変化が起きていることがわかります。
エントロピーのumap上に軌跡を視覚化します。
矢印は10個あるので1つが0.1に相当します。当然ですがエントロピーの低い方に向かっていくのがわかります。
下は各細胞における遺伝子の発現量を疑似時間を横軸にしてプロットしたものです。
W31350(Neu)でCD34が時間とともに減少していません。これも上と同様にCD34が初期細胞のマーカーとして適していないことを表しています。エントロピーと軌跡のプロットを見ると、5,6番目の矢印でCD34がよく発現しているエリアを通ることがわかります。そしてこれは今回の発現量を疑似時間のプロットとよく一致します。そのほかのマーカーでは予想通りの結果となっています。
CD34とW31350(Neu)を詳しく見てみます。
次にNeuに関連する遺伝子発現動態を可視化します。
Neuに関連する遺伝子をPseudotimeによってクラスタリングしてプロットします。様々なタイプの遺伝子発現動態がわかります。多くのクラスターでは発現量が増えていっています。これは分化が進み様々な遺伝子が発現していっていることを示しています。一方でcluster6では発現が少なくなっていっているのがわかります。従ってこの中に初期細胞のマーカー遺伝子が含まれているであろうことがわかります。
まとめ
初期細胞選択には十分気を遣う必要があると感じました。初期細胞のマーカーを何個か試して適切なマーカーを選択する必要がありそうです。しかしそれさえできれば、高解像度で細胞運命を解析できて非常に使いやすいと感じました。
(この記事は研究室インターンで取り組みました:https://kojima-r.github.io/kojima/)