こちらは創薬 Advent Calendar 2017(#souyakuAC2017)7日目の記事です。
#FAMSを用いたタンパク質機能予測に基づくDrugDiscovery
表記の共同研究を中央大学共同研究費を受けて2013年~2015年(予算810万円)で行ったのでその成果をここに報告する。
##研究組織
代表:田口善弘(中央大学理工学部物理学科教授)メンバー:岩舘満雄(同生命科学科准教授)、内古閑伸之(同物理学科助教(当時))、梅山秀明(北里大学薬学部名誉教授)、マイケル・グロミハ(インド工科大学マドラス校、生命工学科准教授)
##経緯
いわゆるインシリコ創薬においては、標的遺伝子の推定と遺伝子がコードするタンパク質(以下、タンパク)にバインディングする低分子化合物の探索は独立に行われる。我々はこれを一連のユニットとして実行可能な研究グループを構成し、多数の原著論文を刊行したのでその記録をここにとどめる。インシリコ創薬に関わる多くの人の役に立つことを祈念する。
##計算方法
このユニットは、田口が担当する「遺伝子発現プロファイルから疾患原因遺伝子を特定する」というユニットと主に岩舘・梅山が担当する「タンパクに結合する低分子化合物を推定する」というユニットからなる。前者においては、「主成分分析を用いた教師なし学習による変数選択」という手法を用い、後者に対してはタンパクの立体構造予測にホモロジーモデリングのFAMS(full automatic modeling sysytem)を、低分子化合物探索にコンパラティブ・ドッキングのchooseLDを用いた。
遺伝子発現プロファイルから疾患原因遺伝子を特定する
(主成分分析を用いた教師なし学習による変数選択)
↓
タンパクに結合する低分子化合物を推定する
たんぱくの立体構造予測(FAMS)
↓
低分子化合物探索(chooseLD)
##主成分分析を用いた教師なし学習による変数選択
これはバイオインフォマティクスに固有の方法というよりも、むしろ、large $p$ small $n$問題の場合の一般的な変数選択に関する手法であり、それがたまたま遺伝子発現プロファイルから疾患原因遺伝子を特定するというタスクに合致していたというべきだろう。遺伝子発現プロファイルは一般に$n$サンプル$\times p$遺伝子 ($p \gg n$)という行列で表現される。$p$個の遺伝子のうち、サンプルのクラス(例:健常者対患者)間に差異があるのはごくわずかであり、それがどの遺伝子かということを特定することは難しい。
通常、この様なタスクは二群の差を統計的に検定し、二群には差が無いという帰無仮説に置いて、観測された二群の差が偶然生じる確率(いわゆるP値)を計算し、この$P$値が十分に小さい場合には二群に差があるとみなす(帰無仮説の棄却)という方法をとる。しかし、$P = 1/p$は$p$個の遺伝子がある以上、偶然でも存在できるため、$p$が大きい場合には$P$値は非常に小さいこと($p\sim 10^4$のことが多いので、$P$値も$10^{-4}$以下の値)が要求される。しかし、誤差の大きい生物学の測定でこの様な小さなP値を得ることは容易ではない。そこで、我々は発想を換え、$n \times p$の行列を$n$次元の空間に$p$個の点が存在するとみなして主成分分析を行い、低次元に$p$個の遺伝子を射影することで遺伝子選択をすることを試みた。このようなことを行うと、二群に差がある遺伝子が、その他の二群に差のない遺伝子から分離して配置される。この処理には$n$個のサンプルがどの様に二群に分かれているかの情報も不要なので教師なし学習であり、非常に強力な方法である。詳しくは報告書に引用された文献を見ていただきたい。
##FAMS
FAMSはホモロジーモデリングの一種である。ホモロジーモデリングとは所与のアミノ酸配列に対して立体構造を予測するというタスクを立体構造が既知のタンパクとの類似度から推定するという手法である。最初のステップは立体構造既知のタンパクの中から、所与のアミノ酸配列に近い配列をもったタンパクを探すことから始まる。この「近い」というは簡単ではない。立体構造を知りたいタンパクの長さとまったく同じ長さのタンパクがあるわけではなく、どの部分とどの部分を比べるかをまず決める必要がある。長さ200と100のタンパクがあった場合、一致しているのは前者の11番目から50番目までと後者の131番目から170番目、などということもある。これを一致している部分の長さも、一致している部分がどこにあるかも、また、どのタンパクに一致している部分があるかの情報もない中、数万個の構造既知のタンパクとの間で網羅的な比較をせよ、というのだから簡単なわけはない。FAMSはこの様な困難なタスクを実行して、見つけたタンパクと構造未知のタンパクをうまく重ね合わせて、構造推定を行うというタスクを効率よくかつ正確に行うソフトの1つとして知られている。これも詳細は報告書に引用された文献に譲る。
##chooseLD
さて、タンパクの立体構造が解ったら、今度はその立体構造に結合する低分子化合物を探索しなくてはならない。通常、これはドッキングシミュレーションを行って実行されるが、chooseLDではコンパラティブ・ドッキングという手法が採用されている。コンパラティブ・ドッキングでは、タンパクに低分子が結合した立体構造が既知のものを収集し、FAMSをこの様な構造に対して行うことで、低分子が結合した時の立体構造を推定する。更に、既知の低分子結合構造と未知の低分子化合物の構造を重ね合わせることで低分子化合物のタンパクへの結合の容易度を推定する。chooseLDではこれをFPAscore(Finger print alignment score)と呼んでいる。そして候補低分子化合物をFPAscore順にランキングすることで有望な化合物を探索する。このコンパラティブ・ドッキングは通常のドッキングシミュレーションよりはるかに高速であり、少ない計算資源でより多くの化合物のスクリーニングを行うことが可能である。これも詳細は報告書に引用された文献に譲る。
#応用例
以下では、「FAMSを用いたタンパク質機能予測に基づくDrugDiscovery」で研究した具体例を簡単に説明していく。
##自己免疫疾患治療薬
自己免疫疾患は治療が困難な病気として知られている。アトピー性皮膚炎、リューマチ、などがその例である。自己免疫疾患には遺伝的な要因があると思われているがまだよくわかっていない。近年、さらにDNAの改変を伴わない遺伝子発現の変化であるエピジェネティクスが自己免疫疾患に関係しているのではと思われている。一卵性双生児であっても一方が健康で一方が病気の場合があるからだ。このような一卵性双生児のペアを皮膚筋炎、リューマチ、全身性エリテマトーデス、の3つの自己免疫疾患について収集し、これらの疾患に共通のプロモーターメチル化部位を探索することで原因遺伝子を推定し、また、その遺伝子を標的とする低分子化合物のスクリーニングを行った(文献1,文献2)。
##食道扁平上皮癌の治療薬の提案
食道扁平上皮癌は予後の悪いがんとして知られている。我々はこのがんのSNP(一塩基変異)頻度とDNAメチル化のデータを統合解析することでSNP特異的にメチル化が変化している遺伝子を探索し、それらを標的とする低分子化合物の推定を行った。実際には30人の患者の、患部、隣接正常組織、そして血液の3種の部位のSNP頻度とメチル化のデータを解析した(文献)。
##非小細胞肺がんの治療薬の提案
非小細胞肺がんもまた、予後の悪いがんであり、特に転移が発生してしまった場合にはその予後は著しく悪化する。このがんに対して計測された転移発生前と後の遺伝子発現プロファイルとメチル化の情報を統合解析することで、メチル化と遺伝子発現の変化が呼応して生じている遺伝子を推定し、それらに対して有効な低分子化合物をスクリーニングした(文献)
##心的ストレス後障害由来の心臓病の治療薬の提案
心的ストレス後障害(PTSD)は基本的にその名の通り、精神的な障害であるが、多くの余病を併発することが知られている。特に心臓病は頻度が高いが、PTSDの主たる疾患部位である脳から遠く離れているために、その原因の解明は簡単ではない。我々はストレスをかけたマウスの心臓のmRNAとmiRNAの発現プロファイルを統合解析することで、PTSD由来の原因遺伝子を推定し、それを標的とする低分子化合物のスクリーニングを行った(文献)。
##筋委縮性側索硬化症の治療薬の提案
筋委縮性側索硬化症(ALS)は治療困難な難病として知られている。特に疾患部位であるモーターニューロンは、患者に損傷を与えずに採取することが難しいため、研究が進んでいない。我々はALS患者と健常者の遺伝子発現プロファイルを比較することで疾患原因遺伝子を推定し、また、有効と思われる化合物をスクリーニングした(文献)。
#おわりに
上記の様に我々のパイプラインは非常に広範な疾患の治療薬の開発に適用可能であることが分かった。なお、上記の主成分分析を用いた教師なし学習による変数選択、FAMS、chooseLDについては、上述の通り報告書に引用されている文献を参照されたい。
#謝辞
低分子探索で協力して頂いたインシリコサイエンス社の小松克一郎氏に感謝する。本研究は表記の中央大学共同研究プロジェクトで行われた。