Taguchi, YH., Turki, T. Novel AI-powered computational method using tensor decomposition for identification of common optimal bin sizes when integrating multiple Hi-C datasets. Sci Rep 15, 7459 (2025). https://doi.org/10.1038/s41598-025-91355-8
一般読者向けのまとめ
この研究では、DNAの立体構造を解析するHi-Cデータをより正確に扱うための新しいAI手法を開発しました。Hi-Cデータを解析するときに、どのくらい細かくデータを区切るか(ビンサイズ)が重要ですが、従来の方法では複数のデータセットを統合する際に最適なサイズを決めるのが難しかったのです。
今回の研究では、AIを活用した新しい数学的手法(テンソル分解)を用いることで、データの構造を自動的に解析し、最適なビンサイズを決めることができるようになりました。この方法を使えば、Hi-Cデータの解析精度を高め、遺伝子の働きをより詳細に調べることができます。
はじめに
この技術は、ゲノム研究や医学研究に役立つ可能性があり、将来的には病気の診断や新しい治療法の開発につながるかもしれません。
この論文は、複数のHi-Cデータセットを統合する際の最適なビンサイズ(解像度)の決定方法について、新しいAIを活用した計算手法を提案しています。具体的には、テンソル分解(Tensor Decomposition: TD)に基づく教師なし特徴抽出(Unsupervised Feature Extraction: FE)を適用することで、最適なビンサイズを自動的に決定できる方法を開発しました。
背景
Hi-Cデータは、ゲノムの立体構造(クロマチン相互作用)を解析するために用いられる技術ですが、データを解析する際には「ビンサイズ」(遺伝子情報を区切る解像度)が重要です。
- ビンサイズが大きすぎると、細かいクロマチン構造を見落とす可能性がある。
- ビンサイズが小さすぎると、短いリードが細かく分割され、統計的なノイズが増えてしまう。
特に複数のHi-Cデータセットを統合する場合、すべてのデータセットで共通の最適なビンサイズを見つけることが困難です。従来の手法では、個々のデータセットの品質評価に基づいてビンサイズを決定する方法がありましたが、それでは統合したときの最適な解像度を決めることができませんでした。
研究の貢献
この研究では、新しい手法としてATDベースの教師なし特徴抽出(TD-based unsupervised FE)を用いることで、最適なビンサイズを決定できることを示しました。この方法の特徴は以下の通りです。
- フェーズトランジション(相転移)現象を利用し、最適なビンサイズを自動的に決定。
- 事前にしきい値を設定する必要がない(パラメータの調整が不要)。
- 既存のHi-Cデータ解析ツール(QuASARやmultiHiCcompare)では対応できなかった、複数データセットの同時解析が可能。
方法
- Hi-Cデータセット(GSE260760およびGSE255264)を用いて、異なるビンサイズでTDベースの教師なし特徴抽出を適用。
- 隠れた共通構造(hidden common structure)がどのビンサイズまで維持されるかを分析し、相転移現象が起こるビンサイズを最適解として選択。
- CTCF結合部位やTAD(トポロジカル関連ドメイン)などの機能部位との相関を評価し、この手法の有効性を確認。
結果
- 提案手法により、ビンサイズが小さすぎると共通の構造が失われることが確認され、最適なビンサイズを自動で決定できることを実証。
- 具体的には、GSE260760では100万塩基(1,000,000 bp)、GSE255264では15万塩基(150,000 bp)が最適であると推定された。
- 既存の単純な平均処理(simple averaging)よりも、TDベースの教師なしFEのほうが機能部位との相関が高いことが示され、この手法の精度の高さが確認された。
結論
- Hi-Cデータの解析において、TDベースの教師なし特徴抽出を用いることで、最適なビンサイズを自動決定できることを示した。
- この手法により、複数のHi-Cデータセットを統合する際の解析精度を向上できる。
- 従来手法では困難だった「複数のHi-Cデータセットを統合する際の最適解」を見つけることが可能となった。