はじめに
本記事は、Hubert Yockeyが著した「情報理論と分子生物学」についての勉強メモ📚です。
原題:Information Theory and Molecular Biology 1992
Hubert Yockey
Hubert Yockeyは、アメリカの物理学者、情報理論家です。(1916 - 2016)
分子生物学と情報理論の両方に造詣が深い科学者であり、著書「情報理論と分子生物学」は、これら2つの分野の融合に関する重要な貢献の1つとなっています。
「情報理論と分子生物学」
この本では、生命現象における情報伝達の役割に焦点を当て、生物学的情報がどのように物理学や情報理論の観点から理解できるかを説明しています。
Yockeyの著書は、分子生物学や生物物理学、生命科学の研究者だけでなく、情報理論や数学、物理学など、他の多くの分野の研究者にも興味を持たれています。それは、生命現象に対する情報理論的アプローチが、生命科学や他の分野の研究にも応用できる可能性を示しているためです。
基本となる考え方
1. 確率論
確率論は、不確実性が存在する事象を扱う数学の一分野であり、確率変数や確率分布などを用いて、その事象の発生確率や期待値、分散などを解析する手法です。確率論は、自然科学や社会科学、経済学などの様々な分野で応用されています。
2. エントロピーの役割
エントロピーは、熱力学の分野で、熱力学第二法則に基づいて物質やエネルギーの乱雑さや秩序の度合いを表す尺度です。情報理論においては、情報や不確実性、複雑性の度合いを表す尺度として用いられます。情報理論におけるエントロピーは、情報源から生成されるメッセージの平均的な情報量を表します。
3. 最大エントロピーの原理
最大エントロピーの原理は、与えられた制約条件の下でエントロピーを最大化するようにシステムが進展するという原理です。この原理は、情報理論や統計力学などの分野で応用されます。例えば、言語モデルにおいて、最大エントロピーの原理は、与えられた制約条件の下で最も確率的に正しい単語列を生成するために使用されます。
4. セントラルドグマを持つ符号化理論
セントラルドグマ(Central Dogma)は、分子生物学における基本的な概念で、遺伝情報の流れがどのように制御されているかを説明します。この理論は、フランシス・クリックによって1958年に提唱され、遺伝情報がDNAからRNAへ、そしてタンパク質へと一方向に伝達されるプロセスを指します。
セントラルドグマとは、情報を伝達するチャンネルの容量に関する定理のことであり、この定理に基づいて情報伝達における最適な符号化方法が導かれます。符号は、情報を表すためのコードであり、デジタル通信、圧縮、暗号化などの分野で利用されます。
5. 情報の発信、伝達、受信
情報の発信、伝達、受信は、情報通信における基本的なプロセスです。
情報の発信者は、情報を符号化して送信し、伝送路を通じて情報が受信者に到達します。
伝送路では、ノイズや干渉が発生するため、情報の正確性が損なわれることがあります。このような状況下で、受信者は伝送された情報を解読し、元の情報を復元することを試みます。
DNAのコード化システムである遺伝暗号
Yockeyは、情報理論と分子生物学の両分野に興味を持っており、それらの関連性について研究を行っていました。
彼は、DNAが情報の担い手であることを強調し、数学的な視点からDNAのコード化システムである遺伝暗号を分析していました。
「遺伝暗号」の数学的に優れた特性とは?
彼は、遺伝暗号がコードの重複を最小限に抑え、誤り訂正機能を持ち、進化的な変化に対してロバストな特性を示すことを指摘しています。これらの特性は、数学的なコード理論においても重要な要素であり、Yockeyは遺伝暗号をコード理論の一例として位置付けていました。
コードの重複を最小限に抑える
遺伝暗号は、4種類のヌクレオチドからなるDNAの3塩基配列であるコドンによってアミノ酸をコードしています。コドンは64種類ありますが、アミノ酸の種類は20種類しかありません。このため、遺伝暗号ではアミノ酸が複数のコドンによってコードされることがあります。しかし、このような重複を最小限に抑えるように、遺伝暗号はアミノ酸とコドンの対応関係を決定しています。
誤り訂正機能を持つ
遺伝暗号には、コドンのうち1つのヌクレオチドを変化させた場合にも、同じアミノ酸をコードするコドンが存在するという冗長性があります。
アミノ酸に対して複数のコドンが存在することで、1つのコドンに変異が生じた場合でも、同じアミノ酸をコードする別のコドンに置き換えることができます。これによって、誤りが訂正され、正しいアミノ酸が生成される可能性が高くなります。
進化的な変化に対してロバストな特性
遺伝暗号のアミノ酸とコドンの対応関係は、生命が誕生した初期の段階で既に確立されていたとされています。その後、生物の進化に伴ってアミノ酸の種類が増えたり、新しいコドンが出現したりしましたが、遺伝暗号の基本的な構造は変わらなかったとされています。このように、遺伝暗号は進化的な変化に対してロバストな特性を示しています。
誤りに対して耐性は、統計量的に表現される
DNA複製の過程では、コピー誤りや外部からの環境的ストレスによって誤りが発生することがあります。誤りの頻度は、遺伝子の長さや複製速度などによって異なりますが、統計的に予測可能な範囲内で起こります。誤りが生じた場合でも、遺伝暗号によって誤り訂正機能が提供されることで、生物は誤りに対して耐性を持つことができます。
生命の3つのサブシステム
Hubert Yockeyは、生命が3つのサブシステムから構成されているという考え方を示しています。これらの3つのサブシステムとは、化学モーター、二重層膜、情報蓄積システムです。
- 化学モーター:ATP合成やタンパク質合成といった細胞内での化学反応を推進する仕組み
- 二重層膜:細胞膜を構成する脂質二重層のことで、細胞内と外を仕切る役割
- 情報蓄積システムは、DNAとRNAのことを指しており、遺伝情報を保存し、伝達するためのシステム
Yockeyは、これらの3つのサブシステムが協調して機能することで、生命が維持されていると考えています。特に、情報蓄積システムが生命の本質的な役割を担っており、化学モーターや二重層膜は情報蓄積システムを支えるための補助的な役割を持っていると述べています。
生命の分子構造における情報伝達プロセスのモデル化
Yockeyは、コミュニケーション理論を分子生物学に適用することで、DNA-RNA-タンパク質のシステムを含む生命現象を理解しようとしました。彼のアプローチでは、生命の分子構造における情報伝達プロセスを、通信システムとしてモデル化しています。
このモデルは、情報の発信元(DNA)、伝達チャネル(RNA)、そして最終的な受信者(タンパク質)から成り立っています。
情報のソース:DNA
- DNAは生命の情報ソースであり、遺伝情報の蓄積庫
- 遺伝情報は、生物が環境に適応し、進化するための指令となる
- DNAは、生命の「言語」である核酸の配列によって情報を符号化する
伝達チャネル:RNA
- DNAからの情報は、トランスクリプション(転写)というプロセスを通じてRNAに伝達される
- RNAは、DNAの情報をタンパク質合成の場所へ運ぶメッセンジャーの役割を果たす
- この段階では、生命の情報はRNAの核酸配列として再符号化される
受信者:タンパク質
- RNAによって運ばれる情報は、トランスレーション(翻訳)プロセスによってタンパク質に解読される
- タンパク質は、生命現象を実現するための分子マシンや構造要素
- この過程で、RNAの情報はタンパク質のアミノ酸配列という「形」に変換される
エラーの訂正と冗長性
- 通信理論では、エラーの訂正と情報の冗長性が重要な概念
- 生物のDNA-RNA-タンパク質のシステムにおいても、エラー訂正メカニズム(例えば、DNA修復メカニズム)や冗長性(例えば、遺伝子の重複)が観察される
- これらの機能により、生命システムは情報の正確な伝達を保証し、変異による影響を最小限に抑えられる
コミュニケーションと進化
Yockeyは、通信理論を用いて、進化の過程でも情報がどのように伝達され、変化するかを分析します。遺伝情報の変異は、メッセージの「ノイズ」と見なされることがありますが、これらの変異が新たな適応形質の源泉となり得ることを示しています。
原生生物の最小情報量(ビット数)
情報理論を分子生物学に適用させたときに、原生生物の最小情報量はどうあらわすことができるでしょうか?
ゲノムサイズ
原生生物の最小情報量は、その生物が持つ全ての遺伝子に含まれる塩基対の数によって表されます。この数を「ゲノムサイズ」と呼びます。ただし、原生生物のゲノムサイズは種によって異なります。
最小限のゲノムサイズを持つ原生生物として知られるのは、一般にマイコプラズマ類(特にマイコプラズマ・ジェニタリウム)です。マイコプラズマ・ジェニタリウムのゲノムサイズは約580,000ベースペアで、これは生物として生存するのに必要な最小限の遺伝情報を持つとされています。
一方、最も大きな原生生物のゲノムサイズについては、アメーボゾアに属する「ポリペディウム・ヴォルガレ」が有名です。ポリペディウム・ヴォラゲは約670億ベースペアのゲノムを持ち、これはヒトのゲノムサイズ(約30億ベースペア)の約22倍にあたります。しかし、原生生物の中には更に大きなゲノムサイズを持つ種が発見される可能性もあり、この分野は常に進化しています。
ビット数に換算すると...
一つの塩基は2ビットの情報を持ちます(4種類の塩基のうちの1種が選ばれるため)。
遺伝子の塩基対数をnとすると、遺伝子の情報量は2nビットとなります。
最小限のゲノムサイズを持つ原生生物のマイコプラズマ類は、約58万塩基対で構成される最小のゲノムサイズに基づいて、その生物の情報量は約116万ビットと見積もられます。
この見積もり値はおよその推定を試みたもので、厳密な数値ではありません。
さいごに
進化は、「増加する秩序」ではなく「増加する複雑性」に基づいている
Yockeyは、生物がより複雑になるためには、情報量の増加が必要であることを指摘しました。これは、遺伝子配列やタンパク質の機能、細胞内のシグナル伝達ネットワークなど、生物における情報の複雑性が増していくことを意味しています。つまり、生物が進化するには、情報の複雑性が増していく必要があるという考え方を持っています。