AIと生物学と私
私は学生時代に分子生物学を専攻し(博士号はとり損ね)ていました。
数年前に上司に
「大学の専門とAIを組み合わせて何かアイデア出してみない?」
と聞かれ、
「論文検索とか見つけてきた論文の要約くらいじゃないっすかねー」
と答えていました。
私が思い浮かぶ程度のことは当然先行者がいて、今では随分と優秀なツールが多く利用されています。
【厳選7ツール】研究効率が劇的に変わる!2024年おすすめAIツール
そんな中、2024年のノーベル化学賞は「AIによるタンパク質の構造解析」が受賞しました。
タンパク質分解の研究に携わり、構造解析で苦労していた自分としては
「あの頃にこんな便利なものがあれば…」
と思うと同時に、「タンパク質の構造予測」が研究されていたことにも気付かなかった不勉強さを反省する気持ちもあります。
この記事では「AIによるタンパク質の構造予測」の意義と、受賞した「AlphaFold2」について紹介します。
(2008年のノーベル化学賞の研究対象GFPをAlphaFold2で構造予測したもの)
2024年ノーベル化学賞
2024年のノーベル化学賞は「タンパク質設計」と「AIによるタンパク質の構造予測」の研究者が受賞しました。
「タンパク質設計」は20種類のアミノ酸から全く新しいタンパク質の設計を可能にしたこと
「AIによるタンパク質の構造予測」は複雑にアミノ酸が絡み合うタンパク質の構造を、既知のタンパク質の構造を学習したAIによって高精度に予測できるようにしたこと
が評価されての受賞となりました。
この記事では「AIによるタンパク質の構造予測」について紹介します。
受賞者と開発の歴史
「AIによるタンパク質の構造予測」の研究成果でノーベル化学賞を受賞したのは、「DeepMind」(ディープマインド)社のデミス・ハサビスCEOと研究チームのジョン・ジャンパー氏です。
DeepMind社は囲碁のソフト「AlphaGo」で、トップ棋士との対局を4対1で勝ち越したことでも有名ですね。
ハサビス氏は「AlphaGo」と同様、CNN(畳み込みニューラルネットワーク)を用いた深層学習でタンパク質構造予測ソフト「AlphaFold1」を2018年に発表。
この時点で 60% という当時の最高精度をたたき出していました。
そこにジョン・ジャンパー氏が参画し、新しいアイディアで全く別の「AlphaFold2」を2020年に発表。
タンパク質構造解析として必要とされる予測精度90% を達成しました。
2018年に「AlphaFold1」が発表されるまで、予測精度が40%にも満たなかったことを考えると、驚異的なスピードですべてを塗り替えてしまったのです。
タンパク質とは
ヒトの遺伝情報はA,T,G,C4つの塩基の並びとして核内でDNAに保存されています。
DNAには多くの遺伝情報が載っていて安定性が高いため、そのままでは使いづらいので、必要な部分を切り出して安定性が低い(不要となったらすぐ分解できる)RNA(mRNA)へ転写されます。
このmRNAが核外へ出て、3つの塩基を1セットとしてアミノ酸に変換されます。
アミノ酸は20種類ありますが、水への親和性や電気的性質によって、アミノ酸同士が反発したりひかれあったりします。
その結果、アミノ酸は折りたたまれるなど三次元的な立体構造を形成し、タンパク質となります。
九州オープンユニバーシティ から抜粋
タンパク質の構造解析と構造予測の重要性
タンパク質は立体構造を形成することで初めて機能します。
また、タンパク質は単体で機能することは少なく、他のタンパク質と相互作用することが多いです。
構造が分かると何が嬉しいでしょうか。
あるタンパク質Aの凹部に別のタンパク質Bの凸部が結合すると、細胞内に信号が送られるようになるとします。
その信号が細胞に異常をきたす場合、Aの凹部に別の物質で蓋をしてBとの結合を阻害すれば予防できるかもしれません。
この考え方は花粉症などの抗アレルギー薬でも使われています。
構造解析ができないと色々な物質を手あたり次第試す必要がありますし、そもそもAとBが結合することを発見するまでにも時間がかかります。
構造解析によってAに凹部があること、Bに凸部があることが分かれば相互作用の可能性について検討できますし、
その対策としてAの凹部を埋める物質・タンパク質の候補を選定しやすくなります。
このように、タンパク質の機能や作用機序の解明にその構造を知ることがとても有益なのですが、実際に構造を解析するためには多くのコストがかかります。
タンパク質は不安定な物質なので、正しい構造を維持したままのタンパク質を必要量集めるための条件設定に時間がかかったり。
実際に構造を解析するために必要な機器に場所とお金がかかったり。
自分の研究室では設備を持てないから外部委託したけど結果が戻ってこなくてヤキモキしたり...
ゲノムプロジェクトによってDNA配列は解析され、遺伝子の作るアミノ酸配列が分かる今、タンパク質の構造を高精度に予測することで研究は飛躍的に進むと考えられます。
AlphaFold2の仕組み
AlphaFold2が機械学習を使ってタンパク質の構造を予測する手順は以下の通りです。
この賞の図はすべてノーベル財団が公表しているものを加工しています。
原本はこちら
1.DBから類似性のあるタンパク質を検索する

AlphaFold2はまず、構造不明なアミノ酸配列と似たアミノ酸配列を持つタンパク質を検索します。
同時に、すでに解析済みの構造も取得します。
2.特徴量生成(Embedding)

このステップでは2つの特徴量マップを生成します。
一つ目はMSAと呼ばれる手法を利用して作成します。
色々な生物種がもつ似ているタンパク質を整列させ、進化の過程で保存されてきた部分(相同性が高い部分)を調べます。(上図、右上)
このマップはAlphaFold2ではMSA representationと呼んでいます。
アミノ酸配列の長さ X 類似タンパクのサンプリング本数 x 256 次元
のデータを作成します。
もう一つのマップは解析済みの類似タンパク質をtemplateとして利用します。
こちらはアミノ酸配列の2次元配列のような形になります。(上図、右下)
こちらのマップはAlphaFold2ではpair representation と呼んでいます。
アミノ酸配列の長さ x アミノ酸配列の長さ x 128次元
のデータを作成します。
3.分析(学習)と予測

Evoformer(Evolution + Transformer?)
ニューラルネットワークであるTransformerモデルを利用し、アミノ酸の距離マップを改善していきます。
TransformerモデルはGoogleが2017年に発表したモデルですが、「文全体を参照する」特徴があります。
タンパク質の構造解析においては、あるアミノ酸について、配列全体の情報を直接参照できるメリットがあります。
CNNやRNN(リカレントニューラルネットワーク)のような手前から順番に処理するモデルだと、遠く離れたアミノ酸同士の関係性をうまく考慮できないようです。
MSA representationとPair representaion間で情報を交換しながら、encodingをしていきます。
48サイクル実行し、
アミノ酸配列の長さ x アミノ酸配列の長さ x 128次元
アミノ酸配列の長さ x 384次元
の情報へ変換します。
structure
EvoformerでEncodingされた特徴量をDecodingし、立体構造を組み立てます。
入力アミノ酸配列の特徴量とtemplateを用いて三次元にマッピングします。
そこにEvorformerで得た特徴量等を反映させて全体の座標を計算し、入力アミノ酸配列の特徴量が更新されます。
この処理を8回繰り返します。
立体構造を組み立て、その結果をフィードバックする(そしてそれがうまく機能する)ことがAlphaFold2の優れた点です。
EvoformerとStructureを3サイクル回し、AlphaFold2はタンパク質の予測構造を出力します。
そしてAlphaFold3へ
AlphaFold2のソースコードはApache Licence2.0で公開されました。
商用利用・無償利用・特許使用権を認める形で公開されており、さらに改造版・アップグレード版の再配布も許可されています。
学習済みのパラメータファイルについても商用利用可能な形で公開されています。
企業・研究者が自由に利用できる環境となっているため、タンパク質の構造解析は飛躍的に進んでいます。
こういった功績が認められて2024年10月にノーベル賞を受賞したのですが…
実は2024年5月にAlphaFlod3が発表されています!
AlphaFold3では、タンパク質同士やタンパク質とDNAなどとの複合体を予測できるようになりました。(AlphaFold2では別ツールが必要だった)
AlphaFold3はまだβ版といわれてはいますが、AlphaFold2から向上した予測精度・スピードと複合体予測を単独でできるようになったという点で、創薬を始めとする様々な分野の開発に貢献することになるでしょう。
最後に
私が現在アサインされている金融プロジェクトでは枯れた技術が好まれる傾向にあります。
そのような中でもAIを活用した取引ツールなど活用事例は着実に増えています。
新しい技術がどのように使われているかの感度を高くして、活用できるようにしていきたいですね。
参考資料
AlphaFold2説明時の図は以下のFigure2を加工しました
https://www.nobelprize.org/uploads/2024/10/popular-chemistryprize2024-4.pdf
AlphaFold2の論文
DOI: 10.1038/s41586-021-03819-2
AlphaFold3の論文
DOI: 10.1038/s41586-024-07487-w
AlphaFoldサイト
https://deepmind.google/technologies/alphafold/
AlphaFold2の使ってみた
https://www.chem-station.com/blog/2021/07/alphafold2.html
他にも、技術色の強い記事・コラム・体験談など様々な記事が揃えておりますので、今後も本アカウントのチェックをお願いいたします。