MatterGenとは?
MatterGenは、Microsoft Researchによって開発された、無機材料を生成するAIです。従来の材料生成AIモデルは、生成される材料の安定性が低かったり、特定の材料にしか対応できなかったり、また特定の物性にしか対応できないなどの課題がありました。
MatterGenはこれらの課題を克服し、広範な元素を含む安定で多様な無機材料を高い精度で生成するモデルです。今回はこのMatterGenについてNatureで公開されている元論文を読み、可能な限り分かりやすく紹介していきます。
※ 筆者自身も勉強しながら記事を書いていますので、間違っている部分がありましたらご指摘いただけるとありがたいです。
忙しい人向け: MatterGenの4つのポイント
- 安定性と多様性を両立した無機材料を生成できる
- ターゲットとする特性に合わせてモデルのファインチューニングができる
- 拡散モデルをベースに作られている
- 生成された材料について実際に合成を行い、予測の妥当性が示されている
イントロダクション
近年、マテリアルズインフォマティクス(MI)技術の発展に伴いハイスループットスクリーニング、材料データベースの整備、機械学習ベースの物性予測モデルなどの技術が開発され、膨大な数の候補材料をスクリーニングすることが可能になりつつあります。
しかし、これまでに実施された最大の結晶性材料の探索においても、対象となった材料は10^6 ~ 10^7個程度であり、これは潜在的に存在する無機化合物の数からみればほんのわずかに過ぎません。また、狙った物性を示す材料を生成するようにモデルをコントロールすることも困難である場合が多いです。
このような制約から、目標とする特性を決めてそこから材料を生成する「逆設計」という手法が大きな注目を集めています。逆設計には生成モデル、進化的アルゴリズム、強化学習などの技術が用いられてきました。
中でも生成モデルは新しい構造を効率的に探索でき、様々な目的に応じて柔軟に対応させることができるため、有望な手法として期待されてきました。
しかし、既存の生成モデルは密度汎関数理論(DFT)が対象とできる元素が限られているため、安定な材料を生成するのが難しく、目標として設定できる物性も限られています。
これに対しMatterGenでは、周期表全体を対象として安定かつ多様な無機材料を生成することが可能であり、幅広い特性の逆設計に対応できるように調整を行うことが可能です。
※論文中では「SUN材料」という言葉がたびたび登場します。これはStable, Unique, Newのそれぞれ頭文字をとったもので、つまり安定、ユニーク、かつ新しい材料を指します。自分は「Unique」と「New」の違いがよくわからかったので詳しく書きますが、
- Unique: 生成された構造が同じモデルから生成されたどの構造とも一致しない
- New: 生成された構造が既存のデータベースに存在しない
ということをそれぞれ指しているようです。
次に、MatterGenにおいては拡散モデルが大きな役割を果たしていますので、これについて少し補足をします。
補足: 拡散モデル(Diffusion Model)とは?
拡散モデルは近年、画像生成などの分野で目覚ましい成果を挙げている生成モデルの一種です。拡散モデルの特徴は、データにノイズを徐々に加えていく過程(拡散過程)と、そのノイズを取り除いていく過程(逆拡散過程)という2つの過程を利用するところにあります。下の画像でいうと左から右へのプロセスが拡散過程、右から左が逆拡散過程というイメージです。
- 拡散過程では、画像などのデータに対して、徐々にランダムなノイズ(ガウスノイズなど)を加えていきます。 この過程を繰り返すことで最終的にはデータは完全にノイズで覆われた状態になります。
- 逆拡散過程では、ノイズで覆われた状態から徐々にノイズを取り除いていくことで、元のデータに似た新しいデータを生成します。 この過程ではモデルがノイズ除去の方向を学習することが重要になります。
この2つのプロセスをうまく利用することで、元のデータに似た高品質なデータを効率的に生成することができるのが拡散モデルの強みとなっています。
拡散モデルに関する補足は以上として、また論文の内容に戻ります。
材料の拡散過程
上のセクションで見たように、画像の拡散過程は通常ガウスノイズを加えますが、結晶性材料ではこのようにガウスノイズを加えることはできません。そのため、結晶の周期構造や対称性を考慮した独自の拡散過程が必要となります。MatterGenでは、原子の種類(A)、原子の座標(C)、周期格子(L)という3つの要素に対して拡散過程を定義しています。
- 原子の種類(A): 離散値に対して拡散モデルを適用するために考案されたD3PM(Discrete Denoising Diffusion Probabilistic Model)と呼ばれるモデルを利用し、原子タイプのカテゴリがマスクされるような拡散を適用する
- 原子の座標(C): 周期性を持つ原子の座標に対してWrapped Normal Distribution(ラップされた正規分布)という特殊な確率分布を用いてノイズを加え、最終的には一様分布になるような拡散を適用する
- 周期格子(L): 結晶格子にガウシアンノイズを加え、最終的にトレーニングデータからの平均原子密度を有する立方格子に近づくような拡散を適用する
拡散過程の模式図(論文から引用)
逆拡散過程においては、スコアネットワークと呼ばれるものを使用します。スコアネットワークは、拡散モデルにおいてノイズが加えられたデータからノイズを取り除く方向を予測する役割を担います。
MatterGenではこれらの結晶構造の要素に対して、それぞれ適切なスコアを出力するようにスコアネットワークが設計されています。
- 原子タイプ(A): 不変スコアを出力する(結晶全体の変換(回転や並進など)に対して、原子の種類が変化しないことを反映している)
- 座標(C)と格子(L): 共変スコアを出力する(結晶全体の変換に応じて、これらのスコアが適切に変換される)
このようにスコアネットワークを設計することで、MatterGenはデータから結晶の対称性を学習する必要性を排除しています。
また、MatterGenでは所望の特性を持つ材料を設計するため、特性ラベルが付与された追加のデータセットを用いてスコアモデルをファインチューニングするためのアダプターモジュールを導入しています。アダプターモジュールは、与えられた特性ラベルに応じてモデルの出力を変化させるようにベースモデルの各層に追加されます。
このファインチューニングは、化学組成、対称性、磁気密度などの様々な特性を持つ材料を生成するために適用することが可能です。これらの幅広い条件付け能力と拡散プロセスの改良を組み合わせることで、MatterGenは広範な逆設計問題に対応できます。
アダプターモジュールの模式図。逆拡散過程に制約を加えることで所望の特性に応じた材料を生成できる(論文から引用)
多様で安定な材料の生成
材料の逆設計のための生成モデルの学習は、以下のような2段階のプロセスで構成されます。
- まず、周期表全体にわたって安定した多様な結晶を生成するための一般的なベースモデルを事前トレーニングする
- 次に、このモデルをさまざまな下位タスクに向けてファインチューニングする。
このセクションでは1のベースモデルが生成する材料の多様性について議論しています。
ベースモデルのトレーニングには、Materials Project(MP)およびAlexandriaデータセットから再計算された最大20個の原子を含む607,683個の安定構造で構成される大規模なデータセットであるAlex-MP-20を使用しています。多様性を直接測定することは困難であるため、MatterGenがSUN材料を生成する能力を定量化することで分析を行います。
安定性(Stable)の評価
- MatterGenで1024個の材料をランダムに生成
- 生成された構造の78%が、Materials Projectの凸包(convex hull)の0.1eV/atomの閾値を下回った(凸包とは、既知の安定な物質をプロットしたときに、それらを結んでできる図形のようなもので、エネルギー的に安定な状態を示す基準となる)
- 13%の構造は、凸包よりもさらにエネルギーが低い非常に安定な構造だった
- Alex-MP-ICSDデータセットを用いた場合、生成された構造の75%は0.1eV/atomの閾値を下回った。かつ、3%の構造が0eV/原子を下回った
- また、95%の構造はDFTにより最適化された構造との差(RMSD)が0.53Å以下だった。
つまり、MatterGenにより生成された構造のほとんどは安定しており、DFTにより得られる構造に非常に近いということを示しています。これらの結果は下の図の左(b)と真ん中(c)に示されています。
新規性(New)、一意性(Unique)の評価
- 1,000個の構造を生成した場合、一意な構造の割合は100%
- 1,000万個の構造を生成した後でも52%にしか低下しない
- 生成された構造の61%は新しい構造だった
つまり、大量の構造を生成しても、飽和することがなく多様な構造を生成でき、それらの構造のほとんどがAlex-MP-ICSDデータセットと比較して新しいことを示唆しています。こちらの結果は下図右側の(d)に示されています。
MatterGenのSUN材料に関する評価結果(論文から引用)
化学誘導設計 (Chemistry-guided design)
目的の系(例えばLi-Co-O)において最も安定な材料を見つけることは材料設計における主な課題の一つです。このタスクに対し、従来はRSS(Random Structure Searchの略。第一原理計算を用いて、多数のランダムな原子配置を生成し、それらのエネルギーを計算することで、安定な結晶構造を探索する手法)を用いて材料を予測することが主なアプローチでした。しかし、RSSの最大の欠点はその計算コストです。なぜなら、三元化合物でさえ徹底的に探索するには数十万回のDFT計算が必要になるためです。
ここでは、MatterGenがターゲットとなる系において材料を探索する能力を、Substitution(置換)とRSSの2つの手法と比較することで評価しています。
ターゲットとする系は十分に探索された、部分的に探索された、および未探索の3つのカテゴリに分け、元素の数は3元系、4元系、5元系に分けて評価を行っています。
- すべての系タイプと元素数に対し、MatterGenは最高割合のSUN構造を生成(下図(a)、(b))
- 十分に探索された、部分的に探索された、の2つのカテゴリにおいて最大数のユニークな構造を発見(下図(c))
- 3元系および4元系ではSustitutionが優れた結果を出したが、5元系においてはMatterGenが優れたパフォーマンスを発揮した
つまり、ほぼすべての指標においてMatterGenが優れた材料探索能力を示すことが示唆されています。
様々な化学組成に対してのMatterGen、Substitution、RSSの材料探索能力の比較(論文から引用)
特性誘導設計
ある特定の物性や特性を持たせた材料を探索したいとき、従来のスクリーニングベースのアプローチでは既知の材料群を超えて探索することはできません。ここではMatterGenが磁気的、電子的、機械的などの異なる逆設計タスクにおいて、目標とする制約を持つSUN材料を直接生成する能力を実証します。
高い磁気密度を持つ材料の生成
- モデルをDFTでラベル付けした605000個のデータでファインチューニング
- ターゲット値: 0.20A^−3
- 結果は下の図の(a)
特定のバンドギャップ値を持つ材料の生成
- モデルをDFTでラベル付けした42000個のデータでファインチューニング
- ターゲット値: 3.0eV
- 結果は下の図の(b)
高い体積弾性率を持つ材料の生成
- モデルをDFTでラベル付けしたわずか5000個のデータでファインチューニング
- ターゲット値: 400GPa
- 結果は下の図の(c)
所望の特性に応じた材料の生成結果。論文より引用
上の図(a)(b)(c)から明らかなように、データセットの分布に対して、生成された材料の特性値の分布が所望の特性に向けて大きくシフトしていることが分かります。これは、ファインチューニングに使用したデータセットがベースモデルのトレーニングに使用したデータセットよりもかなり小さい場合でも当てはまります。
つまり、従来の手法に比べてはるかに小さいDFT計算回数で目的の特性を持つ材料を生成できる可能性があるということです。
低サプライチェーンリスク磁石の設計
前のセクションでは単一の特性に対してモデルのチューニングを行いましたが、実際の材料設計では複数の特性を満たすような材料を見つける必要があることが多いです。ここでは低サプライチェーンリスク磁石の設計を通じて複数特性を持つ材料の探索を行います。既存の高性能永久磁石の多くにはサプライチェーンリスクをもたらす希土類元素が含まれているため、希土類を含まない永久磁石の発見に対する関心が高まっています。このような背景から、このタスクを以下の2つの特性に集約します。
- 磁気密度のターゲット: 0.2A^{-3}
- ハーフィンダール・ハーシュマン指数(HHI)スコアのターゲット: 1250
※補足: HHI係数とは市場の集中度を測るための指標で、0~10000の値をとる。この値が高いほど市場の集中度が高く、少数の企業による独占状態に近いことを表す。今回はこの値を材料のサプライチェーンリスクを評価するために応用しており、HHIスコアが低い = サプライチェーンリスクの低い材料を探索することを目指している。
結果を下の図に示します。
- (a)は目的の特性となる磁気密度とHHIスコアを軸にとり生成された材料をプロットしています。緑が磁気密度、HHIスコア両方の特性を使って制約を入れた材料で、黄色が磁気密度のみを制約に入れた材料です。両方の制約を入れた場合は×で示されたターゲット値の周辺に多くの材料が生成されていることが読み取れます。
- (b)は生成された材料の構成元素の分布を示しています。色分けは(a)と同様です。HHIスコアが低くなるように制約を設けている緑色のモデルでは、サプライチェーンリスクの高いコバルト(Co)やガドリニウム(Gd)などの元素が排除されていることが読み取れます。
- (c)は生成された構造のいくつかの例を示しています。
このように複数の特性を制約に加えても、MatterGenはそれらの制約を満たす材料を安定して生成できていることがわかります。
低サプライチェーンリスク磁石の生成結果。論文より引用
実験による検証
ここでは実際にMatterGenで生成された材料を実験的に合成し、目標となる特性を満たすかどうかを検証します。ターゲットとする特性は体積弾性率で、4つの値(50 GPa、100 GPa、150 GPa、および200 GPa)を設定し、以下のような手順で材料のスクリーニングを行いました。
- 体積弾性率でファインチューニングされたモデルを使用して8192個の候補を生成
- (1) ユニークさと新規性、(2) MatterSimおよびDFTによる安定性評価、(3) MatterSimからのフォノン安定性評価、および (4) 材料が酸素を含むかどうか、に基づいて複数回のフィルタリングを実行。これにより候補の数は75に削減
- さらに専門家による調査ののち、最終的に4つの候補を選択
ここで挙げられた4つの候補のうち、1つで合成が成功しました。合成された材料はTaCr2O6であり、この構造は200 GPaの体積弾性率値をターゲットにすることによって生成されました。合成が成功した材料に対しナノインデンテーションによってサンプルのヤング率を実験的に測定し、DFT計算されたポアソン比0.30を使用してその体積弾性率を推定しました。その結果、4回の測定後の推定体積弾性率は最大169 GPa(158±11GPa)となりました。
ディスカッション
- 生成モデルは所望の特性を持つ新しい構造を効率的に探索できるため、逆設計タスクに適している。一方で安定した結晶性材料を生成することは結晶の周期性と、原子タイプ、座標、および格子間の相互作用などを反映できないため困難だった。
- MatterGenでは周期性と、原子タイプ、座標に対して拡散モデルを導入することにより従来手法の制限を改善した。
- 一方、いくつかの点で改善できる可能性がある。
- 例えば、MatterGenは特に大きな結晶の場合対称性の低い構造を生成する傾向がある。これは逆拡散過程、アーキテクチャ、トレーニングセットの拡張などにより改善できる可能性がある。
- 画像生成やタンパク質設計などのドメインにおける生成モデルの大きな影響を考えると、MatterGenのようなモデルは今後数年間で材料設計手法を大きく変革すると考えられる。
まとめ
以上、MatterGenの紹介を行いました。従来の生成モデルと比較して、所望の特性を満たす安定な材料を生成する能力が非常に高いことが分かりました。目的となる特性に応じたモデルのファインチューニングが可能なので、様々な逆設計タスクに対応できるのも魅力的ですね。ただ、論文で合成を報告しているのは1例だけであり、計算で予測した材料を実際に合成するのはまだまだ難しいということでしょうか。とはいえ、MatterGenが材料の逆設計実現への大きな一歩となったことは間違いないと思いますので、今後も注目していきたいですね。