3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【AI for Science 研究者向け】MatterGen, MatterSim によるAI時代の物質探索

3
Posted at

1. AI for Science とは

AI for Science は、AI そのものを研究対象にするのではなく、AI を使って科学研究の進み方を加速する考え方です。仮説立案、実験、シミュレーション、データ解析、知見の抽出という研究サイクルの各段階に機械学習や生成 AI を組み込み、探索速度と再現性を高めていくことが中心になります。

この考え方は特定分野だけのものではありません。

分野 AI for Science の適用例
材料科学 候補材料の探索・物性予測(MatterGen, MatterSim)
生命科学 創薬・タンパク質構造予測(AlphaFold等)
医療画像 病理画像解析・類似症例検索
気象・地球科学 大規模シミュレーションの高速化

重要なのは、AI for Science の目的が「派手なモデルを使うこと」ではない点です。研究者にとって本当に重要なのは、データを安全に扱えること、検証可能な手順を作れること、そして研究上の問いに対して意味のある比較ができることです[6]

2. 文部科学省 AI for Science 研究革新プログラムについて

文部科学省の AI for Science 研究革新プログラムは、人文・社会科学から自然科学まで幅広い分野で AI 活用を促進し、研究の国際競争力を高めることを目的とした取り組みです。特に SPReAD 1000 は、AI を初めて研究に導入する段階の研究者でも挑戦しやすい設計になっており、構想段階のテーマでも応募しやすい点が特徴です。

この文脈では、Azure のようなクラウド計算資源は単なる実行基盤ではなく、採択後に研究を立ち上げるための実務基盤でもあります。材料科学研究では、GPU だけでなく、以下の要素まで含めて準備する必要があります。

  • 計算資源: MatterGen/MatterSim の実行に必要な GPU 環境
  • データ管理: 生成した結晶構造データの保管・共有
  • モデル管理: ファインチューニング済みモデルのバージョン管理
  • 再現性: 実験パラメータと結果の追跡

本記事で紹介する MatterGen と MatterSim は、このプログラムにおける材料科学分野の有力なツールとなり得ます。Azure AI Foundry 上での活用方法を含めて解説します。

📝 本シリーズの医療画像分野の記事もあわせてご覧ください:【AI for Science 研究者向け】AI医療画像データ分析入門ガイド

3. AI時代の物質探索

材料科学の中心的な課題は、望ましい物性を持つ新しい物質を発見することです。リチウムイオン電池の高容量化、触媒効率の改善、炭素回収材料の開発——こうした社会的課題の解決には、従来の試行錯誤的なアプローチでは到底追いつきません。

従来の物質探索は、以下のような流れで行われてきました。

  1. 既知の材料データベース(Materials Project等)から候補を検索
  2. 第一原理計算(DFT: Density Functional Theory) で物性を予測
  3. 条件に合う物質を実験的に合成・検証

しかし、この「生成してからスクリーニングする」手法は、画像生成で例えるなら100万枚の画像を生成してから猫の画像を探すようなものです。

Microsoft Research AI for Science チームが開発した MatterGenMatterSim は、このパラダイムを根底から覆します。MatterGen は DALL·E のような拡散モデルの技術を結晶構造生成に適用し、望ましい物性を指定するだけで新しい結晶構造を直接生成できます。MatterSim は生成された構造の安定性や物性を高速かつ高精度に評価する汎用原子間ポテンシャルモデルです。

本記事では、これら2つのモデルの技術的詳細と、Azure AI Foundry 上での活用方法を解説します。

4. 従来手法の限界:なぜAIが必要なのか

4.1 DFT(第一原理計算)の課題

密度汎関数理論(DFT)は材料科学の標準的な計算手法ですが、以下の制約があります。

課題 詳細
計算コスト 1つの結晶構造の最適化に数時間〜数日を要する
スケーラビリティ 原子数に対して $O(N^3)$ のスケーリング($N$: 電子数)
有限温度・圧力 0 K・常圧以外の条件では精度が大幅に低下
探索効率 データベーススクリーニングでは既知材料の組み合わせに限定される

4.2 AIによるパラダイムシフト

MatterGen + MatterSim のワークフローは、この問題を以下のように解決します。

従来: データベース検索 → DFTスクリーニング → 実験合成
         ↓                    ↓               ↓
     既知材料に限定     計算時間が膨大     失敗率が高い

AI時代: MatterGen(生成) → MatterSim(評価) → 実験合成
         ↓                    ↓               ↓
     新規構造を直接生成   DFTの1000倍高速    成功率が向上

5. MatterGen:拡散モデルによる結晶構造生成

実験で証明された成果:MatterGen が生成した新規結晶構造 TaCr₂O₆ は、実際にラボで合成され、XRD(X線回折)・XPS(X線光電子分光)・ナノインデンテーション測定によって物性が検証されました[1]。AI が提案した材料が実験室で「本物」として確認された——これは、MatterGen が単なる理論モデルではなく、実験科学者が信頼して使えるツールであることを意味します。

5.1 DALL·E と同じ発想——拡散モデルとは

MatterGen は拡散モデル(Diffusion Model) に基づく生成AIです。DALL·E がテキストから画像を生成するように、MatterGen は望ましい物性から結晶構造を生成します。

拡散モデルの基本原理

拡散モデルは2つのプロセスで構成されます。

  1. 順方向拡散(Forward Diffusion):データにノイズを段階的に加えて完全なノイズに変換
  2. 逆方向拡散(Reverse Diffusion / Denoising):ノイズから段階的にデータを復元

$$
\text{ノイズ} \xrightarrow{\text{段階的なデノイズ}} \text{結晶構造}
$$

画像生成の場合はピクセルにノイズを加え・除去しますが、MatterGen では結晶構造の3つの要素に対してこの操作を行います。

5.2 MatterGen のアーキテクチャ

MatterGen は結晶構造を構成する3つの要素を同時にデノイズします。

要素 説明 デノイズの性質
原子種(Atom Types) どの元素が含まれるか(Li, O, Fe等) カテゴリカル(離散的)
原子座標(Atom Coordinates) 結晶内での原子の位置 連続値
格子パラメータ(Periodic Lattice) 単位胞の形状と大きさ 連続値
デノイズプロセス:

Step 0 (ノイズ):  ランダムな原子種 + ランダムな座標 + ランダムな格子
     ↓
Step 1:           原子種が絞り込まれ始め、座標が秩序化
     ↓
Step 2:           主要元素が確定、格子構造が形成
     ↓
  ...
     ↓
Step T (最終):    安定な結晶構造(CIFファイルとして出力)

損失関数

MatterGen の学習では、各デノイズステップにおいて以下の損失を最小化します。

$$
\mathcal{L} = \mathcal{L}{\text{atom_types}} + \mathcal{L}{\text{coordinates}} + \mathcal{L}_{\text{lattice}}
$$

  • $\mathcal{L}_{\text{atom_types}}$: 正しい元素の予測(クロスエントロピー損失)
  • $\mathcal{L}_{\text{coordinates}}$: 正しい原子位置の予測(平均二乗誤差)
  • $\mathcal{L}_{\text{lattice}}$: 正しい格子パラメータの予測(平均二乗誤差)

5.3 プロパティ条件付き生成:Classifier-Free Guidance

MatterGen の真価は、望ましい物性を条件として指定して結晶構造を生成できることにあります。これは画像生成AIにおける「Classifier-Free Guidance」と同じ手法です。

# MatterGen での条件付き生成の例
mattergen-generate $RESULTS_PATH \
    --pretrained-name=dft_mag_density \
    --batch_size=16 \
    --properties_to_condition_on="{'dft_mag_density': 0.15}" \
    --diffusion_guidance_factor=2.0

ここで diffusion_guidance_factor($\gamma$)はガイダンスの強度を制御するパラメータです。

$\gamma$ の値 効果
$\gamma = 0$ 無条件生成(物性制約なし)
$\gamma = 1$ 標準的な条件付き生成
$\gamma > 1$ 物性制約をより強く反映(多様性は低下)

5.4 アダプターモジュールによるファインチューニング

MatterGen にはアダプターモジュールが実装されており、ラベル付きデータセットを用いて特定の物性制約に向けたファインチューニングが可能です。

提供済みのファインチューニング済みモデル:

モデル名 条件
chemical_system 化学組成系(例:Li-O)
space_group 空間群
dft_mag_density DFT計算による磁気密度
dft_band_gap DFT計算によるバンドギャップ
ml_bulk_modulus ML予測による体積弾性率

複数物性の同時制約も可能です。

# 化学組成 + エネルギー安定性の同時制約
mattergen-generate $RESULTS_PATH \
    --pretrained-name=chemical_system_energy_above_hull \
    --batch_size=16 \
    --properties_to_condition_on="{'energy_above_hull': 0.05, 'chemical_system': 'Li-O'}" \
    --diffusion_guidance_factor=2.0

5.5 ベンチマーク性能

MatterGen は既存手法を大幅に上回る性能を示しています[1][2]

モデル S.U.N. (↑) RMSD (↓)
MatterGen 38.57 0.021
DiffCSP (Alex-MP-20) 33.27 0.104
CDVAE 13.99 0.359
FTCP 0.0 1.492
G-SchNet 0.98 1.347
  • 既存のSOTA(CDVAE)と比較して、2.9倍新規かつ安定な構造を生成
  • エネルギー極小への近さは17.5倍改善
  • 体積弾性率 > 400 GPa の材料を250以上発見(データベースからは2つのみ)

6. MatterSim:汎用原子間ポテンシャルモデル

6.1 概要

MatterSim は、周期表全体の元素にわたり、多様な温度(0〜5000 K)と圧力(常圧〜1000 GPa) の条件下で材料の物性を予測する深層学習モデルです[3]

従来のMLFFとの違い

特性 従来のMLFF MatterSim
元素カバレッジ 限定的 周期表全体
温度範囲 0 K 近傍 0〜5000 K
圧力範囲 常圧 〜1000 GPa
精度(有限温度) 限定的 10倍向上
データ効率 低い 97%削減

6.2 アーキテクチャ:M3GNet ベース

MatterSim は M3GNet アーキテクチャをベースとしています。学習データは以下の方法で生成された大規模合成データです。

  1. 能動学習(Active Learning) — モデルの不確実性が高い領域を優先的にサンプリング
  2. 生成モデル — 多様な構造の探索
  3. 分子動力学シミュレーション — 有限温度における原子配置のサンプリング

予測する物理量:

$$
\hat{E}, \hat{\mathbf{F}}i, \hat{\boldsymbol{\sigma}} = f\theta({\mathbf{r}_i, Z_i}, \mathbf{h})
$$

  • $\hat{E}$: 全エネルギー
  • $\hat{\mathbf{F}}_i$: 各原子に作用する力
  • $\hat{\boldsymbol{\sigma}}$: ストレステンソル
  • ${\mathbf{r}_i, Z_i}$: 原子位置と原子番号
  • $\mathbf{h}$: 格子パラメータ

6.3 主要な性能

ギブス自由エネルギー予測

MatterSim は無機固体のギブス自由エネルギーを第一原理計算に匹敵する精度で予測します。1000 K までの温度範囲で実験値との差は 15 meV/atom以内です。

MatBench ベンチマーク

MatBench(材料物性予測の標準ベンチマーク)において、MatterSim はすべての物性特化型モデルを上回る精度を達成しました。

データ効率

ファインチューニングにおいて、スクラッチ学習の3%のデータで同等精度を達成:

  • 水のシミュレーション:従来の3%のデータで実験精度に到達
  • Li₂B₁₂H₁₂ 固体電池材料:10%のデータで同等精度

6.4 使い方

import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator

device = "cuda" if torch.cuda.is_available() else "cpu"

# シリコンのダイヤモンド構造を作成
si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)

# 物性計算
print(f"エネルギー (eV)        = {si.get_potential_energy()}")
print(f"エネルギー/原子 (eV)   = {si.get_potential_energy()/len(si)}")
print(f"第1原子の力 (eV/Å)     = {si.get_forces()[0]}")
print(f"応力テンソル (GPa)     = {si.get_stress(voigt=False)[0][0] / GPa}")

より精度の高い5Mモデルの使用:

calc = MatterSimCalculator(
    load_path="MatterSim-v1.0.0-5M.pth",
    device=device
)

7. MatterGen + MatterSim:統合ワークフロー

MatterGen と MatterSim は組み合わせることで真価を発揮します。MatterGen が生成した結晶構造を MatterSim が評価・緩和するパイプラインは以下のとおりです。

統合評価コマンド

# MatterGen で構造を生成
export MODEL_NAME=chemical_system_energy_above_hull
export RESULTS_PATH="results/$MODEL_NAME/"

mattergen-generate $RESULTS_PATH \
    --pretrained-name=$MODEL_NAME \
    --batch_size=16 \
    --properties_to_condition_on="{'energy_above_hull': 0.05, 'chemical_system': 'Li-O'}" \
    --diffusion_guidance_factor=2.0

# MatterSim で構造を緩和・評価
mattergen-evaluate \
    --structures_path=$RESULTS_PATH \
    --relax=True \
    --structure_matcher='disordered' \
    --save_as="$RESULTS_PATH/metrics.json"

評価指標:

指標 意味
Stability コンベックスハルからのエネルギー距離(≤ 0.1 eV/atom で安定)
Novelty 訓練データに存在しない新規構造の割合
Uniqueness 生成された構造間の非重複率
RMSD エネルギー極小からの構造距離

8. 研究シナリオ:固体電池電解質の探索

MatterGen + MatterSim の統合ワークフローを、全固体リチウムイオン電池の新規電解質材料探索という具体的な研究テーマで追ってみましょう。

研究の問い:Li イオン伝導度が高く、電気化学的に安定な新規固体電解質を発見したい。

ステップ 操作 具体例
1. 条件設定 化学系と目標物性を指定 chemical_system: Li-P-S-Cl, energy_above_hull: 0.05
2. 構造生成 MatterGen で候補を一括生成 batch_size=64 → 64個の候補結晶を生成(数分)
3. 構造緩和 MatterSim で原子位置を最適化 DFT なら数日 → MatterSim なら数秒/構造
4. 安定性評価 コンベックスハル上の位置を計算 64個中、安定な候補を12個に絞り込み
5. 物性スクリーニング MatterSim で Li拡散係数を推定 分子動力学シミュレーション(500 K, 1 ns)
6. DFT 検証 上位3候補のみ DFT で精密計算 3構造 × 数時間 = 従来の1/20の計算コスト
7. 実験合成 最有力候補をラボで合成・XRD 測定 TaCr₂O₆ のように実験検証まで到達可能

このように、64個の候補生成から DFT 検証まで数日で完了します。従来の手法では、データベースから候補を選び、それぞれに DFT 計算を実行するだけで数週間〜数ヶ月を要していました。

9. Azure AI Foundry での利用方法

9.1 Azure AI Foundry とは

Azure AI Foundry は、Microsoft の AI モデルをクラウド上でデプロイ・実行するための統合プラットフォームです。MatterSim は Azure AI Foundry のプレビュー機能として利用可能です。

Azure AI Foundry 上の MatterSim プロジェクト

9.2 Azure AI Foundry を使い始める手順

GPU 環境がなくても、ブラウザだけで MatterSim を試せます。

1. https://ai.azure.com にアクセスし、Azure アカウントでサインイン
2. 左メニューから「Labs」→「Projects」→「MatterSim」を選択
3. サンプル構造(Si, NaCl 等)をプリセットから選択、または CIF ファイルをアップロード
4. 「Run Simulation」をクリック → エネルギー・力・ストレスが数秒で返される
5. 結果を JSON / CSV でダウンロードして解析

💡 研究者向けのポイント:まずは自分の研究で使い慣れた構造(既に DFT で計算済みの系)を MatterSim に入力し、DFT の結果と比較してみてください。精度を自分の目で確認することが、ツールへの信頼を築く最短ルートです。

9.3 ローカル環境でのセットアップ

大規模な計算やカスタマイズが必要な場合は、ローカル環境(GPU推奨)で実行します。

MatterGen のインストール

# リポジトリのクローン
git clone https://github.com/microsoft/mattergen.git
cd mattergen

# 環境構築
pip install uv
uv venv .venv --python 3.10
source .venv/bin/activate
uv pip install -e .

# Git LFS(大規模ファイルストレージ)のセットアップ
sudo apt install git-lfs
git lfs install
git lfs pull -I checkpoints/mattergen_base --exclude=""

MatterSim のインストール

# conda 環境の作成(推奨)
conda create -n mattersim python=3.10
conda activate mattersim

# PyPI からインストール
pip install mattersim

9.4 Azure Quantum Elements との連携

MatterSim のより高度なプリトレーニング済みモデルや追加の材料科学機能は、Azure Quantum Elements で利用可能です。企業・研究機関の大規模な材料探索パイプラインに適した機能が提供されています。

10. 実践:カスタムデータでのファインチューニング

MatterGen と MatterSim はプリトレーニング済みモデルだけでも幅広く使えますが、自分の研究対象に特化したモデルが必要になる場面があります。

シナリオ ファインチューニングが必要な理由 対象モデル
プリトレーニングデータに含まれない物性で条件付き生成したい 提供済みアダプター(バンドギャップ、体積弾性率等)にない物性を制約として使う場合 MatterGen
特定の化学系で生成精度を高めたい 例:ペロブスカイト系やハイエントロピー合金など、訓練データが少ない系に集中して精度を上げる MatterGen
実験データや独自 DFT データで予測精度を改善したい 自チームの計算条件(汎関数、カットオフ等)に合わせたエネルギー・力の精度が欲しい場合 MatterSim
訓練データにない極端な条件を扱いたい 超高圧(>1000 GPa)や特殊な界面・表面構造など、プリトレーニングのカバー外 MatterSim

💡 判断基準:まずプリトレーニング済みモデルで試し、DFT や実験値との誤差が許容範囲を超える場合にファインチューニングを検討してください。MatterSim の場合、スクラッチ学習の 3% のデータで同等精度に達するため、少量のデータからでも効果が得られます。

10.1 MatterGen のファインチューニング

独自の物性データを用いてMatterGenをファインチューニングする手順:

# 既存プロパティでのファインチューニング
export PROPERTY=dft_mag_density
mattergen-finetune \
    adapter.pretrained_name=mattergen_base \
    data_module=mp_20 \
    +lightning_module/diffusion_module/model/property_embeddings@adapter.adapter.property_embeddings_adapt.$PROPERTY=$PROPERTY \
    ~trainer.logger \
    data_module.properties=["$PROPERTY"]

カスタムプロパティの追加手順:

  1. PROPERTY_SOURCE_IDS リストにプロパティ名を追加
  2. データセットCSVに新しいカラムを追加
  3. CSV→データセット変換を再実行
  4. プロパティ埋込みのYAML設定を作成
  5. ファインチューニングを実行

10.2 MatterSim のファインチューニング

# カスタムデータでのファインチューニング
torchrun --nproc_per_node=1 \
    src/mattersim/training/finetune_mattersim.py \
    --load_model_path mattersim-v1.0.0-1m \
    --train_data_path your_data.xyz

11. 今後の展望

MatterGen + MatterSim の統合進化

Microsoft Research ブログでは、MatterSim と生成AI(MatterGen)や強化学習の統合により、体系的な新規材料の創出が実現すると述べられています[4]

想定される応用分野:

分野 ユースケース
エネルギー貯蔵 次世代リチウムイオン電池や固体電池の電解質材料設計
触媒 CO₂回収・変換のための高効率触媒探索
半導体 新しいバンドギャップを持つ半導体材料の発見
磁性材料 サプライチェーンリスクの低い高磁性密度材料(レアアース代替)
ナノテクノロジー ナノ構造材料の設計・最適化

AI for Science エコシステム

MatterGen と MatterSim は、Microsoft Research の「AI for Science」構想[5]の一部であり、以下のような広範なエコシステムとの連携が進んでいます。

  • Azure Quantum Elements: 量子化学計算との統合
  • Azure AI Foundry: モデルのデプロイ・推論インフラ
  • Materials Project / Alexandria: 訓練データソース

まとめ

項目 MatterGen MatterSim
目的 新規結晶構造の生成 材料物性のシミュレーション・予測
手法 拡散モデル(Diffusion Model) 機械学習力場(MLFF)
入力 望ましい物性条件 原子構造(位置 + 元素)
出力 CIF形式の結晶構造 エネルギー、力、ストレス
論文 Nature (2025) arXiv:2405.04967
GitHub microsoft/mattergen microsoft/mattersim
Azure Azure AI Foundry Azure AI Foundry / Quantum Elements

MatterGen と MatterSim は、材料科学に生成AIの力をもたらす画期的なツールです。DFT の計算コストに制約されていた物質探索が、AI の力でこれまでにないスピードと広がりを持つようになりました。

材料科学の研究者の皆さんは、ぜひ Azure AI Foundry やローカル環境でこれらのモデルを試してみてください。

References

[1] Zeni, C., Pinsler, R., Zügner, D., et al. "MatterGen: a generative model for inorganic materials design." Nature (2025). DOI: 10.1038/s41586-025-08628-5

[2] Zeni, C., et al. "MatterGen: a generative model for inorganic materials design." arXiv:2312.03687 (2023).

[3] Yang, H., Hu, C., Zhou, Y., et al. "MatterSim: A Deep Learning Atomistic Model Across Elements, Temperatures and Pressures." arXiv:2405.04967 (2024).

[4] Microsoft Research. "MatterSim: A deep-learning model for materials under real-world conditions." Microsoft Research Blog (2024-05-13).

[5] Microsoft Research. "MatterGen: Property-guided materials design." Microsoft Research Blog (2023-12-07).

[6] hisaho. "【AI for Science 研究者向け】AI医療画像データ分析入門ガイド." Qiita (2026).

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?