この記事の概要
執筆:段(Imperial College London・Nospare)、酒井(筑波大学・Nospare)、小林(明治大学・Nospare)
この記事は製造業界に従事するもしくはこれから従事するデータサイエンティストのために製造業で用いられる統計・機械学習技術と具体的な応用事例の紹介をします。特に製造業の研究開発に必要な時間と費用を削減するための技術に焦点を当てます。具体的には:
- サロゲートモデリング(Surrogate Modelling)、
- ベイズ最適実験計画法(Bayesian Optimal Experimental Design; BOED)、そして
- Physics Informed Machine Learning (PIML)
について解説します。
第一節では全体像とモチベーションを掴むために製造業の様々な場面で統計・機械学習を応用するビジネス的価値を整理します。技術的な内容に興味がある方は直接第二章の「サロゲートモデル」から読み始めても問題ありません。第三章ではサロゲートモデルを組み込んだ実験フレームワークである「ベイズ最適実験計画法(BOED)」について紹介します。そして最後に、近年注目されている物理法則を統計・機械学習モデルに組み込む「Physics Informed Machine Learning (PIML)」について紹介します。
1. 製造業に機械学習を導入するビジネス的価値
-
資本効率の改善
製造業は機械、設備、インフラなどの固定資本への投資・依存度が高い産業やビジネスモデルです。ビジネス的な視点では運用コストを最小限に抑えながら、重機設備から最大限の価値を引き出すことが主な目標となります。- 資産稼働率の最大化: 設備が故障により停止するたびに、設備を修復するコストと生産が停止することによる損失が発生します。MLを活用して故障を事前に予測しメンテナンスすること(予測保守)により、設備の高い稼働率を維持できるようになります。
- 歩留まり最適化:投入した原材料量から最終的に得られた良品の割合のことを歩留まり(Yield、利益を生む製品)と言います。半導体や化学工業などの業界では、歩留まりが利益を直接左右します。機械学習が工程パラメータを分析し最適化することで、廃棄率をわずか1%でも削減できれば、その1%は純利益として反映されます。
- 在庫流動性: 生産された品を保管するにはコストがかります。MLは需要予測の精度を向上させ、必要なタイミングで必要なだけ生産する「Just in time」生産に近づけることができます。これにより、安全在庫や倉庫スペースに拘束されていた運用資金が解放されます。
-
研究開発に必要な時間と費用の削減
- 製造業における研究開発の実験は単一データポイント取得に莫大な費用がかかる場合があります。例えば、新合金の特性評価には高価なレアアースの溶解が必要だったり、重要な生産ラインを数時間占有したりすることがあります。従来の実験計画では、実際に興味深いポイントかどうかに関わらず、事前に設定されたパラメータの組み合わせをテストせざるを得ません。MLを使用することで実験回数を削減することができるため、原材料費や機械のダウンタイムで大幅な節約が可能になります。
- MLは数千の材料組み合わせや製品設計を数秒でシミュレート可能です(例:新合金の発見や薬剤配合の開発)。これにより研究開発サイクルが大幅に短縮され、競合他社より数ヶ月早く製品を市場投入できます。
-
リスク軽減
- サプライチェーン可視化: MLは外部データ(気象、地政学ニュース、港湾混雑状況)を取り込み、サプライチェーン混乱を予測できます。これにより市場が反応する前に代替サプライヤーを確保できます。
- 安全・責任問題: MLシステムが作業員の安全をリアルタイム監視することができます。事故削減は従業員保護だけでなく、保険料削減、責任訴訟や評判毀損からの企業防衛にもつながります。
- データという資産: 機械学習を活用すればするほど、データの質は向上し、業務効率は向上します。競合他社は同じ機械やMLモデルを導入することはできますが、歴史的なプロセスデータや、最適化された学習済みモデルを購入することはできません。この知的財産が、競合他社にとって巨大な参入障壁となります。
2. サロゲートモデル
上でも触れたように、製造業における研究開発におけるデータポイントの取得には、実際にプロトタイプを作成して実験を行ったり、大規模な物理モデルに基づくシミュレーションを行ったりしなければならず、莫大な費用や時間がかかることが多いです。サロゲート(代理・代用)モデルは名前の通り、インプットとアウトプットの間で複雑な非線形な関係を持つ物理現象を機械学習によって近似し、デザイン空間内の任意の条件下でアウトプットがどのようなものになるかを高速に予測できるようにすることで、実験・計算にかかる時間や費用の削減を可能にします。またサロゲートの運用によって、物理シミュレーションが見逃してしまうような稀な失敗や異常なども検知することができるという事例も報告されています。
(新たな)サンプルの取得には実際に実験やシミュレーションを行う必要があります。より多くの条件下でデータが取得できれば関心のある物理現象をより詳しく捉えることができるのですが、時間・費用の制約があります。そこで限られたサンプルサイズでデザイン空間を適切に代表するような均一なサンプルの取り方を設定する必要があります。標準的な方法としてラテン超方格サンプリングなどが挙げられ、また適応的な方法として以下で説明するようなベイズ最適実験計画法を適用することもできます。より複雑な問題においては深層学習モデルなどによってデザインを生成することもあります。
サロゲートモデルへのインプットとアウトプット変数は問題に応じて適切なものを選択する必要があります。アウトプット変数は、問題に対する何らかのパフォーマンスを示す指標を使用することが多く(例:自動車と歩行者の衝突時の歩行者の頭部の損傷度合い)、インプット変数はそれに影響を与える様々な条件(例:ボンネットの形状、走行速度など)を使用します。
サロゲートモデル自体は、ガウス過程回帰や深層ニューラルネットなど、機械学習で標準的に使用されているものを問題に応じて適用することになります。さらに最近では以下でも説明するような、物理法則を明示的に取り込んだPIMLも適用されてきています。
具体例(半導体チップの製造)
サロゲートモデルの理解を深めるために半導体製造に関する例を考えます。なお、この例はサロゲートモデルの解像度を上げるためのみに考えた架空かつ簡易的なもので、実際の製造過程に沿わない部分もあることに注意してください。
半導体チップは、ウェーハと呼ばれるシリコンの円盤の上に、数十億個もの極小のスイッチや回路を何層にも重ねて作られます。この微細な回路を作るための製造工程は、主に以下のステップを何十回も繰り返すことで進みます。
- ウェーハの準備:土台となる純度の高いシリコンの円盤を用意する。
- 成膜(★):ウェーハの表面に、新たな回路の層となる極めて薄く均一な膜を張る。
- 露光:その膜の上に、光を使って回路の設計図を焼き付ける。
- エッチング:焼き付けた設計図に沿って、不要な膜を削り取り、実際の回路の形にする。
ここでは二番目の成膜工程(★)に着目します。成膜過程では化学気相成長法(Chemical Vapor Deposition; CVD)と呼ばれる技術が使用されます。CVDの工程では、密閉された真空の装置内にウェーハを置き、そこへ特殊なガスを流し込みます。装置内を加熱すると、熱エネルギーによってガスが化学反応を起こし、ウェーハの表面に二酸化シリコンなどの薄い固体膜が形成されます。この生成された膜が、最終的に電気を通したり遮断したりする回路の土台や層と層を隔てる絶縁体として機能します。
CVD工程において重要なのはウェーハの中心から端まで、膜の厚さを完全に均一にすることです。もし、ガスの流れや温度のわずかな偏りによって、ウェーハの外周部が中心部よりも厚くなってしまった場合、完成したチップの電気的な処理スピードや性能にバラつきが生じます。基準を満たさないチップはすべて廃棄されるため、歩留まりが低下し、結果として企業に経済的損失をもたらします。
膜の均一性を予測するために、エンジニアは流体力学、熱伝導、そして化学反応速度をモデリングした物理シミュレーションを実行します。このシミュレーションを1回実行するのに当たって12時間以上の演算が必要なことがあるため、実験設定を無闇に選択することはできません。そこで次のようなサロゲートモデルを構築します。
モデルの入力変数
計算コストの高い物理シミュレータを、関数 $f(\mathbf{x})$ と定義します。そしてシミュレータへの入力ベクトルを $\mathbf{x}\in\mathcal{X}\subset\mathbb{R}^d$ と定義します。今回の反応炉において、$\mathbf{x}$ は以下の3つの制御パラメータ($d=3$)で構成されいると仮定します。
- 温度($T$): ウェーハの保持台の熱。熱は化学反応に必要な活性化エネルギーを供給します。温度が低すぎると成膜が進行しません。逆に高すぎると、ガスがウェーハに到達する前の空間で反応してしまいます
- 圧力($P$): チャンバー内の真空度。ガス分子が他の分子と衝突するまでに進む距離である平均自由行程を制御します。これはガスの流れがスムーズになるか、乱れた流れになるかを大きく左右し、結果として膜がどれほど均等に成長するかに直接的な影響を与えます。
- 原料ガス流量($F$): 反応ガスをチャンバー内に送り込む速度。ウェーハの外周部で化学反応がガス不足に陥らないよう十分な量を流す必要がありますが、過剰な流量は非常に高価な化学薬品の無駄遣いとなってしまいます。
出力:不均一性指標($y$): シミュレータは、膜厚の標準偏差を平均膜厚で割った値を出力します。
目的: 関数 $f(\mathbf{x})$ を最小化することです(膜厚のバラつきをゼロに近づける)。
図1:上図はサロゲートモデルを用いた実験ループの1回のイテレーションを示しており、サロゲートモデルとその意思決定ロジックの関係を明らかにしています。上段では、真のシミュレータ(黒の破線)と、ガウス過程を用いたサロゲートモデルによる予測値(実線)を比較しています。赤い点はGPの学習に使用された過去の観測値を表し、網掛け部分はモデルの予測不確実性(95%信頼区間)を可視化しています。下段のパネルには、新たな実験パラメータを用いて実験する潜在的な価値を定量化する「期待改善量」獲得関数が表示されています。垂直の破線は、次にテストすべき実験パラメータの値を指しており、これは獲得関数が最大となる点に相当します。この選択は、CVDの不均一性指標が最小となる可能性が高い領域を狙う「活用」と、不確実性の高い領域をサンプリングしてモデルの全体的な精度を向上させる「探索」のバランスを最適化する戦略を取っています。
サロゲートモデルとしてよく採用されるのはベイズ統計学で有名なガウス過程(Gaussian Process; GP)です。ガウス過程は未知の複雑なシミュレータ関数 $f(\mathbf{x})$ を柔軟に近似するだけでなく、予測の不確実性(自信のなさ; 上図の上のパネルにおける影の部分)も同時に定量化できます。さらに数学的な利点として、後述する期待改善量(Expected Improvement; EI; 上図下のパネル)の解析的な解が求まるため、ベイズ最適化において非常に重宝されています。
ガウス過程に関する補足:通常の線形回帰分析はデータに最もよく当てはまる1本の直線を推定するのに対し、ガウス過程はデータに当てはまる可能性のある無数の曲線の束(関数の分布)を丸ごと確率的に扱います。まだデータがない状態(事前分布)では、線はあらゆる形状をとるため不確実性が最大です。しかし、シミュレータを実行して観測データが得られると、その観測点を通るように「線の束」がピン留めされます(事後分布への更新)。結果として、データがある場所の付近では予測の確信度が高まり、データがない空白地帯では線がばらつく(=不確実性が高い)という状態を表現できます。
数学的な定義と構成要素
具体的には、複雑で未知なシミュレータ関数 $f(\mathbf{x})$ に対して、以下のようなガウス過程の事前分布を付与します。
$$
f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')))
$$
このモデルの形状を決定づけるのが、以下の2つの要素です。
- 平均関数 $m(\mathbf{x})$:関数 $f(\mathbf{x})$ の平均的な振る舞い(大まかなトレンド)に関する事前知識を反映させることができます。シミュレータの出力に関する事前知識が特にない場合、シンプルに $m(\mathbf{x})=0$ と設定することが一般的です。
- 共分散関数 $k(\mathbf{x},\mathbf{x}')$:$f(\mathbf{x})$ の滑らかさや連続性に関する事前知識を反映させることができます。直感的には、「入力パラメータ $\mathbf{x}$ と $\mathbf{x}'$ が近ければ、出力される不均一性指標値 $f(\mathbf{x})$ と $f(\mathbf{x}')$ も近いはずだ」というルールを定義する重要なパーツであり、前述した「線の束のばらつき方」をコントロールします。
物理シミュレータを $n$ 回実行したと仮定します。これにより、データセット $\mathcal{D} = {X, \mathbf{y}}$ が得られます。ここで、$X$ は $n \times 3$ のデザイン行列で $\mathbf{y}$ は観測された不均一性指標値の $n \times 1$ ベクトルです。得られたデータとベイズの定理を基づいて、また試していないパラメータ設定 $\mathbf{x}_1$ に対する事後予測分布を解析的に導出することが可能です:
$$
f(\mathbf{x}_1) | \mathcal{D}, \mathbf{x}_1 \sim \text{Normal}(\mu(\mathbf{x}_1), \sigma^2
(\mathbf{x}_1))
$$
ここで $\mu(\mathbf{x}_1)$ は予測点$\mathbf{x}_1$における予測値の平均で、$\sigma^2(\mathbf{x}_1)$ は分散です。
サロゲートモデルを構築すること自体は、最終的なゴールではありません。1回あたり12時間もかかるような高コストな追加シミュレーションの実行回数を最小限に抑えつつ、最適な設定 $\hat{\mathbf{x}} = \text{argmin } f(\mathbf{x})$ を見つけ出すことです。
ここで、サロゲートモデルの事後分布を利用して獲得関数 $\alpha(\mathbf{x})$ を定義します。この関数は二つの観点のバランスを最適に保つ役割を果たします:
- 活用(Exploitation):事後分布の予測平均不均一性指標 $\mu(\mathbf{x})$ が低い(=均一性が高いと予測される)パラメータを評価すること
- 探索(Exploration):事後分布の分散 $\sigma^2(\mathbf{x})$ が高い(=予測の不確実性が大きく、まだよく分かっていない)パラメータを評価すること
期待改善量(Expected Improvement; EI)
工学分野の最適化において、最も一般的に用いられる獲得関数が期待改善量(EI)です。これまでに観測された中で最良(最小)の不均一性指標を $f^+$ とします。
新しい点 $\mathbf{x}_*$ を評価した際の改善量は, $I(\mathbf{x}_1) = \max(0, f^+ - f(\mathbf{x}_1))$ と定義されます。ガウス過程を使用する場合、この改善量の解析的な期待値を求めることができます。
$$
\text{EI}(\mathbf{x}_1) = \mathbb{E}[I(\mathbf{x}_1) \mid \mathcal{D}] = (f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1) + \sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)
$$
ここで、各変数は以下を指します。
- $\mathbf{z}_1 = (f^+ - \mu(\mathbf{x}_1))/\sigma(\mathbf{x}_1)$
- $\Phi(\cdot)$ は標準正規分布の累積分布関数
- $\phi(\cdot)$ は標準正規分布の確率密度関数
最初の項 $(f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1)$ が活用(すでにある良い結果をさらに良くする)を担い、右側の項 $\sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)$ が探索(不確実な領域を調べる)を担うという、構造を持っています。
最適化のループ
上記の理論を基に以下のループを回して最適なパラメータを特定します。
- モデルの更新: 現在のデータセットに対して、サロゲートモデルを適合させる
- 次の一手の決定: 獲得関数を最大化することで、次にシミュレーションを実行すべき最適なパラメータ設定を特定する
- シミュレーションの実行: 決定した設定を用いて、計算コストの高いCVDシミュレータを実際に稼働させ、結果を取得する
- データの追加と反復:データセットを更新し、ステップ1に戻ってプロセスを繰り返す
3. ベイズ最適実験計画法 Bayesian Optimal Experimental Design
サロゲートモデルはベイズ最適実験計画法(BOED:Bayesian Optimal Experimental Design)と呼ばれるより一般的なフレームワークの一部として組み込まれる多いです。BOEDでは、実験の「価値」を、関心のある潜在パラメータに関する不確実性をどれだけ低減できるか、という観点で定式化します。この原則に従うことで、投資に対する情報の還元(情報利得)が最も高い次の実験を、アルゴリズムに基づいて選定することが可能になります。
不確実性減少の定式化
具体的に「不確実性を低減させる」とはどういうことでしょうか。ここで、データの生成プロセスを $p(y | \mathbf{d}, \theta)$としてモデル化します。ここで:
- $y$ : 観測される実験結果
- $\mathbf{d}$ : 制御可能な設計パラメータ(例:温度、圧力、混合比など)
- $\theta$ : 未知の関心パラメータ(例:物理定数や最適な収率設定など)
まず、実験前の $\theta$ に関する知識を事前分布 $p(\theta)$ として定義します。設計 $\mathbf{d}$ で実験を行い、結果 $y$ を観測した後、$\theta$ に関する情報をベイズの定理を用いて事後分布 $p(\theta | \mathbf{d}, y)$ へと更新します。
実験の有用性を定量化するために、情報利得(IG: Information Gain) を計算します。これは、事前分布から事後分布にかけて不確実性(技術用語で言うとエントロピー)がどれだけ減少したかを測る測度です。IGは、事後分布と事前分布の間のカルバック・ライブラー(KL)情報量に等しく、次のように表されます。
$$
\text{IG}(y, \mathbf{d}) = D_{\text{KL}} [ p(\theta | y, \mathbf{d}) \parallel p(\theta) ] = H[p(\theta)] - H[p(\theta | y, \mathbf{d})]
$$
ここで、$H$ はシャノン・エントロピーを表します。IG の値が大きいほど、観測結果 $y$ によって $\theta$ に関する知識が獲得できたことを意味します。IG を測度として使用することで二つの異なる実験 $(y_1, \mathbf{d}_1)$ と $(y_2, \mathbf{d}_2)$ を情報の獲得量という観点から優劣を付けることができるようになります。

図2:上図は、CVDの例における2つの実験AとBを比較したものです。破線は実際のシミュレータ関数を示し、実線はガウス過程サロゲートモデルによる事後平均を表しています。網掛け部分は95%信頼区間であり、予測の不確実性を定量化したものです。過去の観測値は小さな赤点で示され、大きな赤色のひし形は最新のサンプルを表しています。実験Aは、新しいサンプル(0.35)を既存の観測点(0.25)のすぐ近くに配置する、最適とは言えないアプローチを示しています。この領域ではモデルの確信度がすでに高いため、得られる情報利得は限定的です。一方、実験BはBOEDのアプローチを体現しており、情報利得を最大化する点が選択されています。これは、事後分散が大きい領域をターゲットにすることで、対象とするシミュレーション関数に対する全体的な不確実性をできる限り迅速に減少させる、より効率的な実験計画法と言えます。
目的関数:期待情報利得 (Expected Information Gain; EIG)
今我々の目的は、二つの実験に優劣をつけることではなく、次にどのようなパラメーター設定で実験をすれば最も効率よく $\theta$ に関する情報が得られるかを把握することです。しかし、設計 $\mathbf{d}$ で実験を回す前に結果 $y$ は観測できないため、IGを直接最適化することはできません。その代わりに、起こり得るすべての結果 $y$ について、その予測確率で重み付けして周辺化(平均化)した、期待情報利得(EIG: Expected Information Gain)を最大化します:
$$
\text{EIG}(\mathbf{d}) = \mathbb{E}_{p(y|\mathbf{d})}[ D_{\text{KL}} (p(\theta | y, \mathbf{d}) \parallel p(\theta) )]
$$
ここで、周辺尤度は $p(y|\mathbf{d}) = \int p(y|\theta, \mathbf{d})p(\theta) d\theta$ で表されます。そして、最適な実験設計は、この期待値を最大化する設計 $\mathbf{d}^*$ として定義されます:
$$
\mathbf{d}^* = \operatorname{argmax}_{\mathbf{d}} \text{EIG}(\mathbf{d})
$$
参考文献:Desi R. Ivanova, Introduction to Bayesian Optimal Experimental Design: Static and adaptive design strategies, https://desirivanova.com/post/boed-intro/
計算上の課題と解決策
今まで、EIGの最適化は計算上非常に困難な課題でした。なぜなら、$y$ に関する期待値の計算、およびその内部での $\theta$ の周辺化をする必要があるからです。これは多くの場合、解析的に解くことができず、標準的なモンテカルロ法を用いた近似計算には膨大な計算コストがかかります。しかし、近年の変分推論(Variational Inference)やニューラル推定器(Neural Estimators)の進歩により、BOEDのスケールアップが可能になりました。これにより、データサイエンティストは、複雑で高次元な課題に対しても、これらの手法を適用できるようになりました。
ベイズ最適実験計画法の応用例
印刷素材に合わせた3Dプリンターの設定の最適化
背景:3Dプリンターの登場は、モノづくりの現場におけるプロトタイピングを飛躍的に加速させました。しかし、多様な素材(フィラメント)に対応するための印刷設定の最適化が、依然として大きなボトルネックとなっています。
印刷品質を担保するためには、素材の物理的特性に応じて、ノズルが動く速さ、押出し遅延、押出し率などといった複数のパラメータを適切に調整する必要があります。これらのパラメータは素材の粘度や熱伝導率などの物理的性質と密接に関連しているが、その物理モデルは極めて複雑であり、数理的な計算のみで最適解を導出することは困難であります。
課題:そのため、従来は人によるトライ・アンド・エラーに依存せざるお得ませんでした。手動で設定変更、印刷、評価、再調整を繰り返すこのプロセスは、最適なパラメータに到達するまでに数千から数万回の試行と、1週間以上の期間を要する場合もあり、多大な時間的・人的コストが発生していました。
解決策:この課題に対し、Deneault ら(2021) は、ベイズ最適実験計画法を用いたパラメータ調整の自動化プロセスを提案しました。そのシステムは以下のサイクルによって構成されています:
- 印刷:プリンターが初期設定、あるいはアルゴリズムが提案した初期設定に基づき、単純な線を出力する
- 計測・評価:カメラが印刷結果を撮影し、画像解析によってその品質を定量的に評価する
- 最適化:評価結果をベイズ最適化アルゴリズムに入力し、次に試すべき最も確度の高い設定値を算出する
このループにより、システムは試行ごとに未知のパラメータ空間を学習し、効率的に最適解を探索することが可能となります。
結果:実証実験の結果、この手法は従来手法と比べて圧倒的な効率化を実現することができました。従来では数千〜数万回の試行 / 1週間以上の所要時間が必要であった実験が100回未満の試行 / 約3時間でほぼ最適なパラメータ設定に到達することができました。
参考文献:Deneault et al. (2021), Toward autonomous additive manufacturing: Bayesian optimization on a 3D printer, MRS Bulletin, Springer Nature, https://link.springer.com/article/10.1557/s43577-021-00051-1.
バイオ医薬品製造における培養プロセスの最適化
背景:バイオ医薬品製造において、複雑な構造を持つ医薬品は、大型のステンレス製タンク(バイオリアクター)内で培養された生きた細胞を用いて生産されます。細胞に培地(栄養分)を供給し、細胞がそれを消費することで目的物質が分泌・生産される仕組みです。
従来、このプロセスには哺乳類細胞培養が用いられてきたが、生産コストは極めて高く(1グラムあたり15万ドル)、ウイルス汚染のリスクも伴います。そのため、バイオ医薬品業界では、はるかに安価(1グラムあたり1万ドル)な植物細胞培養による代替手法を模索しているが、生産性の低さが大きな課題となっていました。
課題:生産性を向上させるには植物細胞の培養培地を最適化する必要があります。しかし、細胞固有の生物学的特性により、実験はバイオリアクター(実機)内で行わなければなりません。この環境下での実験は高コストであり、かつ1バッチあたり7日間を要するため、試行回数は著しく制限されます。
解決策:この課題に対し、自動化されたプロセスエンジニアの役割を果たすベイズ的実験計画法が導入されました。このシステムは、培地に含まれる5つの主要要素(スクロース、アンモニウム、リン酸塩、硝酸塩、初期生重量)の濃度を最適化対象としました。
結果:BOEDアプローチは、従来の手法と比較して顕著な効率性を示しました。
- 収束:わずか4回のイテレーション(合計16回の実験)で最適なパラメータへ到達しました。
- 生産性向上: 全体的な生産性を36%向上させました。
-
新たな生物学的知見: 人間の直感では見落とされがちな洞察が得られました:
- スクロースとアンモニウムの濃度を大幅に低減しても、成長速度を落とさずにコスト削減が可能であること(ただし、最終的な収量は制限される)。
- 硝酸塩とリン酸塩が、成長速度を制御する主要なスロットルとして機能していること。
従来の実験計画では現実的に不可能な回数の実験が必要となるが、BOEDは事前の生物学的仮定を一切必要とせず、複雑なホワイトボックスモデルと同等の性能を発揮しました。これは、製造業者がデータのみに基づいて新しい細胞株を最適化できることを実証しており、植物由来バイオ医薬品への参入障壁を大幅に引き下げる成果であります。
参考文献:Leyendecker (2025), Bayesian experimental design for optimizing medium composition and biomass formation of tabacco BY-2 cell suspension cultures in stirred-tank bioreactors, Frontiers in Bioengineering and Biotechnology, https://doi.org/10.3389/fbioe.2025.1617319
4. Physics Informed Machine Learning (PIML)
これまで見てきた 高コストな物理現象を近似するためのサロゲートモデル や、限られた実験回数の中で最適な実験条件を選ぶベイズ的実験計画法 は、いずれもデータだけから効率よく知識を引き出すための枠組みです。物理法則を一切考慮していないため、物理的に不可能な予測を出力したり、学習の効率が悪いことがあります(物理法則を考慮すればより効率良く、安定的に学習が進む可能性がある)。これに対してPIMLは、 「既知の物理法則そのものを機械学習モデルの内部に組み込む」 というアプローチを取ります。製造業の研究開発では、
- 実験データは少ない
- しかし支配方程式・保存則・構成則などの物理知識は豊富にある
という状況が一般的です。PIMLはまさにこの 「データ不足 × 物理知識あり」という構造に最適化された方法論であり、従来のデータ駆動型モデルでは難しかった物理的整合性の担保や外挿性能の向上を実現します。PIML にはさまざまなアプローチが存在しますが、大きくは次の 3 つに分類できます。
- データドリブン型:多様な条件と解のデータから、物理現象の写像(オペレーター)を学習する方法(例:Neural Operator)。
- 損失関数に物理法則を組み込む型:既知の PDE や保存則を損失関数に組み込む方法(例:Physics Informed Neural Networks; PINNs)。
- アーキテクチャに物理法則を組み込む型:対称性・不変性・保存則などをネットワーク構造に反映する方法(例:Tensor-Basis NN)。
本稿では、このうち最も代表的で広く利用されているPINNsを紹介します。説明をわかりやすくするため、ベイズ的な手法から損失関数ベースの手法に切り替わりますが、ベイズ的なPIMLも可能です。
問題設定:物理法則を満たす関数の学習
求めたい真の物理量(温度、流速、応力など)を $u(x)$とします。ここで $x$ は空間座標や時間、あるいはプロセス条件などの入力変数を表します。 物理シミュレーションの文脈では、この $u(x)$ は単なる数値の羅列ではなく、対象となる物理現象(熱伝導、流体運動など)を記述する支配方程式を満たす必要があります。これを数学的には以下のように記述します。
$$
\mathcal{F}[u(x)] = 0
$$
- $\mathcal{F}$: 物理法則を表す微分作用素(例:熱が拡散するルール、流体の動きを表すナビエ・ストークス方程式など)(詳しくは:https://www.msiism.jp/article/physics-informed-machine-learning2.html)
- $\mathcal{F}[u(x)] = 0$: 場所 $x$ において、物理量 $u$ が物理法則 $\mathcal{F}$ に完全に従っている(計算上のズレ=残差がゼロである)状態
しかし、現実には真の解 $u(x)$ は未知であり、得られるのは有限個の観測データ(センサー値や実験結果)のみです。そこで、ニューラルネットワークを用いてこの物理量 $u(x)$ を近似するモデル $u_\theta(x)$ を構築します。
$$
u(x) \approx u_\theta(x)
$$
ここで $\theta$ は、学習によって最適化されるニューラルネットワークの内部パラメータ(重みとバイアス)を指します。 従来のデータ駆動型アプローチ(サロゲートモデル)では、モデルの出力 $u_\theta(x)$ が観測データに近づくように $\theta$ を調整しますが、データのない領域(外挿領域)では物理的にあり得ない挙動(質量が増える、温度が負になる等)を予測するリスクがあります。
PIMLの基本構造
PIML(特にPINNs)では、データへの当てはまりだけでなく、物理法則(支配方程式)にほ配慮して学習させます。具体的には、モデル予測値が方程式をどの程度満たしていないかを表す物理残差を計算します:
$$
物理残差(x) = \mathcal{F}[u_\theta(x)]
$$
この残差を限りなくゼロに近づけること、そして偏微分方程式を一意に解くために不可欠な 境界条件や初期条件 を守ることを学習の目的に加えます。 最終的な最適化問題(損失関数 $L$ の最小化)は、概念的に以下のようになります。
$$
損失関数 L = (データの誤差) + (物理法則の破れ) + (境界・初期条件の誤差)
$$
- データの誤差:予測値と実際の観測データとのズレ
- 物理法則の破れ:支配方程式 $\mathcal{F}[u(x)]=0$ を満たしていない度合い
- 境界・初期条件の誤差:壁面の温度や開始時の状態などが、指定された条件と合っているか
PIMLの応用例:光学メタマテリアルの設計
背景:光学メタマテリアルは、自然界には存在しない電磁応答を実現する人工構造体であり、ナノスケールの微細構造によって光の伝播・反射・屈折を自在に制御できる。しかし、構造がナノスケールで高次元かつ非線形であるため、従来の有限要素法(FEM)などによる設計は計算コストが極めて高く、最適設計には膨大な試行が必要となる。
課題:メタマテリアル設計は数値シミュレーション(Maxwell方程式の解)と最適設計(構造の更新)を繰り返す必要があるが、
- 設計空間が高次元
- 数値シミュレーションが高コスト
- 非線形・制約付き最適化が困難
という理由で、従来手法では性能・計算時間ともに限界があった。
解決策:NTTデータ数理システムの記事では、これらの課題に対しPIML(Physics-Informed Machine Learning)を用いる3つのアプローチが紹介されている。
- 数値シミュレーションをPIMLで置き換える
- Maxwell方程式ソルバーの代わりにNNベースの代理モデルを使用
- 自動微分により勾配が得られ、最適設計が高速化
- 最適設計をPIMLで行う
- GAN などの生成モデルで「性能指標が高い構造」を直接生成
- 高次元設計空間の条件付き分布を学習し、初期値依存性を回避
- 数値シミュレーションと最適設計の両方をPIML化
- 代理モデル × 生成モデルの組み合わせ
- 設計空間の探索効率をさらに向上
結果:記事で紹介されている実験では、生成モデルを用いたPIMLにより、高次元の設計空間から性能指標(FoM)の高い構造を効率的に生成できることが示されている。従来のadjoint法では初期値依存性が強いが、PIMLではより広い設計空間を探索でき、より高性能な設計が得られている。
参考文献:
- NTTデータ数理システム. (2023). PIML の概説 - 物理法則を組み込んだ深層学習技術(1). https://www.msiism.jp/article/physics-informed-machine-learning1.html
- NTTデータ数理システム. (2023). 光学メタマテリアルの設計への PIML の応用 - 物理法則を組み込んだ深層学習技術(5). https://www.msiism.jp/article/physics-informed-machine-learning5.html
おわりに
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください。
