半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Posted at 2026-03-22

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

ArXivで半導体製造×AIの論文が急に増えている。2024年後半あたりから、故障解析(FA)、異常検知、SPC、OPC、装置マッチングと、FABの主要工程それぞれにAI適用の提案が出てきた。

正直に言うと、半分は「それ、現場で動くの？」という感想だ。だが同時に、「ここを突破できたら製造業のエンジニアリングが根本から変わる」という興奮もある。

筆者はプロセス側とソフトウェア側の両方に足を突っ込んでいる人間なので、「理論は美しいが量産ラインに入れた瞬間に崩壊する」パターンを何度も見てきた。しかしそれは、この領域が解く価値のない問題だという意味ではない。むしろ逆だ。ベテランの暗黙知を形式知に変換し、検索・再利用可能にするという課題は、半導体に限らず製造業全体が何十年も抱えてきた本丸であり、LLMとRAGの登場でようやく攻め手が見えてきた領域でもある。

その視点から、注目すべき5本の論文を読んで、使えそうなもの・怪しいものを仕分けしてみる。

1. 半導体の故障解析（FA）にLLMエージェントを突っ込んだらどうなるか

Intelligent Assistants for the Semiconductor Failure Analysis with LLM-Based Planning Agents (2025)

故障解析は半導体製造で最も属人的な工程だ。不良チップが出たとき、電気テスト → 物理解析 → 断面SEM → 根本原因特定、このフローをベテランエンジニアが経験と勘で回している。新人が一人前になるまで5年はかかる。

この論文の提案は、そのフロー全体をLLMベースのPlanning Agentに計画させるというもの。

不良チップ情報（電気テスト結果、ロット情報、装置履歴）
    ↓
LLM Planning Agent
    ├─ 過去FA事例DBを検索（RAG）
    ├─ 解析手法の選定（SEM? FIB? EBAC?）
    ├─ 優先度のスコアリング
    └─ レポートのドラフト生成
    ↓
エンジニアへの推奨アクションリスト

ここで重要なのは、LLMが「答えを出す」のではなく「計画を立てる」に徹していること。FA知識は超ドメイン特化で、しかもNDA漬けだ。LLMに故障メカニズムの物理を理解させるのは無理筋だが、「過去にこういう不良モードが出たとき、チームはどういう手順で追い込んだか」のパターンマッチングなら、RAG＋LLMの得意領域に収まる。

ぶっちゃけた評価: この5本の中では一番「実際に使われる」可能性が高いと思う。理由は単純で、FAエンジニアは慢性的に不足しているし、新人の立ち上がりが遅いという課題はどのFABでも共通だから。ただし、論文が軽く流している「ナレッジベース構築」の部分が実は一番重い。過去のFA事例を構造化してDBに入れる作業を誰がやるのか。たいていの現場ではFAレポートがWordやPDFで散在していて、検索可能な形になっていない。LLMエージェントを作る前に、データ整備で2年かかるのが現実だ。

ローカルLLMが必須になる理由

FAデータは企業秘密の中でも最上位に位置する。不良モードのパターン、装置固有の故障傾向、歩留まりデータ——これをOpenAIのAPIに投げられる会社は存在しない。

つまりこの手のシステムは、FAB内のエアギャップ環境でローカルLLMを動かすことが前提になる。llama.cpp + 30Bクラスのモデルをエッジサーバーに載せて、RTX 4060程度のGPU 1枚で実用速度を出すアーキテクチャだ。Qwen2.5-32Bでこれが現実的に動くことは以前の検証記事で確認済み。Qwen3.5-27Bが出ているので推論品質はさらに上がるはずだし、パラメータ数が減った分8GBへの収まりも良くなるはず。ただ実測はまだこれから。

2. 半導体の異常検知を機械学習で攻める — N-BEATS + GNN の多変量アプローチ

Unsupervised Anomaly Prediction with N-BEATS and Graph Neural Network in Multi-variate Semiconductor Process Time Series (2025)

半導体製造ラインのセンサーパラメータは数千ある。温度、圧力、ガス流量、RF電力、膜厚。これらの多変量時系列から異常を拾うのが仕事だが、3つの壁がある。

次元が高すぎる — パラメータ数千を同時に監視
異常が希すぎる — 全データの0.1%以下が異常（残り99.9%は正常）
パラメータ同士が絡み合う — 単一変数の閾値では捕まらない異常がある

提案手法は2段構成:

[Stage 1] N-BEATS
  各パラメータの時系列を予測 → 予測と実測のズレ（残差）を計算
  残差が大きい ≒ 何かがおかしい

[Stage 2] GNN
  パラメータ間の依存関係をグラフで表現
  → 残差の伝播パターンから「最初にどこが狂ったか」を逆追跡

N-BEATSを選んだのは筋が良い。Transformerベースの時系列モデルに比べてパラメータ数が少なく、推論が軽い。FABのリアルタイム監視に乗せるなら、重いモデルは論外だ。GNNでパラメータ間の因果関係を捉えるのも、「チャンバー温度が逸脱→膜厚が変動→電気特性が劣化」みたいなカスケード故障の特定に有効なアプローチだと思う。

教師なし（正常データだけで学習できる）なのも現場導入のハードルを下げている。半導体製造で「異常ラベル付きデータを大量に集めろ」は無茶振りに等しい。異常は滅多に起きないし、起きたときのデータは機密度が跳ね上がる。

ただし、ここからが本音だ。 この論文、評価がシミュレーションデータ中心なのが引っかかる。実際のFABデータでの検証が薄い。シミュレーションで「精度98%」と書かれても、量産ラインの汚いデータ（センサードリフト、メンテ後のジャンプ、レシピ変更による不連続）に晒したら何割落ちるか。ここを示さない論文は、申し訳ないが信用度を割り引いて読む。

3. 半導体SPCにAI予測を載せて「事後対応」から「先読み」に変える

Proactive Statistical Process Control Using AI: A Time Series Forecasting Approach for Semiconductor Manufacturing (2025)

SPC（統計的工程管理）は半導体品質管理の基盤だ。管理図に測定値をプロットして、管理限界を超えたらアラート。50年以上使われてきた手法。

で、この「管理限界を超えてからアラート」というのが構造的な欠陥なのだ。超えた時点でウェーハはもう不良化しているか、最低でもリワーク行きだ。数千万円分のウェーハが入ったロットが犠牲になってから「異常です」と言われても遅い。

この論文の提案はシンプル:

従来SPC:
  測定値 → 管理図 → 限界超え → アラート → 事後対応
  （犠牲が出てから気づく）

プロアクティブSPC:
  過去の測定値 → 時系列予測モデル → 将来N点を予測
  → 限界超えを事前検知 → 予防的介入
  （犠牲が出る前に止める）

以前はこの「先読み」のアイデア自体はあったが、予測精度が足りず誤報だらけで現場が疲弊するというパターンだった。この論文は、N-BEATSやTemporal Fusion Transformerの精度向上により「ようやく実用に耐える」と主張している。

半導体プロセスの時系列には予測モデルと相性の良い特徴がある:

周期性がはっきりしている — ロット間サイクル、PMサイクル
ドリフトが緩やか — 消耗部品の劣化は急変しない
ノイズが少ない — 精密制御環境だからS/N比が高い

他のドメイン（金融とか小売とか）の時系列に比べれば、「予測しやすい」性質を持っている。だから先読みSPCが半導体で先に実用化されるのは理にかなっている。

これは5本中、最も「明日から使える」論文だと思う。 理由は、既存のSPCインフラの上に載せるアドオンとして実装できるから。既存の管理図、既存のデータパイプラインをそのまま使い、予測レイヤーを一枚追加するだけ。FABの保守的なITインフラ文化とも衝突しにくい。

4. 装置間マッチングを機械学習で定量化する — 半導体製造の地味だが致命的な課題

Tool-to-Tool Matching Analysis Based Difference Score Computation Methods for Semiconductor Manufacturing (2025)

同じエッチング工程を3台の装置で回しているとき、「3号機だけ微妙にCDが太い」みたいなことが日常的に起きる。Tool-to-Tool Matching (TTTM) は地味だが歩留まりに直撃する問題だ。

従来のTTTMは「ゴールデンリファレンス」——理想的な装置の出力を基準にして差を測る方式。でも量産ラインでゴールデンリファレンスを維持するのは幻想に近い。装置はメンテのたびに微妙に変わるし、パーツ交換でキャラクタが動く。ベンダー違いの装置間となると、そもそも比較の軸が揃わない。

この論文は、ゴールデンリファレンスなしで装置間の差異スコアを動的に算出するパイプラインを提案している。MLモデルでドリフトと季節変動を補正し、「どのパラメータで、どの程度の差があるか」を分解して出力する。

悪くないアプローチだ。ただ、この分野はすでにLam ResearchやApplied Materialsが自社ソフトで似たようなことをやっていて、アカデミアの論文がどこまで新規性を主張できるかは微妙なところ。装置メーカーは自社装置のデータに最適化したマッチングアルゴリズムを持っているし、それはNDA付きで顧客に提供されている。論文として公開される手法が、既存のプロプライエタリなソリューションを超えているかどうかは、正直なところ判断材料が足りない。

5. OPCエンジニアにLLMアシスタントをつける — 半導体AI論文で最も野心的な提案

Intelligent OPC Engineer Assistant for Semiconductor Manufacturing (2024)

OPC（Optical Proximity Correction）はリソグラフィ工程の要だ。7nm以下の先端ノードでは、マスクパターンと実際にウェーハ上に転写されるパターンの乖離が激しく、その補正計算は膨大。OPCエンジニアの経験とノウハウへの依存度が高い。

この論文はOPCエンジニアの意思決定をLLMでサポートする。レシピ推奨、シミュレーション結果の解釈、パラメータ調整のアドバイス。論文1のFAエージェントと同じく、LLMは「判断を代替する」のではなく「判断を補助する」ポジション。

コンセプトとしては理解できる。が、5本の中で最も「実現までの距離が遠い」のがこれだ。 OPCの知識体系はリソグラフィの光学物理、レジストの化学、エッチングの反応動力学が絡み合う複合領域で、テキスト化されたナレッジだけでは表現しきれない部分が大きい。OPCエンジニアが日常的に見ているのはシミュレーション画像とコンター図であって、テキストではない。LLMのテキスト処理能力がどこまで刺さるかは、正直疑問が残る。

マルチモーダルLLM（画像理解付き）が成熟してくれば話は変わるかもしれないが、現時点のテキストベースLLMでOPCをアシストするのは、工具の選択を間違えている感がある。

半導体AI論文5本を横断して見える構造 — ローカルLLMが製造業の前提条件になる

個別に読んでも面白いが、並べて見るとこの分野の構造的な特徴が浮かび上がる。そしてその構造の中に、製造業のエンジニアリングを次のフェーズに押し上げる可能性が見える。

LLMは「知識のインタフェース層」として機能している

FA（論文1）とOPC（論文5）でLLMが使われているが、どちらもLLMに「解析させる」のではなく「知識へのアクセスを仲介させる」設計だ。半導体プロセスの物理をLLMが直接理解するのは無理がある。だがエンジニアの暗黙知をテキスト化→RAGで検索可能に→自然言語で対話、というインタフェース層としての利用なら現実的だ。

これは地味に見えて、実はかなり大きなパラダイムシフトだと思う。製造業が何十年も解けなかった「ベテランが退職したらノウハウが消える」問題に対して、初めて技術的に筋の通った解が出てきたということだから。完璧じゃなくていい。「ベテランの判断の7割をカバーできるシステム」があるだけで、新人の立ち上がりが2年早くなる。そのインパクトは、個々の論文の精度改善より遥かに大きい。

教師なし手法がデファクトになりつつある

論文2と論文3はどちらも教師なしか半教師あり。半導体製造では異常データの大量収集が構造的に困難だという事情がある。異常は希少で、発生時のデータは機密度が高い。「正常だけ学習して、正常から外れたものを捕まえる」が、この業界のAI適用における事実上の標準路線になっている。

「壊れてから直す」→「壊れる前に止める」

論文2と論文3が共通して目指しているのは、リアクティブからプロアクティブへの転換だ。これは技術的な改善ではなく、品質管理のパラダイムそのものの転換。歩留まり改善のスピードが変わり、それは直接的にウェーハ1枚あたりのコストに効く。

エッジ推論は「あったら便利」ではなく「ないと始まらない」

FAデータもプロセスデータもOPCデータも、FABの外に出せない。クラウドLLMがどれだけ賢くなっても、「データを外に出せない」という制約は消えない。ローカルLLM × エッジGPUの組み合わせは、半導体業界においてはオプションではなく前提条件だ。

半導体AI論文のアカデミアと現場のギャップ — だからこそ面白い

ここまで読んで感じた人もいるかもしれないが、5本とも「提案」の段階であって、「量産FABで半年間回した結果」を報告している論文は1本もない。

これは半導体製造AI研究の構造的な課題だ。実データはNDAで論文に書けない。書けるのはシミュレーションか、匿名化されてコンテキストが消えたデータでの検証結果。だから論文の「精度○○%」は、そのまま現場性能を意味しない。

だが、このギャップこそが「次に価値を生む場所」だと筆者は考えている。FAのナレッジ検索、予測型SPC、教師なし異常検知——これらは現場が本当に欲しがっているもので、方向性は明確に正しい。論文と量産の間を埋める「泥臭い実装力」を持ったエンジニアが、この領域では圧倒的に不足している。言い換えれば、プロセスエンジニアリングとソフトウェアエンジニアリングの両方がわかる人間にとって、いまこの分野は宝の山だ。

論文を読むときのコツは、「手法の新規性」よりも「この手法が前提としている入力データは、自分の現場で実際に取得可能か」を最初にチェックすること。そこがNoなら、どんなに精度が良くても今は使えない。ただし「今は取得できないが、仕組みを変えれば取得可能になる」のであれば、その仕組みの変更自体が次の仕事になる。

参考文献

次は論文3のプロアクティブSPCを実際のオープンデータセットで再現実験してみたい。SECOM datasetあたりで、N-BEATSの先読み精度がどこまで出るか検証する予定。うまくいったらFAB向けのPoCパッケージとして公開するかもしれない。データの前処理パイプラインを組むのが地味に重い作業ではあるが、それを乗り越えた先にある「壊れる前に止められる工場」は、試す価値のあるゴールだと思っている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up