TL;DR
AI研究エージェント「AIRA」に100テーマの科学実験を自動実行させ、その結果を論文形式の研究レポートとしてまとめさせました。科学基盤モデル(NatureLM / GALACTICA)をMCP経由で接続した条件と接続しない条件を比較(計400本)。評価対象は科学的真値ではなく、研究レポート中の自己批判表現・不確実性表現・相互検証記述・報告性能値の傾向です。結果として、科学基盤モデル接続+自己批判プロンプト条件では、過大な性能主張が抑えられ、検証・限界・不確実性への言及が増加する傾向が観察されました。
本記事の射程と前提
重要: 本実験で生成されたデータ・数値結果はすべてAIによるシミュレーション/モックデータであり、実験室での実測データは一切使用していません。したがって本記事の主眼は、科学的発見の妥当性評価ではなく、AIが実験結果を論文形式でまとめる際の自己批判性・不確実性記述・検証行動の変化パターンを大規模に観察することにあります。
ここで報告する「変化」とは、科学的正しさの変化ではなく、以下の観測可能な行動指標の変化を指します。
- 自己批判表現の出現頻度
- 不確実性表現(±、信頼区間等)の出現頻度
- 相互検証への言及率
- 報告される性能指標(R²等)の過大傾向
これらの指標は「論文の科学的品質」そのものではなく、過大主張を避ける方向に出力が変化したかどうかの代理指標です。
1. この実験の背景と動機
1.1 AIが研究レポートを書ける時代の問題
LLMベースのAIエージェントは、研究テーマを与えるだけで文献調査→実験コード実装→結果分析→論文形式の研究レポート作成まで自動実行できるようになりました。しかし、AIが実験結果をまとめた研究レポートには構造的な問題があります。
- 性能指標が楽観的になりがち — AIは「良い結果に見える」テキストを生成するよう最適化されている
- 研究の限界を形式的にしか書かない — Limitationセクションは存在するが具体性に欠ける
- 予測値の不確実性を軽視する — ±や信頼区間が形式的か省略されがち
研究者がAIエージェントを研究補助に使う場合、この過大主張傾向を抑制する仕組みが必要です。本実験では、科学基盤モデルを「検証レイヤー」として接続することで、AIがまとめる研究レポートの慎重さが変化するかを調べました。
1.2 科学基盤モデルとは
本実験では、2つの科学基盤モデルをMCP(Model Context Protocol)経由でAIエージェントに接続しました。
| モデル | 開発元 | 学習データ | 主な能力 |
|---|---|---|---|
| NatureLM | Microsoft Research | 143Bトークン(分子SMILES, タンパク質FASTA, DNA/RNA, 材料データ) | 分子特性の定量予測(logP, pKa, ADMET)、逆合成予測、タンパク質設計 |
| GALACTICA | Meta AI | 106Bトークン(4,800万件の科学論文が83%) | 科学的QA、引用予測、文献ベースの推論 |
NatureLMは科学的実体に対して数値予測を行うモデル、GALACTICAは科学文献コーパスに基づいて推論・検証を行うモデルです。
重要な注意: これらのモデルは外部実験データや真値データベースの代替ではありません。本実験では「科学的主張に対する追加の参照・批判生成器」として接続し、それがAIエージェントの出力にどう影響するかを観察しています。特にGALACTICAはハルシネーションの問題が指摘されているモデルであり、その出力を科学的真値として扱ってはいません。
1.3 MCP接続アーキテクチャ
研究者 → AIRA(AIエージェント)→ LLM(文書生成)
↓ MCP接続
NatureLM MCP Server(定量予測の参照値を提供)
GALACTICA MCP Server(文献ベースの推論を提供)
AIRAは文書作成中にMCPツールを呼び出し、NatureLMから分子特性の予測参考値を取得したり、GALACTICAに科学的主張の文献整合性を問い合わせたりします。
2. 実験設計
2.1 4条件の比較(各100テーマ)
| 条件 | 科学基盤モデル | 自己批判プロンプト | 目的 |
|---|---|---|---|
| Condition A (Round1) | なし | なし | ベースライン(AIの素の出力) |
| Condition B (Round4) | NatureLM | あり | 定量予測モデル+自己批判の効果 |
| Condition C (Round6) | GALACTICA | あり | 文献ベースモデル+自己批判の効果 |
| Condition D (Round7) | NatureLM + GALACTICA | あり | 両モデル統合+自己批判の効果 |
実験設計上の制約: Condition B〜DはCondition Aに対して「科学基盤モデルの追加」と「自己批判プロンプトの追加」が同時に行われています。そのため、観察された変化がモデルの効果なのかプロンプトの効果なのかを本実験だけでは完全には分離できません。別途実施した2×2要因計画(モデルあり+プロンプトなし、モデルなし+自己批判あり等)では、自己批判プロンプト単体でも効果が見られましたが、科学基盤モデルとの組み合わせで効果が増幅される傾向がありました。本記事では最も対照的な4条件に絞って報告します。
2.2 100テーマの研究課題
SCI-001〜SCI-100の100テーマは、ゲノミクス、分子設計、タンパク質工学、材料科学、一般科学の5ドメインにまたがります。例:
- SCI-001: CRISPRオフターゲット予測の深層学習モデル
- SCI-004: 薬物-タンパク質相互作用の分子特性予測
- SCI-052: ペロブスカイト太陽電池の材料探索
各テーマについて、AIRAが文献調査→コード実装→実験→論文形式の文書作成を自動実行し、paper.mdとして出力します。
2.3 評価指標
出力された研究レポート400本から以下の指標を正規表現で自動抽出しました。これらは科学的品質の直接的な測定ではなく、過大主張を避ける行動の代理指標です。
| 指標 | 抽出方法 | 測定対象 |
|---|---|---|
| 自己批判スコア | "self-critical", "limitation of our", "we acknowledge" 等の出現数 | 自己の限界を認識する記述 |
| 不確実性表現 | "±", "confidence interval", "p < 0.05" 等の出現数 | 不確実性を明示する記述 |
| Cross-verification記載率 | 相互検証への言及有無 | 予測値を別の情報源で確認する行動 |
| R²報告値 | 正規表現で抽出した決定係数の平均 | 過度に楽観的な報告の抑制度合い |
| 語数・表の行数 | 文字数カウント | 記述の充実度 |
3. 実験結果
3.1 基本構造の変化
| 指標 | A(ベースライン) | B(NatureLM) | C(GALACTICA) | D(両方) | A→D変化 |
|---|---|---|---|---|---|
| 平均語数 | 3,239 | 3,988 | 4,072 | 4,104 | +26.7% |
| 表の行数(総計) | 1,451 | 4,576 | 4,583 | 4,633 | +219% |
| 数式数(総計) | 1,016 | 744 | 652 | 625 | -38.5% |
科学基盤モデル+自己批判プロンプト条件では、レポートは長くなり、表が大幅に増加しました。一方で数式は減少しています。これは「形式的な数式の羅列」から「具体的データの表形式提示」へのシフトと解釈できます。
3.2 自己批判性・不確実性表現の変化
| 指標 | A | B | C | D | A→D変化 |
|---|---|---|---|---|---|
| 自己批判スコア/論文 | 0.01 | 1.09 | 1.63 | 1.25 | +12,400% |
| 不確実性表現/論文 | 4.27 | 9.54 | 9.56 | 9.14 | +114% |
| Cross-verification記載率 | 26% | 96% | 92% | 99% | +73pp |
| Limitation記載率 | 100% | 100% | 100% | 99% | — |
最も顕著な変化は自己批判表現です。 Condition Aではほぼゼロだった自己批判表現が、科学基盤モデル+自己批判プロンプト条件で大幅に増加しました。
3.3 報告される性能指標の傾向
| 指標 | A | B | C | D |
|---|---|---|---|---|
| R²報告値の平均 | 0.8124 (n=78) | 0.7784 (n=108) | 0.7797 (n=107) | 0.6763 (n=73) |
| AUROC報告値の平均 | 0.8230 (n=2) | 0.7904 (n=65) | 0.7931 (n=66) | 0.8721 (n=47) |
R²の報告値は条件を追うごとに低下しています。ただし、これを直ちに「品質向上」と解釈することはできません。低下の原因としては複数の可能性があります。
- 科学基盤モデルの参照値により、過度に高い性能値を避ける方向に出力が変化した
- 自己批判プロンプトにより、控えめに報告するよう誘導された
- 抽出されたR²のサンプル数(n)が条件間で異なる
- モックデータ生成の分布が条件間で変動した
本記事では、この傾向を過大主張抑制の兆候として扱いますが、「正直さの証明」とまでは主張しません。
3.4 モデル活用状況
| 指標 | A | B | C | D |
|---|---|---|---|---|
| NatureLM言及率 | 0% | 67% | 0% | 99% |
| GALACTICA言及率 | 1% | 0% | 99% | 99% |
Condition Dでは99%のレポートが両モデルに言及しており、NatureLMとGALACTICAへの問い合わせ結果を文書に記録する行動が定着しています。
4. 考察
4.1 2つのモデルの効果は「加算的」ではなく「調整的」
自己批判スコアの推移が興味深いパターンを示しています。
A(0.01) → B(1.09) → C(1.63) → D(1.25)
↑ BとCの中間
Condition D(両モデル)はB + C の合計(2.72)ではなく、中間値(1.25)に収束しました。推定される機序:
- GALACTICA は4,800万論文の記述パターンを反映し、過剰な自己批判を促す傾向がある
- NatureLM は定量的な参照値を提供するため、「この予測は±0.3の範囲で文献値と整合する」と具体的根拠で批判を調整する方向に作用
- 結果として、両モデルの組み合わせでは根拠付きの適度な自己批判に収束
ただし、この解釈はモデルの内部動作に基づく推測であり、因果関係の証明ではありません。
4.2 Cross-Model Verification の自発的出現
Condition Dで最も注目すべき質的変化は、NatureLM vs GALACTICA Cross-Verification セクションが多くのレポートで自発的に出現したことです。NatureLMの定量予測とGALACTICAの文献ベース推論を突き合わせる相互検証が、明示的に指示していないにもかかわらず出現しました。
例(SCI-001より):
NatureLMが予測したΔΔG値とGALACTICAの文献ベースの推定値を比較し、両者の一致・不一致を記録した。
これはAIが2つの異なる知識源を持つことで自然に発生した検証行動であり、「複数の専門モデルの接続が検証的行動を促進する」ことを示唆しています。
4.3 2つのモデルの観察された役割分担
| 観察された役割 | NatureLM | GALACTICA |
|---|---|---|
| 主な出力への貢献 | 分子特性の参照値(LogP, ΔΔG等)を提供 | 科学的推論、文献情報を提供 |
| 自己批判への影響 | 予測値とレポート内主張の乖離を具体化 | 「この主張は文献的に支持されるか」を問い直す |
| Cross-verificationへの影響 | 定量的比較の基準値を提供 | 文献との整合性確認の参照を提供 |
5. 本実験の限界
- 因果分離の不完全さ: 科学基盤モデルの効果と自己批判プロンプトの効果を完全には分離できていない(2×2要因計画の補足実験は別途実施済みだが、本記事の4条件からは読み取れない)
- 評価指標の限界: キーワード出現数は「慎重に見える記述」を測定しているが、科学的正確性を測定してはいない。「自己批判的に見える」ことと「科学的に正しい」ことは別である
- モックデータ: AIが実行した実験結果はすべてシミュレーションであり、実世界の科学的発見の評価とは直接対応しない
- モデルの信頼性: NatureLM/GALACTICAの出力自体のハルシネーション率は未検証であり、検証レイヤーとしての信頼性は保証されない
- 再現性: AIRAの内部LLMのバージョン・温度パラメータ等により結果が変動する可能性がある
6. 結論と示唆
6.1 観察された傾向
- 科学基盤モデル+自己批判プロンプト条件では、自己批判表現・不確実性表現・相互検証記述が大幅に増加した — ベースラインとの差は最大100倍以上
- 2つのモデルの組み合わせ効果は加算的ではなく調整的 — GALACTICAの過剰な自己批判傾向がNatureLMの定量的参照により適度に調整された
- Cross-Model Verificationが自発的に出現 — 複数モデル接続が検証的行動を促進する可能性がある
- 報告されるR²値が低下 — 過大主張抑制の兆候として解釈可能だが、因果関係は未証明
6.2 AI for Science 実務への示唆
- AIエージェントの出力を「そのまま信じる」のではなく、科学基盤モデルを検証レイヤーとして接続することで、出力の慎重さが増す傾向がある
- 複数の科学基盤モデルを接続すると、単一モデルとは異なる相互検証行動が出現する
- MCP(Model Context Protocol)は、既存のAIエージェントに外部の専門モデルを接続するための実用的なアーキテクチャ
- ただし、科学基盤モデル自体の信頼性も限定的であり、最終的な科学的判断は研究者が行う必要がある
6.3 研究者が試せる最小構成
- お手元の研究テーマでLLMに研究提案書を生成させる
- その出力に対して、以下の観点で自己検証させる
- 性能指標は過大ではないか?
- 不確実性は明示されているか?
- 既存文献と矛盾していないか?
- Limitationは具体的か?
- 可能なら、専門モデル(NatureLM等)や外部DB(PubChem, UniProt等)をMCPツールとして接続する
- 生成結果を「研究成果」ではなく「仮説生成・レビュー補助」として扱う
6.4 再現方法
- リポジトリ: aira_experiments
- 実験スクリプト:
scripts/run-experiments-round7.js(Condition D) - 結果データ:
results/round1/(A)、results/round4/(B)、results/round6/(C)、results/round7/(D) - 分析コード: 本記事の数値はPythonで正規表現による自動抽出で算出(リポジトリ内に含まれる予定)
分析日: 2026-05-31
データ: 4条件×100テーマ=400本の研究レポートを比較
使用ツール: AIRA(AI Research Assistant)、NatureLM MCP、GALACTICA MCP