はじめに
私は機械知能研究室に所属し,CV分野の研究をしています.
機械知能研究室ではロボットの視覚機能や自律的に行動するための知能システムについての研究に取り組んでいます(ホームページはこちら)
今回はAnnual AAAI Conference on Artificial Intelligence(AAAI-2026)の査読時に試験運用されていた,査読AIシステム 「AAAI-26 AI Review System」 を論文に沿って紹介していきます!
論文はこちらから
AAAI-26 AI Review System
このシステムは学会の査読時に補助的に査読をサポートとするAIシステムです.主に技術的なエラーの発見や網羅的なチェックを行うことを目的としています.
GPT-5をはじめとした既存の技術を多段階パイプラインとして使用するのが特徴です.
※このシステムはあくまで「査読のサポート」をしており,実際に査読者として点数付け等の評価まではしていない点にご注意ください.
システムの流れ
1.前処理
PDFを全て250DPIに変換.同時並行で専用のOCRモデル(olmOCR)を用いてPDFをMarkdown形式に変換.
2.査読
GPT-5にMarkdown形式の論文,250DPIに調整した図,プロンプトを入力し,5つの独立した観点から評価.査読途中のログ等は人間が確認できるように別途保存しておく.
3.見直し
査読した内容に対して根拠のない主張や事実誤認などのハルシネーションがないかを確認,必要であれば修正.
4.監査
監査用AIとしてOpenAI o4-miniを使用し,完成した査読に著者情報の漏洩,不適切な言語,バイアス,倫理的懸念(ライセンス違反など)が含まれていないかを確認.
査読者は 「GPT-5が出力したレビュー」,「OpenAI o4-miniの監査結果」,「査読途中のログ」 を確認しながら査読を行います.
システムの流れを下図に示します(図中の番号は上の黒数字と対応しています)

(引用元:https://arxiv.org/pdf/2604.13940 )
査読の詳細説明
査読時にGPT-5は 「ストーリー」,「プレゼンテーション」,「評価」,「正確性」,「重要性」 の5つの観点から評価をします.各観点では次のようなチェック項目がプロンプトで指示されています.これ以外にも評価時の基本的な指示(入力データの扱い方など)もプロンプトで指示しています.
| 観点 | 項目 |
|---|---|
| ストーリー | 論文の問題設定,先行研究における主張されたギャップ,貢献,メインストーリーを裏付けているか |
| プレゼンテーション | 明確さ,構成,読みやすさ,技術的説明がわかりやすいか |
| 評価 | ベースライン,データセット,評価指標,統計的証拠,主張に対する経験的裏付け,再現性に関する弱点がないか(必要に応じてコードインタプリタツールを使用) |
| 正確性 | 方程式,証明,アルゴリズム,図表が適切か(必要に応じてコードインタプリタツールを使用) |
| 重要性 | トップTierの会議,論文誌で出版された密接に関連する研究と比較して,新規性,競争力,比較の欠落がないか(プレプリント・査読なし研究は無視) |
また,このシステムは段階的にプロンプト入力を行います.その際,前の観点でのプロンプトと出力結果を次の観点の入力として次々と引き継いでいくことで,各観点での深い評価が可能となっています.
その他の工夫点
査読時以外の工夫点もいろいろありますが,大規模カンファレンスの論文査読ならではの工夫点として 「機密保持」「エラーハンドリング」「出力フォーマットの固定化」 があります.
機密保持
未発表論文を取り扱うという観点から,OpenAI APIの呼び出しには 「Zero Data Retention (ZDR)」 という特別な契約が結ばれています.これにより,データがAIの学習に使われたりサーバーに保存されないことが保証されています.
エラーハンドリング
2万件以上の論文を短い期間(24時間以内)で処理するため,エラー時に待機時間を長くしながら最大5回まで自動的にリトライする仕組みが導入されています.
出力フォーマットの固定化
査読者の読みやすさという点から,AIが自由に文章を書くのではなく「短い概要」「強みのリスト」「弱みのリスト」「APA形式の参考文献」といった固定フォーマットで出力するようにプロンプトで指示されています.
システム導入の成果
実行時間
このシステムは2万件越えの論文を24時間以内に査読完了させることができ,実行コストも1論文あたり1ドルで運用できることも示されました.
エラー発見能力
このシステムを定量的に評価するため,論文に人工的なエラー(ストーリーの破綻,数式のミス,不適切な評価など)を埋め込んだSPECSベンチマークを提案し,このシステムを評価しました.その結果,単純にプロンプトを出しただけのベースラインと比較して,すべての評価観点においてエラー発見率が平均して+0.21の改善が見られました.

(引用元:https://arxiv.org/pdf/2604.13940 )
査読者へのアンケート
また,定量的な評価のため著者および査読者等の参加者全体(計5,800人以上)を対象に「AIと人間のどちらが優れていたか」についてアンケートが実施されました.その結果,9個中6個の評価基準でAI査読の方が優れていたと評価されました.
-
AIが人間を上回った得意分野:
- 技術的エラーの正確な発見
- 研究デザインを改善する有用な提案
- 網羅的なレビュー
- これまで考慮されていなかった視点の提示
- 表現や構成を改善する有用な提案
- 研究の重要性や影響力の正確な伝達
-
AIが人間に及ばなかった苦手分野:
- 査読自体に技術的な誤りを含むこと
- 間違った、あるいは無益な提案をすること
- 些細な問題の過大評価
また定性評価(自由記述)では「レビューが長すぎて読む負担になる」「論文の大局的な新規性や影響力の判断」もAIの苦手分野として紹介されています.
この結果から,AIは技術的チェックが得意ですが,指摘の誤りへの気づき,論文の新規性・大局的な価値の判断は人間の方が優れていることがわかる結果となっています.
感想&まとめ
この論文を読んで一番驚いたことは,査読システムで使われているGPT-5モデルをファインチューニングしていない点です.
これまでのモデルでは複雑な数式のミスなどの確認にはファインチューニングが必須でしたが,今ではプロンプトの工夫だけでトップカンファレンスに通用するレベルの技術チェックを実現しています.
生成AIの進化が著しい今,ただモデルを使うだけでなく 「自分が実現したい成果に向けてどれだけ適切なプロンプトを設計できるか」 というスキルがより重要になってくると改めて感じました.
参考文献