はじめに
1月と言えば共通テストということで、各所から生成AIで問題を解かせてみての正答率が出されています。私も Gemini で試して見たくなり、実際に問題を解かせてみました。ただ、2026年の試験は PDF を入手できなかったため、残念ながら2025年のもので実施しました。Gemini3(ジェミニさん)の高速モードを使って実施したので、正答率はどうかな、と思ったのですが、予想以上に良い結果となりました。もしかすると、2025年のものは既に学習されていたためかもしれませんが、この点はご容赦ください。
手順
今回は、Gemini3 に試験センターに掲載されている問題PDFをそのまま読み込ませて、「添付は2025年の共通テストの数学1Aの問題です。このすべての問題に回答してください。」とプロンプト入力しただけです。その後、同解答を読み込ませて、結果確認、自己採点、総評、Markdown化を Gemini3 自身にやってもらいましたので、そのままコピペしております。
以下、Gemini3 による文書です。
入力データ・プロセス
-
入力データ:
* 問題冊子のPDF(全26ページ)
* 試験センター公開の正解表PDF -
検証プロセス:
* 問題PDFをAIに読み込ませ、全問解答を生成。
* 生成された解答と正解表を照合し、自己採点と得点を算出。
1. 採点結果サマリー
結論から述べると、**100点(満点)**を獲得しました。
| 大問 | 分野 | 配点 | 得点 | ステータス |
|---|---|---|---|---|
| 第1問 | 数と式、図形と計量 | 30 | 30 | ✅ 完答 |
| 第2問 | 2次関数、データの分析 | 30 | 30 | ✅ 完答 |
| 第3問 | 図形の性質 | 20 | 20 | ✅ 完答 |
| 第4問 | 場合の数と確率 | 20 | 20 | ✅ 完答 |
| 合計 | 100 | 100 | Perfect |
2. 各問題の技術的考察
第1問:数と式 / 図形と計量
数式処理能力が問われるセクションです。文字定数 を含む2次方程式の処理において、AIは代数的な変形を正確に実行しました。また、図形問題では「正弦定理」を適用し、2つの円の半径の比較を論理的に導き出しています。
第2問:2次関数 / データの分析
「噴水の水の軌跡」を放物線としてモデル化する問題が出題されました。
ここでは、実世界の事象を数理モデルに落とし込む能力が問われましたが、AIは頂点の座標計算や、複数の関数の比較()をグラフの形状から正しく判断しました。
また、新課程の目玉である**「仮説検定」**についても、「P値」に近い考え方(23枚以上のカードが出る確率)を統計データから読み取り、帰無仮説を棄却できるかどうかを正しく判定しています。
第3問・第4問:図形と確率
立体の計量(五面体)や、期待値に基づいた意思決定の問題です。
特に確率の問題では、ゲームの参加料と期待値を比較し、「主催者側の視点で設定が妥当か」という現実的な判断を求められましたが、期待値 を導出し、参加料500円との比較を正確に行いました。
3. AIがなぜ満点を取れたのか(技術的分析)
今回の検証で明らかになったAIの強みは以下の3点です。
- マルチモーダルな理解: PDF内の図、グラフ、表をテキストと統合して理解する能力。
- 文脈把握能力: 共通テスト特有の「太郎さんと花子さんの会話」から、解法のヒントや条件を正確に抽出。
- 論理的一貫性: 数式の展開だけでなく、「〜であることは〜であるための...」といった論理の包含関係(必要十分条件)の判定にミスがない。
4. 課題と展望
今回は満点という結果でしたが、共通テストのような「誘導形式」の問題は、AIにとってヒントが多く、解きやすい側面もあります。一方で、全く誘導のない自由記述式の難関大入試や、初見の数学的定理の証明などにおいて、同様のパフォーマンスが出せるかが次の検証課題です。
まとめ
ここからまた自分の記述に戻ります。ちょっと出来過ぎな気もしますが、確かに当初は問題だけを解かせて、後から解答を渡し、自己採点をしてもらっているので、正解はしておりました。
なお、この後「数学II・B・C」と「情報」についても実施してみまして、
「数学II・B・C」は、97点(1問間違い)
「情報」は、81点(結構間違えた)
という結果になりました。
情報についての Gemini3 自己コメントでは、「文章題や知識問題、単純なデータ比較には強い一方で、複雑なアルゴリズムの多段トレースや、グラフから複数の条件を組み合わせて対象を特定する問題において、人間と同じような「うっかりミス」や「読み飛ばし」が発生する傾向が見られました。」とのことでした。
やはり、長文解釈や、図形からの状況把握といったところは不得意かな、と思います。
今回は思考モードや他の AI での検証は行っておりませんが、今後また実施してみたいと思います。