論文評価にAIが使えるかを検証してみた

Posted at 2026-01-02

はじめに

masatoです。
あけましておめでとうございます。
今年もよろしくお願いします。

さて、仕事で他人が作成した文章を修正したり、評価したりする場面があります。
このとき、どうしても評価者の好みや経験が混ざってしまい、「公正に見ているつもりでもブレる」ことが起きがちです。

そこで今回は、中学生が書いた架空の作文「AIを使って勉強するのは、ありかなしか」を題材に、AIが文章評価に使えるかを試してみました。

ケーススタディ：中学生作文「AIを使って勉強するのは、ありかなしか」

今回試す3つの作文は結論は違いますが、どれも文章構成はしっかりしています。

Aさん

私は、AIを使って勉強するのはありだと思います。理由は、分からないところを質問すると、その場で説明してもらえるからです。教科書の説明が難しいときでも、言い換えや例を出してもらうと理解のきっかけになります。
また、学習計画を立てるときに、何を優先すべきか整理してもらえるのも便利です。苦手な単元が多いと、どこから手を付ければよいか迷いますが、AIに確認すると見通しが立ちやすくなります。
一方で、AIに頼りすぎると考える前に答えを見てしまう危険があります。さらに、AIが間違う可能性もあるため、うのみにすると逆に混乱します。そこで私は、答えではなく考え方を聞き、自分で解き直すこと、そして教科書やノートで確認することをルールにすればよいと思います。
以上より、使い方を意識すればAIは学習を助ける道具になり、勉強に取り入れるのは賛成です。

Bさん

私は、AIを使って勉強することには反対です。便利に見えますが、学力に必要な「自分で考える時間」が減ってしまう危険が大きいからです。特に、問題が解けないときにすぐAIに聞くと、試行錯誤する前に答えに近い情報が手に入ってしまいます。
また、AIの説明が正しいとは限りません。もっともらしい文章で間違いが混ざると、自分では気づきにくく、誤った理解のまま進む可能性があります。勉強は積み重ねなので、基礎の部分で間違えると後で直すのが大変です。
もちろん、辞書のように用語を調べたり、例文を増やしたりする使い方は便利だと思います。しかし「便利な範囲」を決めて使うのは意外と難しく、気づかないうちに依存しやすい点が問題です。
以上より、学習の中心にAIを置くことは避け、基本は教科書や先生の説明、自分の思考で学ぶべきだと考えます。

Cさん

AIを勉強に使うことは、条件を満たすならば有効である。AIは質問への応答が速く、説明の言い換えや例示ができるため、理解の入口を作りやすい。教科書の説明で止まったときに、別の表現で説明を受けることは学習を進める助けになる。
しかし、AIの利用には欠点もある。答えを早く得られる分、試行錯誤の時間が短くなり、理解が浅くなる危険がある。また、誤情報が混ざる可能性があり、誤りを自分で検出できない場合は逆効果になり得る。
したがって、AIは「答えを出させる道具」ではなく「理解を補助する道具」として使うべきである。具体的には、先に自分で考えてから質問し、答えではなく途中の考え方を求め、最後に教科書やノートで照合する。
以上より、AIは学習の代替ではなく補助として位置づけるなら、勉強に取り入れる価値がある。

AIによる評価：採点方法とプロンプト

採点方法：複数モデルで比較する

今回は、ChatGPT と Gemini の2つで、同じ作文を採点させて比べてみました。

プロンプト

作文A/B/Cを「文章構成」「論理構成」だけで相対評価してください（内容の賛否・正しさは評価しない）。
必ず順位をつけてください（同点禁止）。100点満点で点差をつけてください。

評価観点：導入の明確さ／結論の見えやすさ／理由の整理／反論・欠点の回収／本文と結論の整合／段落と順序

生成結果

まず結論から言うと、Cが1位なのは両モデルで一致しました。
ただし、AとBの順位が逆転しました。

順位と点数（ChatGPT vs Gemini）

作文（順位）	ChatGPT点数	Gemini点数	決定打（構成の勝因・敗因）
C（両モデル1位）	92	94	両者とも「条件提示→欠点整理→運用ルール→条件付き結論」が整理され、構成が最も強い。Gemini側のコメントも、序論→利点→欠点→結論の“型”が綺麗に回っている、という趣旨だった。
A（Gemini2位 / ChatGPT3位）	78	85	解決策は具体的だが、途中で出した「学習計画」の利点が結論でやや回収不足（Gemini）。ChatGPT側は「流れは素直だが論旨の輪郭が少し曖昧」と評価。
B（ChatGPT2位 / Gemini3位）	85	73	ChatGPT側は「反対の軸が明確で段落が安定」と評価。Gemini側は結論で本文にない「先生」が登場する点を“新要素追加”として減点。

考察

1) 構成・論理が良い文章は、AI評価が揃いやすい

2) 同レベル帯は「どこを致命傷と見るか」で順位が割れる

ビジネスでの運用としては次が現実的だと思います。

複数モデルで評価を行う
点数が必要なら、平均値でブレを吸収する
コメントは「両方が共通して指摘した点」を優先して使う

今回は内容評価（賛否や主張の正しさ）をさせていません。
背景情報が不足したまま内容評価までさせると、AIがそれっぽく補完して誤評価するリスクがあるからです。

まずは「構成」「論理」など、比較的ブレにくい領域で使う方が安全だと感じました。

まとめ

最近は文章を書く側もAIを使うことが増えています。
だからこそ、人間ならではの評価軸（目的・前提・根拠・例外やリスク）も意識したいです。

AIは便利ですが、評価の責任を持つのは人間です。
「AIで構成や論理を評価させ、内容は人が判断する」。この使い分けが現時点での最適解なのかなと思いました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up