はじめに
masatoです。
あけましておめでとうございます。
今年もよろしくお願いします。
さて、仕事で他人が作成した文章を修正したり、評価したりする場面があります。
このとき、どうしても評価者の好みや経験が混ざってしまい、「公正に見ているつもりでもブレる」ことが起きがちです。
そこで今回は、中学生が書いた架空の作文「AIを使って勉強するのは、ありかなしか」を題材に、AIが文章評価に使えるかを試してみました。
ケーススタディ:中学生作文「AIを使って勉強するのは、ありかなしか」
今回試す3つの作文は結論は違いますが、どれも文章構成はしっかりしています。
Aさん
私は、AIを使って勉強するのはありだと思います。理由は、分からないところを質問すると、その場で説明してもらえるからです。教科書の説明が難しいときでも、言い換えや例を出してもらうと理解のきっかけになります。
また、学習計画を立てるときに、何を優先すべきか整理してもらえるのも便利です。苦手な単元が多いと、どこから手を付ければよいか迷いますが、AIに確認すると見通しが立ちやすくなります。
一方で、AIに頼りすぎると考える前に答えを見てしまう危険があります。さらに、AIが間違う可能性もあるため、うのみにすると逆に混乱します。そこで私は、答えではなく考え方を聞き、自分で解き直すこと、そして教科書やノートで確認することをルールにすればよいと思います。
以上より、使い方を意識すればAIは学習を助ける道具になり、勉強に取り入れるのは賛成です。
Bさん
私は、AIを使って勉強することには反対です。便利に見えますが、学力に必要な「自分で考える時間」が減ってしまう危険が大きいからです。特に、問題が解けないときにすぐAIに聞くと、試行錯誤する前に答えに近い情報が手に入ってしまいます。
また、AIの説明が正しいとは限りません。もっともらしい文章で間違いが混ざると、自分では気づきにくく、誤った理解のまま進む可能性があります。勉強は積み重ねなので、基礎の部分で間違えると後で直すのが大変です。
もちろん、辞書のように用語を調べたり、例文を増やしたりする使い方は便利だと思います。しかし「便利な範囲」を決めて使うのは意外と難しく、気づかないうちに依存しやすい点が問題です。
以上より、学習の中心にAIを置くことは避け、基本は教科書や先生の説明、自分の思考で学ぶべきだと考えます。
Cさん
AIを勉強に使うことは、条件を満たすならば有効である。AIは質問への応答が速く、説明の言い換えや例示ができるため、理解の入口を作りやすい。教科書の説明で止まったときに、別の表現で説明を受けることは学習を進める助けになる。
しかし、AIの利用には欠点もある。答えを早く得られる分、試行錯誤の時間が短くなり、理解が浅くなる危険がある。また、誤情報が混ざる可能性があり、誤りを自分で検出できない場合は逆効果になり得る。
したがって、AIは「答えを出させる道具」ではなく「理解を補助する道具」として使うべきである。具体的には、先に自分で考えてから質問し、答えではなく途中の考え方を求め、最後に教科書やノートで照合する。
以上より、AIは学習の代替ではなく補助として位置づけるなら、勉強に取り入れる価値がある。
AIによる評価:採点方法とプロンプト
採点方法:複数モデルで比較する
今回は、ChatGPT と Gemini の2つで、同じ作文を採点させて比べてみました。
プロンプト
作文A/B/Cを「文章構成」「論理構成」だけで相対評価してください(内容の賛否・正しさは評価しない)。
必ず順位をつけてください(同点禁止)。100点満点で点差をつけてください。
評価観点:導入の明確さ/結論の見えやすさ/理由の整理/反論・欠点の回収/本文と結論の整合/段落と順序
生成結果
まず結論から言うと、Cが1位なのは両モデルで一致しました。
ただし、AとBの順位が逆転しました。
順位と点数(ChatGPT vs Gemini)
| 作文(順位) | ChatGPT点数 | Gemini点数 | 決定打(構成の勝因・敗因) |
|---|---|---|---|
| C(両モデル1位) | 92 | 94 | 両者とも「条件提示→欠点整理→運用ルール→条件付き結論」が整理され、構成が最も強い。Gemini側のコメントも、序論→利点→欠点→結論の“型”が綺麗に回っている、という趣旨だった。 |
| A(Gemini2位 / ChatGPT3位) | 78 | 85 | 解決策は具体的だが、途中で出した「学習計画」の利点が結論でやや回収不足(Gemini)。ChatGPT側は「流れは素直だが論旨の輪郭が少し曖昧」と評価。 |
| B(ChatGPT2位 / Gemini3位) | 85 | 73 | ChatGPT側は「反対の軸が明確で段落が安定」と評価。Gemini側は結論で本文にない「先生」が登場する点を“新要素追加”として減点。 |
考察
1) 構成・論理が良い文章は、AI評価が揃いやすい
2) 同レベル帯は「どこを致命傷と見るか」で順位が割れる
ビジネスでの運用としては次が現実的だと思います。
- 複数モデルで評価を行う
- 点数が必要なら、平均値でブレを吸収する
- コメントは「両方が共通して指摘した点」を優先して使う
今回は内容評価(賛否や主張の正しさ)をさせていません。
背景情報が不足したまま内容評価までさせると、AIがそれっぽく補完して誤評価するリスクがあるからです。
まずは「構成」「論理」など、比較的ブレにくい領域で使う方が安全だと感じました。
まとめ
最近は文章を書く側もAIを使うことが増えています。
だからこそ、人間ならではの評価軸(目的・前提・根拠・例外やリスク)も意識したいです。
AIは便利ですが、評価の責任を持つのは人間です。
「AIで構成や論理を評価させ、内容は人が判断する」。この使い分けが現時点での最適解なのかなと思いました。



