0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

論文評価にAIが使えるかを検証してみた

Posted at

image.png

はじめに

masatoです。
あけましておめでとうございます。
今年もよろしくお願いします。

さて、仕事で他人が作成した文章を修正したり、評価したりする場面があります。
このとき、どうしても評価者の好みや経験が混ざってしまい、「公正に見ているつもりでもブレる」ことが起きがちです。

そこで今回は、中学生が書いた架空の作文「AIを使って勉強するのは、ありかなしか」を題材に、AIが文章評価に使えるかを試してみました。


ケーススタディ:中学生作文「AIを使って勉強するのは、ありかなしか」

image.png

今回試す3つの作文は結論は違いますが、どれも文章構成はしっかりしています。

Aさん

私は、AIを使って勉強するのはありだと思います。理由は、分からないところを質問すると、その場で説明してもらえるからです。教科書の説明が難しいときでも、言い換えや例を出してもらうと理解のきっかけになります。
また、学習計画を立てるときに、何を優先すべきか整理してもらえるのも便利です。苦手な単元が多いと、どこから手を付ければよいか迷いますが、AIに確認すると見通しが立ちやすくなります。
一方で、AIに頼りすぎると考える前に答えを見てしまう危険があります。さらに、AIが間違う可能性もあるため、うのみにすると逆に混乱します。そこで私は、答えではなく考え方を聞き、自分で解き直すこと、そして教科書やノートで確認することをルールにすればよいと思います。
以上より、使い方を意識すればAIは学習を助ける道具になり、勉強に取り入れるのは賛成です。

Bさん

私は、AIを使って勉強することには反対です。便利に見えますが、学力に必要な「自分で考える時間」が減ってしまう危険が大きいからです。特に、問題が解けないときにすぐAIに聞くと、試行錯誤する前に答えに近い情報が手に入ってしまいます。
また、AIの説明が正しいとは限りません。もっともらしい文章で間違いが混ざると、自分では気づきにくく、誤った理解のまま進む可能性があります。勉強は積み重ねなので、基礎の部分で間違えると後で直すのが大変です。
もちろん、辞書のように用語を調べたり、例文を増やしたりする使い方は便利だと思います。しかし「便利な範囲」を決めて使うのは意外と難しく、気づかないうちに依存しやすい点が問題です。
以上より、学習の中心にAIを置くことは避け、基本は教科書や先生の説明、自分の思考で学ぶべきだと考えます。

Cさん

AIを勉強に使うことは、条件を満たすならば有効である。AIは質問への応答が速く、説明の言い換えや例示ができるため、理解の入口を作りやすい。教科書の説明で止まったときに、別の表現で説明を受けることは学習を進める助けになる。
しかし、AIの利用には欠点もある。答えを早く得られる分、試行錯誤の時間が短くなり、理解が浅くなる危険がある。また、誤情報が混ざる可能性があり、誤りを自分で検出できない場合は逆効果になり得る。
したがって、AIは「答えを出させる道具」ではなく「理解を補助する道具」として使うべきである。具体的には、先に自分で考えてから質問し、答えではなく途中の考え方を求め、最後に教科書やノートで照合する。
以上より、AIは学習の代替ではなく補助として位置づけるなら、勉強に取り入れる価値がある。


AIによる評価:採点方法とプロンプト

image.png

採点方法:複数モデルで比較する

今回は、ChatGPT と Gemini の2つで、同じ作文を採点させて比べてみました。

プロンプト

作文A/B/Cを「文章構成」「論理構成」だけで相対評価してください(内容の賛否・正しさは評価しない)。
必ず順位をつけてください(同点禁止)。100点満点で点差をつけてください。

評価観点:導入の明確さ/結論の見えやすさ/理由の整理/反論・欠点の回収/本文と結論の整合/段落と順序


生成結果

まず結論から言うと、Cが1位なのは両モデルで一致しました。
ただし、AとBの順位が逆転しました。

順位と点数(ChatGPT vs Gemini)

作文(順位) ChatGPT点数 Gemini点数 決定打(構成の勝因・敗因)
C(両モデル1位) 92 94 両者とも「条件提示→欠点整理→運用ルール→条件付き結論」が整理され、構成が最も強い。Gemini側のコメントも、序論→利点→欠点→結論の“型”が綺麗に回っている、という趣旨だった。
A(Gemini2位 / ChatGPT3位) 78 85 解決策は具体的だが、途中で出した「学習計画」の利点が結論でやや回収不足(Gemini)。ChatGPT側は「流れは素直だが論旨の輪郭が少し曖昧」と評価。
B(ChatGPT2位 / Gemini3位) 85 73 ChatGPT側は「反対の軸が明確で段落が安定」と評価。Gemini側は結論で本文にない「先生」が登場する点を“新要素追加”として減点。

考察

1) 構成・論理が良い文章は、AI評価が揃いやすい

2) 同レベル帯は「どこを致命傷と見るか」で順位が割れる

ビジネスでの運用としては次が現実的だと思います。

  • 複数モデルで評価を行う
  • 点数が必要なら、平均値でブレを吸収する
  • コメントは「両方が共通して指摘した点」を優先して使う

今回は内容評価(賛否や主張の正しさ)をさせていません。
背景情報が不足したまま内容評価までさせると、AIがそれっぽく補完して誤評価するリスクがあるからです。

まずは「構成」「論理」など、比較的ブレにくい領域で使う方が安全だと感じました。

まとめ

最近は文章を書く側もAIを使うことが増えています。
だからこそ、人間ならではの評価軸(目的・前提・根拠・例外やリスク)も意識したいです。

AIは便利ですが、評価の責任を持つのは人間です。
「AIで構成や論理を評価させ、内容は人が判断する」。この使い分けが現時点での最適解なのかなと思いました。

image.png

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?