🎨 はじめに
「AIイラストイベントをAI自身に採点させたらどうなるのか?」
そんな興味本位の実験から始まったのが、9月19日から9月26日に開催された 『AIイラスト東西戦』 で勝敗を決めるために使った 『マギシステム採点』 です。

採点を担当したのは、現在の生成AI界を代表する3モデル:
- ChatGPT(OpenAI)
- Gemini(Google)
- Grok4(xAI)
それぞれを“AI審査員”として採点に参加させ、その評価傾向の違いを分析したところ──
思った以上に「性格」が出る結果に。まさにエヴァンゲリオンのMAGIシステムそのものでした。
🧪 実験の概要
AIイラストイベント 「AIイラスト東西戦」 は、参加者が“東軍”と“西軍”に分かれてAI生成作品を競い合う企画。
ここで私は「AIがAIを審査する」試みを行いました。
- 各AIが独立して評価を実施
- その平均値を算出し、勝敗を決定
数字の裏には、AIたちの“個性”がはっきりと現れていました。
⚙️ 採点方法
採点は以下の手順で実施しました。
単なる数値評価ではなく、完成度・影響力・創造性といった複数の指標を重ねて評価を依頼しました。
🧭 3AIの評価傾向
| AI名 | 評価スタイル | 特徴的傾向 | タイプ名 |
|---|---|---|---|
| 🧮 ChatGPT | 影響力重視 | 数字(インプレッション)に強く反応。波が大きい | 変動重視型 |
| ⚖️ Gemini | バランス型 | 完成度と貢献度を両立。やや厳しめの傾向 | 厳格評価型 |
| 🎨 Grok4 | 美学・独創性重視 | 感性を高く評価。点数のブレが少ない | 安定・高評価型 |
特に、ChatGPTとGeminiの評価は似通うのに対し、
Grok4だけは独自の美学評価軸をもっており、まるで“アーティストAI”のようでした。
🧠 MAGIシステムとの類似
この三者構成、どこかで見覚えがありませんか?
そう、『新世紀エヴァンゲリオン』のMAGIシステムです。
| MAGIの人格 | 対応するAI | 特徴 |
|---|---|---|
| 🧠 メルキオール(理性) | ChatGPT | 数値・論理・合理性を重視 |
| ❤️ バルタザール(感情) | Gemini | 調整・バランス・人間的評価 |
| 💎 カスパー(現実/感性) | Grok4 | 美学・創造性・独立志向 |
3AIがそれぞれ異なる判断軸で評価を下し、最終的に“合議制”で結論を導く。
これはまさに AIによる現代版MAGIシステム でした。
💬 考察:複数AIによる“合議制”の有効性
今回の実験で感じたのは、**「AIは一つより三つ」**ということ。
- 一つのAIでは偏りが生じる
- 三者の評価を合わせると納得感と客観性が生まれる
- 結果的にAI同士が“議論している”ように見える
さらに、異なるAIを突き合わせることで
ハルシネーション(誤情報)を検出・補正できる効果も確認されました。
つまり、AIの合議制は単なるエンタメではなく、
信頼性を高めるための戦略的アプローチなのです。
🧩 まとめ
- 🏆 東軍が勝利(9.1点 vs 7.6点)
- 🧮 ChatGPT:変動重視型(影響力中心)
- ⚖️ Gemini:厳格評価型(バランス重視)
- 🎨 Grok4:安定・高評価型(美学重視)
- 🧠 3AIの組み合わせは、まるでMAGIシステム
- 🤝 複数AIが議論することで、より人間的な判断が生まれる
AIがAIを評価する時代。
次に来るのは、「AIがAIを調停する」時代かもしれません。
✍️ おわりに
今回の実験は、AIを「使う」から「共に考える」へと進化させる小さな一歩でした。
AIはもはやツールではなく、議論のパートナーです。
あなたが次にAIを使うとき、
「このAIはどんな性格で判断しているのか?」
と問いかけてみてください。
その瞬間、AIとの対話がもっと深くなるはずです。
資料は10月6日に開催されたミリしらAI勉強会にて発表した資料より抜粋
🪶 執筆:天汐香弓(AIイラストレーター/AIブログライター)
AIによる創作と評価の境界を探りながら、生成AI時代の“共創”を研究しています。
💡 使用AI:ChatGPT / Gemini / Grok4
📊 データ処理:Manus AI
🎨 イベント:AIイラスト東西戦(2025)



