はじめに:そもそもの素朴な疑問
「AIに小説を書かせていったら、いつか人間の小説家や脚本家は要らなくなるの?」
「そもそもAIの“クリエイティビティ”って、どこまで伸びるの?」
エンジニアとして生成AIを触っていると、誰しも一度はこの問いにぶつかります。本記事では、感想や雰囲気ではなく 査読論文や大規模実験 を引いて、この2つの問いに向き合ってみます。
先に結論っぽいものを置いておくと、こうです。
- AIは創造性の 「下限」を引き上げ、「平均」を押し上げる。これはもう実験で確認済み。
- でも創造性の 「上限(=超クリエイティブな人間)」 と 「全体の多様性」 は、まだAIに明け渡していない。
- ただし放っておくと 「全体の多様性が痩せる」 リスクは実在する。これは設計(=エンジニアの仕事)で防げる。
コードに得意・不得意があるように、AIの創造性にもクッキリと得意・不得意があります。順番に見ていきましょう。
1. まず言葉から:「創造性」って何種類あるの?
いきなり「AIは創造的か?」と問うと話が空中戦になります。なので先に、認知科学者 Margaret Boden による有名な「創造性の3分類」で語彙をそろえます。Bodenは創造性を 「新しく・意外で・価値のあるアイデアを生むこと」 と定義したうえで、それを3種類に分けました(Boden, 2004 / 2010)。
| 種類 | ざっくり説明 | エンジニア的なたとえ | AIの得意度 |
|---|---|---|---|
|
組み合わせ型 Combinational |
既存の要素を、まだ無い組み合わせでつなぐ | ライブラリを意外な形で組み合わせて新機能を作る | ◎ 爆速 |
|
探索型 Exploratory |
あるルール・様式(=概念空間)の“中”を探索し、新しい一手を見つける | 既存フレームワークの作法の範囲で、新しい設計パターンを掘り当てる | ○〜△ |
|
変革型 Transformational |
ルール・概念空間“そのもの”を作り変え、これまで考えられなかったものを可能にする | フレームワークの前提をひっくり返して、新しいパラダイムを発明する | ✕(まだ苦手) |
ポイントは、この3つが 「組み合わせ → 探索 → 変革」の順に難しくなるスペクトラム だということです。
ざっくり言うと、いまのLLMは 「組み合わせ」は人間より速く広くこなし、「探索」は丁寧なプロンプトがあればそれなりに、「ルールの作り変え(変革)」はまだ厳しい という評価が一般的です。
ある解説では「AIは3つのうち2つ(組み合わせ・探索)は再現できるが、“本当に新しいもの”を作れと言われると崩れる」と表現されています。変革型こそ、AIにとって最後の砦というわけです。
2. で、いまのAIは結局どのレベルなの?(論文で実力チェック)
ここからが本題。「AIの創造性はどこまで」を、最近の大規模研究で具体的に見ます。
② -1. 拡散的思考テストでは「平均的な人間」を超えてきた
創造性の定番テストに 拡散的思考(divergent thinking) 系があります。たとえば「できるだけ関連の薄い単語を並べて」と求める Divergent Association Task(DAT) や、「レンガの使い道を挙げて」という Alternative Uses Task(AUT)です。
- Bellemare-Pépin, Lespinasse ほか(Scientific Reports, 2026) は、約10万人の人間データとLLMを比較。結論は明快で、LLMはDATで“平均的な人間”を上回り、創作能力でも肉薄するが、“非常に創造的な人間”には届かない というもの。つまり天井(ceiling)が残っている。
-
Wang ほか(Nature Human Behaviour, 2026) は、人間9,198人 vs LLM 21万件超という規模で比較。結果は3点。
- 平均では人間がわずかに上。
- 分布の“右端”(超クリエイティブ層)で人間が圧倒的に強い。
- LLMに「天才になりきって」「別の属性の人物として答えて」と指示すると、ある閾値までは上がるが、それを超えると現実とは逆方向の出力になる。プロンプト工夫の効果は まちまち〜むしろ悪化。
ここ、2つの独立した研究が 「平均は超えた/でもトップ層はまだ」 で一致しているのが地味に重要です(再現性があるということ)。
② -2. 13種類のタスクで総合採点すると「ちょうど中央値あたり」
- 13の創作タスク(3ドメイン)でLLMを総合ベンチマークした研究(Thinking Skills and Creativity, 2025) によると、最良モデル(Claude・GPT-4)は人間に対して おおむね52パーセンタイル付近(=中央値の少し上)、LLM全体では46パーセンタイル付近。
- 内訳がおもしろくて、拡散的思考や問題解決は得意、一方でクリエイティブ・ライティング(物語を書く)は苦手。
- さらに、1つのLLMに10回質問すると、その“集団的な創造性”は人間8〜10人ぶんに相当する という指摘も。量で押すと意外に侮れない、という話です。
これをBodenの3分類に重ねると、きれいに腑に落ちます。
| Bodenの分類 | AIの現在地(論文ベース) |
|---|---|
| 組み合わせ型 | 速度・量で人間を凌駕。拡散的思考テストで平均超え。 |
| 探索型 | 問題解決は強い。プロンプト次第でブレる。 |
| 変革型 | 物語創作の弱さ・右端の天井に表れる、最も人間優位な領域。 |
エンジニア的こぼれ話:temperature と「天才プロンプト」
「創造性パラメータ」を上げる(=temperature を上げる)と独創性は上がりますが、ある閾値を超えると出力が破綻して意味不明 になります(Wang ほか, 2026)。また「シェイクスピアになりきって」のような天才ペルソナ指示は、上限までは効いてもその先は逆効果になりがち。“もっと創造的に”はパラメータでもプロンプトでも単調には効かない、ということです。
3. 落とし穴:「個人は創造的に、でも全体の多様性は下がる」
ここが本記事のいちばん面白いところで、2つ目の問い 「他の人のクリエイティビティは失われないのか?」 への直接の答えになります。
Doshi & Hauser(Science Advances, 2024) は、約300人にショートストーリーを書かせる実験を行いました。3グループに分けます。
- AIなし
- ChatGPTから3文の出だしアイデアを1つもらえる
- 最大5つのAIアイデアから選べる
結果がこれです。
- AIのアイデアを使うと、作品は 「より創造的・より上手・より面白い」と評価された。しかも もともと創造性が低めの書き手ほど恩恵が大きい(=下限の引き上げ)。
- ところがAI支援を受けた作品どうしは、互いに似通っていた。人間だけで書いた作品群より多様性が低い。
- つまり 個人は得をするが、全体としては新規性の幅が痩せる。著者はこれを 「社会的ジレンマ」 と呼びました。
- なお、AIが トップ層の人間の創造性を超えて上限を押し上げる証拠は見つからなかった、とも明記しています。
この“ジレンマ”は放置すると負のループになります。
これは、いわゆる モード崩壊(mode collapse) ―― AIが“無難で平均的”な出力に寄っていく現象 ―― の社会版です。個々のクオリティは上がっても、世の中の作品が「上手いけど、どれも似てる」方向に均質化していくリスク。これが「小説家・脚本家の創造性が失われる」という不安の、いちばん現実的な中身です。
4. でも、それは“宿命”じゃない(2026年の希望的な研究)
ここで悲観して終わらないのが最近の研究の良いところ。多様性の低下はAIの本質的限界ではなく、“使い方が画一的”だから起きている という反証が出ています。
- Wan & Kalman(Computers in Human Behavior: Artificial Humans, 2026) は、Doshi & Hauser の実験を拡張。多様なAIペルソナ(10種)で構造化プロンプトを組んでアイデアを生成 すると、作品の多様性は人間だけのときと同等に保て、条件によっては向上もした。著者は「トレードオフは 画一的な運用 から生まれるのであって、AIの宿命ではない」と結論づけています。
- Jo & Raghavan(MIT, 2026) は、「独創性」を評価するインセンティブ設計 にすると、AIを使っても人々は集団的により多様な文章を書く、と示しました。報酬が「質」だけだと均質化し、「他人と違うこと」を評価すると多様化する。
エンジニアへの示唆:多様性は“設計で組み込める”
- プロンプトを 多様化 する(複数ペルソナ・複数視点でサンプリングする)
- 評価軸に 「独創性 / 他との違い」 を明示的に入れる
- AIを 静的なツール ではなく 設定変更できるパートナー として扱う
均質化は「AIのせい」というより「単一プロンプトで全員が同じ使い方をするから」。ここはまさに作る側の腕の見せどころです。
5. じゃあ小説家・脚本家は失業するの?(現場のリアル)
理論や実験室の話だけでなく、現実の業界がどう動いたかも見ておきましょう。象徴的なのが 2023年の全米脚本家組合(WGA)のストライキ(148日間)です。AIは主要争点のひとつでした。妥結した合意(MOA)には、ざっくり次のような内容が盛り込まれました。
- AIは「脚本家(writer)」とは見なさない。AIが生んだ文章は「literary material(脚本素材)」ではない。
- 脚本家に AIの使用を強制できない。
- スタジオがAI生成物を渡す場合は 開示義務 がある。
- AI生成物を使っても、それを根拠に クレジットや報酬を減らせない。
- ただし 「既存の脚本をAI学習に使ってよいか」は先送り(未決着)。
ここから読み取れる方向性は、「人間をAIに置き換える(replacement)」ではなく「AIを道具として認めつつ、ルールで人間の取り分と尊厳を守る」 という落としどころです。出版・小説の世界でも作家団体が同様の論点(学習データ・透明性)で動いています。
研究側の言葉でいえば、議論の重心は 「AI vs 人間」から「人間 × AI の共創(co-creativity)」 へ移りつつある、ということ。AIは“ライバル”というより“壁打ち相手”として個人の創造性を底上げする使われ方が現実的です。
6. 結局、人間に何が残るのか(哲学コーナー)
ここまでを踏まえると、AIが当面苦手で、人間に残りそうな領域がクッキリしてきます。
- 変革型の創造性:ルールや前提“そのもの”を作り変える力。複数の大規模比較で一致して見えた「分布の右端(超クリエイティブ層)」は、まだAIに抜かれていません。
- 生きた経験と身体性(lived experience / embodiment):AIは過去データの組み替えが本質。「まだ誰も見たことのないものを、現実の世界に関係づけて見る」 ――これはエイダ・ラブレス以来くり返されてきた論点で、Bodenも、真に変革的なアイデアは“概念空間そのものの書き換え”を要すると論じます。
- 「生きている感じ(sense of life)」とキュレーション:上手いだけの無個性な出力(slop)と、記憶に残る作品とを分けるもの。最後に「これだ」と選び取るのは、いまのところ人間の役割です。
言い換えると、AIは創造の 「下限」と「平均」 を担ってくれる。人間に残るのは 「上限」「多様性」「意味づけ」 ――つまり“なぜそれを作るのか”の部分です。
7. 番外編:この話、エンジニア自身にも刺さる
ここまで小説家・脚本家の話をしてきましたが、勘のいい人はもう気づいているはず。この構図、そっくりそのままエンジニア自身にも当てはまります。
「コードを書くのは作業で、そこはAIが取って代わりつつある。だからこれからのエンジニアに大事なのは想像力や思考力だ」――この見立て、大筋は正しいです。ただ、そのまま受け取ると少し乱暴になるので、論文ベースで「2つの注釈」を足します。
①「コードを書くのは作業」説は、半分正しい
AIコーディング支援が効くのは事実で、しかも 「経験の浅い人ほど効く」という構図が、第3章の創造性の研究(Doshi & Hauser)とまったく同じ形 で出ています。
- GitHub Copilotの対照実験(Peng ほか, 2023):利用群はタスクを 約56%速く 完了。経験の浅い人・高負荷の人ほど恩恵が大きかった。
- MIT・プリンストン・ペンシルバニア大の経済学者らによる約4,800人規模のフィールド実験(2024):タスク完了が平均 +26%。内訳はジュニア +21〜40% に対し、シニアは +7〜16%。コード品質の低下は見られず。
つまり「定型的なコードを書く」部分の “下限”はAIが確かに押し上げている。ここまでは見立てどおりです。
③ 「コード=ただの作業」と切り離すのは少し乱暴
古典的なエッセイ Peter Naur「Programming as Theory Building」(1985) は、プログラミングの本質を 「コードという成果物ではなく、問題と解の“理論(メンタルモデル)”を頭の中に組み上げること」 だと論じました。コードはその副産物にすぎない、と。
この見方に立つと、コードを書く行為そのものが、要件を発見し、エッジケースに気づき、理解を組み上げる“思考”でもある。だからAIが自動化しているのは 「仕様が明確で定型的な部分」 であって、「書きながら考える」部分まで丸ごと消えるわけではありません。「思考がコードに取って代わる」ではなく、「コードのうち“あまり考えない部分”が自動化され、考える部分はむしろ残る・増える」 が実態に近いです。
④ 「想像力・思考力」の解像度を上げると
では何の価値が上がるのか。「想像力・思考力」は正解ですが、現場の言葉に翻訳するともう少し具体的になります。
| 相対的に価値が上がるスキル | 中身 | なぜAI時代に効くか |
|---|---|---|
| 問題設定(何を作るべきか) | 曖昧な要求を「解くべき問題」に翻訳する | AIは“答え”は出すが“問い”は立てない |
| 設計・アーキテクチャ | 概念空間そのものを設計する | Bodenの探索/変革型=AIが最も苦手な層 |
| 判断・検証(ジャッジ) | AI出力の正しさを評価し、誤りに気づき、デバッグする | AIが間違える境界(jagged frontier)を見抜く力。ここが実は一番伸びる |
| センス・意味づけ | 何が“良い”かを決め、「なぜ作るのか」に答える | モード崩壊(slop)と良作を分ける最後の砦 |
ポイントは、“アート的なひらめき”だけでなく「問題を立てる力・設計する力・AIを疑って検証する力」が中身 だということ。とくに コードを“書く”より“読む・直す・正しさを判断する” が効く時代になります。
そして皮肉なことに、「思考力が大事」なのは、AIを使うほど考えなくて済んでしまうから でもあります。
- Lee ほか(Microsoft / カーネギーメロン大, CHI 2025・319人調査):GenAI利用で批判的思考の中身が 「検証・統合・タスク管理」へシフト する。そして AIへの信頼が高い人ほど批判的思考は減り、自分の力への自信が高い人ほど批判的思考は増える。放っておくと“考える力”が萎縮する(cognitive offloading)リスク。
- Xu ほか(ティルブルフ大, 2025):Copilot導入後、生産性は上がるが主に経験の浅い人が牽引。一方でAI生成コードは手直しが増え、その負担が 熟練(コア)開発者に偏る ――レビュー量 +6.5%、自分のコード生産性 −19%。「生産性向上が、少数の熟練者にのしかかる保守負担を覆い隠す」可能性。
エンジニア的な結論
- AIは「コードを書く」の 下限 を押し上げる(特にジュニア)。第3章の小説家の話と同じ構図。
- だが価値の重心は 「何を・なぜ作るか(問題設定)」「どう組むか(設計)」「本当に正しいか(検証・デバッグ)」 へ移る。
- 「想像力・思考力が大事」は正しい。ただし中身は 問題を定義し・設計し・AIの答えを疑って検証する力。そしてそれらは 意識的に使い続けないと萎む。
というわけで、ご質問への答えは――「合っている。ただし解像度を上げると、“想像力・思考力”の正体は『問題を定義し、設計し、AIの答えを疑って検証する力』であり、AIを使うほど鈍りやすいからこそ、意識的に鍛え続ける姿勢が差になる」 ――というのが、現時点の研究が示している姿です。
8. エンジニア視点の実務メモ
論文から拾った「明日から効く」観点をまとめます。
- 壁打ちには効く:個人(特に経験の浅い人)の創造性の底上げには、AIアイデア出しは実際に効果あり(Doshi & Hauser, 2024)。
- temperature は単調じゃない:上げすぎると破綻する閾値がある(Wang ほか, 2026)。創造性タスクは“ちょうどいい温度”探しが要る。
- 天才ペルソナは万能ではない:「○○になりきって」は閾値を超えると逆効果になりうる。
- 多様性は設計で守る:複数ペルソナ・複数視点でサンプリングし、評価軸に「独創性」を入れる(Wan & Kalman, 2026 / Jo & Raghavan, 2026)。
- 最終判断は人間に残す:質の均質化(モード崩壊)を避ける最後の砦は人間のキュレーション。
まとめ
- AIの創造性は 「組み合わせ」では人間超え、「探索」はそこそこ、「変革」はまだ苦手。
- 大規模比較は 「平均は超えた/でも超クリエイティブな人間はまだ抜けない」 で一致。
- 最大のリスクは“失業”そのものより 「全体の多様性が痩せる(均質化)」 こと。ただしこれは 設計とインセンティブで防げる。
- 業界(WGAなど)は 「置き換え」ではなく「共創+ルール整備」 の方向に進んでいる。
- 結局、AIは創造の 下限と平均 を引き受け、人間には 上限・多様性・意味づけ が残る。
- エンジニア自身も同じ構図:コードを書く“作業”の下限はAIが底上げする。価値は 問題設定・設計・判断/検証 へ移り、想像力・思考力は――意識的に鍛え続ければ――武器になる(ただし使わないと萎む)。
小説家や脚本家の創造性は「AIに奪われる」というより、「どう一緒に使い、どう多様性を守る設計をするか」次第 ――というのが、現時点で論文が指し示している答えのようです。
参考文献・出典
- Doshi, A. R., & Hauser, O. P. (2024). Generative AI enhances individual creativity but reduces the collective diversity of novel content. Science Advances, 10(28). https://www.science.org/doi/10.1126/sciadv.adn5290
- Bellemare-Pépin, A., Lespinasse, F., et al. (2026). Divergent Creativity in Humans and Large Language Models. Scientific Reports. (プレプリント: https://arxiv.org/abs/2405.13012 )
- Wang, et al. (2026). A large-scale comparison of divergent creativity in humans and large language models. Nature Human Behaviour. https://www.nature.com/articles/s41562-025-02331-1
- Large language models show both individual and collective creativity comparable to humans. (2025). Thinking Skills and Creativity. https://www.sciencedirect.com/science/article/pii/S1871187125001191
- Wan, Y., & Kalman, Y. M. (2026, forthcoming). Diverse AI Personas Can Mitigate the Homogenization Effect in Human-AI Collaborative Ideation. Computers in Human Behavior: Artificial Humans. https://arxiv.org/abs/2504.13868
- Jo, N., & Raghavan, M. (2026). Incentives shape how humans co-create with generative AI. MIT. https://arxiv.org/abs/2604.03529
- Boden, M. A. (2004). The Creative Mind: Myths and Mechanisms. / Boden, M. A. (2010). Creativity and Art: Three Roads to Surprise. Oxford University Press.
- Writers Guild of America (2023). 2023 MBA / Memorandum of Agreement(生成AI条項). 解説: The Authors Guild https://authorsguild.org/news/wga-agreement-introduces-key-protections-for-tv-and-film-writers-against-ai/ / Brookings https://www.brookings.edu/articles/hollywood-writers-went-on-strike-to-protect-their-livelihoods-from-generative-ai-their-remarkable-victory-matters-for-all-workers/
- Lee, H.-P., Sarkar, A., Tankelevitch, L., et al. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. CHI '25(Microsoft Research / Carnegie Mellon University). https://www.microsoft.com/en-us/research/publication/the-impact-of-generative-ai-on-critical-thinking-self-reported-reductions-in-cognitive-effort-and-confidence-effects-from-a-survey-of-knowledge-workers/
- Peng, S., et al. (2023). The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. https://arxiv.org/abs/2302.06590
- Cui, Z., Demirer, M., et al. (2024). The Effects of Generative AI on High-Skilled Work: Evidence from Field Experiments with Software Developers.(MIT・Princeton・UPenn, 約4,800人)https://mit-genai.pubpub.org/pub/v5iixksv
- Xu, F., Medappa, P. K., et al. (2025). AI-Assisted Programming May Decrease the Productivity of Experienced Developers by Increasing the Maintenance Burden.(Tilburg University)https://arxiv.org/abs/2510.10165
- Naur, P. (1985). Programming as Theory Building.(プログラミングの本質は成果物ではなく“理論の構築”だとする古典的論考)