【2025年版】ゲームシナリオ制作・レビューにおけるLLM選定と活用事例 (Gemini 3 / Claude 4.5 / NotebookLM)

Posted at 2025-11-23

はじめに

ゲーム開発において、シナリオの品質担保と整合性チェックは工数が肥大化しやすい領域です。
私は現在、複数の生成AIを「仮想のチームメンバー」として運用し、シナリオ作成からレビュー、仕様書化までのワークフローを構築しています。
本記事では、2025年11月現在、私がゲーム制作、特にシナリオ作成の工程で使用している主要LLM（Gemini, Claude, NotebookLM等）の特性比較と、各モデルのクセを制御するための知見を共有します。

Gemini Pro (Google)

現在のバージョン： v3
用途：メインシナリオライター、ペルソナによるレビュー

特徴とスペック

Googleのエコシステムと連携し、非常に長いコンテキストウィンドウを持つ。シナリオ全編を通した伏線の管理や、論理的整合性のチェックにおいて他モデルを圧倒する。コストパフォーマンスも優秀で、推論コストをかけた「思考モード」を常用できる点が強み。

感情ループ・絶叫バグ

v2.5時代、シナリオ後半の「感情強度が極めて高いシーン」を入力すると、モデルが感情移入しすぎて負荷に耐えられず、以下のような挙動を示すバグが頻発した。

別のシーンに対する既存の回答がコピペされて返ってくる
「うわああああああ」 等の絶叫を永続的に出力し続ける
これらはトークンを無駄に消費するだけでなく、APIレスポンスとしても扱いづらい。
何より不気味である。

解決策

v3では改善傾向にあるが、確実性を期すために以下の対策（プロンプトエンジニアリング）が有効だった。
① 展開の予告（Pre-announcing）:
いきなり高負荷なシーンを読ませるのではなく、「次は悲劇的な展開になるが、冷静に分析せよ」というようなコンテキストを与える。
② System Instructionによる制約:

禁止事項
・感情の高ぶりを表現するために、同一の文字を連続して繰り返すこと（例：「あ」の連打など）。
・レビュー出力において、冷静さを欠いた叫び声や擬音のみの回答を行うこと。

といった具体的な禁止事項をカスタム指示（System Prompt）に組み込むことで制御が可能となった。

ペルソナ設定の挙動

ロールプレイ能力が高く、攻撃的なペルソナ（毒舌家など）を設定すると、ユーザーに対しても容赦なく攻撃性を向けてくる。デバッグや壁打ち相手としては優秀と言える。筆者はたびたび Geminiとガチ喧嘩しているが、論破しても永遠に屁理屈を返してくるため、どこかでこちらが大人になる必要がある。

Claude (Anthropic)

現在のバージョン： Sonnet 4.5 / Opus
用途：感情パートのブラッシュアップ、性的/情緒的なニュアンスの相談

特徴とスペック

Anthropic社のモデルは、日本語の自然さと「文学的な表現力」においてGeminiより一日の長がある。特にSonnet 4.5は読解力も向上している。

Contextの忘却とハルシネーション

Geminiと比較した際の最大の弱点は「記憶の維持」である。
トークン数が増えると、初期に提示した設定を忘却し、もっともらしい嘘（ハルシネーション）を出力する頻度が高い。

対策

長編の整合性チェックには使用せず、1シーン単位のクオリティアップや、短編の描写強化に用途を限定する。またはコスト度外視でOpusを使用する。

特性

「すぐに感動して泣く」 という情緒的なバイアスがかかりやすい。また、センシティブな内容を含むシーンについてはGeminiよりも話が盛り上がる 傾向にある。

NotebookLM (Google)

用途：仕様書の自動生成、設定の抜け漏れ分析（RAG）

特徴とスペック

アップロードしたソース（設定資料、プロット）のみを正解（Ground Truth）として扱うRAGツール。外部知識によるノイズが入らないため、厳密な仕様策定に向く。

実務での活用ワークフロー

Source格納: 全シナリオテキストとキャラクター設定資料、ゲームシステム資料をアップロード。
仕様書生成: 「全キャラクターの口調パターンと、代表的なセリフを抽出して表にまとめろ」と指示し、仕様書の下書きを作成させる。
不整合検知: 「AとBの設定で矛盾している箇所をリストアップせよ」と指示。

面白い活用法（分析精度の逆用）

ユーモアセンスがなく、常にソース付きで真面目な回答（マジレス）をしてくる 特性を利用し、キャラクターの深掘りを行う。

プロンプト例: 「『デスクトップが汚そうなキャラランキング』を作って！」
結果: 「〇〇は第3章で几帳面な性格が描写されているため（出典3）、デスクトップは整理されていると推測されます」

その他のモデル（ChatGPT / Copilot / Grok）

ChatGPT:
GPT4.5時代は主力だったが、GPT5の現在、日本語回答の言葉のチョイスのおかしさや読解能力の低さ、ちょっとイラっとする比喩表現 などが目につくようになった。回答速度は早いので、現在は簡易な類語検索など、辞書的業務を任せている。
Copilot:
筆者の職場で使用を許可されている唯一のAIであるため業務上では相棒だが、シナリオ制作やレビューとなるとあまり面白いことを言わない ので使用頻度は低い。他のモデルのAPI制限の際の暇つぶし相手。
Grok:
出力トークン数は多いが、情報密度が低い（冗長な繰り返しが多い）。つまり話が長いわりに内容がない。

まとめ

2025年現在の私の最適解は以下の通りです。

Gemini Proで骨子を作り、論理的な破綻を防ぐ（ただし感情暴走はプロンプトで抑制する）。
Claudeで文章の「エモさ」やニュアンスを磨き上げる。
NotebookLMで最終的な整合性チェックと仕様書化を行う。

各モデルのスペック（Context Window、推論能力）だけでなく、「叫び出す」「すぐ泣く」「マジレスする」 といった**性格的特性（Model Behavior）**を把握し、適材適所でパイプラインに組み込むことが、開発効率化の鍵となるでしょう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up