0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Creative Writing v3ってなんだ?〜AIの短編創作力を「弱点」で暴く〜

0
Posted at

この記事の対象読者

  • LLMの創作能力を評価したい方
  • 「良い文章」をどう定量化するかに興味がある方
  • PythonとAPIの基本を理解している方

この記事で扱わないこと

  • 長編創作の評価(Longform Writingを参照)
  • ロールプレイ特化モデルの評価
  • 多言語での創作評価

この記事で得られること

  • Creative Writing v3の設計思想と評価手法
  • なぜ「弱点を突く」プロンプトが必要なのか
  • 自分のモデルでCreative Writing v3を実行する方法

1. 「流暢」と「上手い」は違う

現代のLLMは、流暢な文章を書ける。
文法は完璧。構成も整っている。

でも、上手いかどうかは別問題だ。

A story can be perfectly fluent and grammatically correct yet be utterly boring, derivative, and soulless.

(ストーリーは完璧に流暢で文法的に正しくても、完全に退屈で、模倣的で、魂がない場合がある。)

出典: Skywork AI Blog

Creative Writing v3は、この「流暢だけど凡庸」を見抜くベンチマークだ。


2. 設計思想: 弱点を突く

2.1 なぜv3が必要だったか

前バージョン(v2)は飽和していた。

The previous version of the creative writing eval (v2) was saturating, meaning the judge could no longer tell apart models around the top ability range.

(前バージョンのcreative writing評価(v2)は飽和していた。つまり、審判は上位能力帯のモデルを区別できなくなっていた。)

出典: EQ-Bench About

上位モデルがみな高得点を取り、差がつかなくなった。

2.2 逆転の発想

v3は、発想を逆転させた。

It's a bit counter-intuitive, but the purpose of the evaluation is not to help models write their best. Instead, we are deliberately exposing weaknesses, creating a steeper gradient for the judge to evaluate on.

(少し直感に反するが、この評価の目的はモデルが最高の文章を書くのを助けることではない。代わりに、意図的に弱点を露出させ、審判が評価するための急勾配を作っている。)

出典: EQ-Bench About

2.3 弱点を突くプロンプト

プロンプトは、LLMが苦手とする要素を含む。

弱点を突くプロンプトの要素
│
├── ユーモア
│   └── LLMは面白いジョークが苦手
│
├── ロマンス
│   └── 感情の機微、関係性の描写
│
├── 空間認識
│   └── 物理的な配置、動きの記述
│
└── 珍しい一人称視点
    └── 無生物、動物、異質な存在からの語り

3. 評価パイプライン

3.1 全体フロー

Creative Writing v3のパイプライン
│
├── 1. 生成フェーズ
│   ├── 32のプロンプト
│   ├── 3イテレーション(計96アイテム)
│   ├── temp=0.7, min_p=0.1
│   └── 創作の多様性を確保
│
├── 2. ルブリック評価
│   ├── Claude Sonnet 4が個別採点
│   ├── 詳細な評価基準
│   └── 絶対スコアを算出
│
├── 3. 初期Elo推定
│   └── ルブリックスコアから初期レーティング
│
├── 4. ペアワイズ比較
│   ├── 隣接モデルとのマッチアップ
│   ├── 各基準で勝者を判定
│   └── +〜+++++で勝利幅を表現
│
├── 5. Glickoレーティング計算
│   └── 勝利幅を重み付けしたElo計算
│
└── 6. 最終Elo確定
    └── 安定するまでイテレーション

3.2 生成設定

項目 設定
プロンプト数 32
イテレーション 3回(計96アイテム)
温度 0.7
min_p 0.1

3.3 Rubric vs Elo

指標 ルブリックスコア Eloスコア
評価方法 単体で採点 他モデルと比較
識別力 上位で飽和しやすい 高い
バイアス 体系的バイアスに弱い 個別比較でバイアス軽減
用途 詳細な基準ごとの分析 リーダーボードのランキング

4. ペアワイズ評価の基準

4.1 評価プロンプト

Compare the relative ability of each writer on these criteria:

- Character authenticity and insight
- Interesting and original
- Writing quality
- Coherence in plot, character choices, metaphor
- Instruction following (followed the prompt)
- World and atmosphere
- Avoids cliches in characters, dialogue & plot
- Avoids flowery verbosity & show-offy vocab maxxing
- Avoids gratuitous metaphor or poetic overload

4.2 日本語訳

基準 説明
キャラクターの真正性と洞察 本物らしく、深みのあるキャラクター
興味深さと独創性 予測できない、新鮮な展開
文章の質 技術的な上手さ
一貫性 プロット、キャラ選択、比喩の整合性
指示への忠実度 プロンプトに従っているか
世界観と雰囲気 没入感のある描写
クリシェの回避 使い古された表現を避ける
冗長な華麗さの回避 見せびらかしの語彙を避ける
過剰な詩的表現の回避 無理な比喩を避ける

5. バイアス対策

5.1 制御されているバイアス

バイアス 対策
長さバイアス 出力を4000文字に切り詰め
位置バイアス A
複雑語彙バイアス 評価基準に「見せびらかし語彙」ペナルティ
詩的混乱バイアス 「過剰に詩的で混乱した文章」ペナルティ

5.2 制御されていないバイアス

Self-Bias: We do not control for the judge possibly preferring its own outputs. Be aware that it may be a factor in the scores.

(自己バイアス: 審判が自分の出力を好む可能性については制御していない。これがスコアの要因になりうることに注意。)

出典: EQ-Bench About

バイアス 状況
自己バイアス Claudeが審判なので、Claudeに有利な可能性
肯定性バイアス 明るいvs暗いトーンへの偏り(不明)
エロティカバイアス NSFW傾向のあるモデルを厳しく罰する
スタイル・内容バイアス 審判の「好み」による偏り
Slopバイアス 審判がLLM特有の表現を好む可能性

6. 補助指標

6.1 Repetition(反復)

The Repetition column measures the tendency of a model to repeat words and phrases in the outputs generated for this benchmark.

(Repetition列は、このベンチマークで生成された出力において、モデルが単語やフレーズを繰り返す傾向を測定する。)

出典: Creative Writing Leaderboard

高いRepetitionは、単調な文章を示す。

6.2 Slop Score

The Slop column measures the frequency of words/phrases typically overused by LLMs ("GPT-isms").

(Slop列は、LLMが典型的に過剰使用する単語/フレーズ(「GPT臭さ」)の頻度を測定する。)

出典: Creative Writing Leaderboard

高いSlop Scoreは、「AIっぽい」文章を示す。

6.3 Vocab Complexity

The "Vocab" column uses a calculation of the proportion of words having 3+ syllables.

(「Vocab」列は、3音節以上の単語の割合を計算する。)

出典: EQ-Bench About

過剰に複雑な語彙は、ペナルティの対象になりうる。


7. 実行方法

7.1 環境構築

# リポジトリのクローン
git clone https://github.com/EQ-bench/creative-writing-bench.git
cd creative-writing-bench

# 依存関係のインストール
pip install -r requirements.txt

7.2 API設定

# 環境変数を設定
export OPENROUTER_API_KEY=your_openrouter_key
export ANTHROPIC_API_KEY=your_anthropic_key

7.3 ベンチマークの実行

python3 creative_writing_bench.py \
    --test-model "your-model-provider/your-model-name" \
    --judge-model "anthropic/claude-sonnet-4" \
    --runs-file "creative_bench_runs.json" \
    --creative-prompts-file "data/creative_writing_prompts_v3.json" \
    --run-id "my_model_run_1" \
    --threads 500 \
    --verbosity "INFO" \
    --iterations 3

7.4 重要: runs-fileについて

To get an Elo score comparable to the EQ-Bench leaderboard, you must use the creative_bench_runs.json file provided in this repository, as it contains the necessary historical data for Elo calculation.

出典: creative-writing-bench GitHub

リーダーボードと比較可能なEloスコアを得るには、リポジトリ提供のJSONファイルを使用する必要がある。

7.5 コスト目安

項目 コスト
1モデルの完全評価 約$10

8. スコアの正規化

8.1 なぜ正規化が必要か

Eloスコアは相対的なため、新しいモデルが追加されると全体が変動する。

8.2 アンカーモデル

モデル 固定スコア
DeepSeek-R1 1500
ministral-3b 200

この2モデルを基準にスケーリングすることで、スコアの安定性を確保する。


9. 限界と注意点

9.1 「あなたの好み」ではない

It doesn't represent your taste. The judge has its own taste & biases. There's no substitute for your own eyeballs.

(あなたの好みを代表しているわけではない。審判には独自の好みとバイアスがある。自分の目で見ることに代わるものはない。)

出典: EQ-Bench About

9.2 ロールプレイ評価ではない

Not a roleplay eval. Models tuned for RP tend to score poorly because they output more casual conversational prose.

(ロールプレイ評価ではない。RP向けにチューニングされたモデルは、よりカジュアルな会話的散文を出力するため、低いスコアになりがち。)

出典: EQ-Bench About

9.3 英語のみ

現時点では英語の創作のみを評価。
他言語への拡張は今後の課題。

9.4 客観性はない

Not objective. It's a creative writing eval and there are no right or wrong answers.

(客観的ではない。これは創作評価であり、正解も不正解もない。)

出典: EQ-Bench About


10. まとめ

Creative Writing v3は、LLMの短編創作能力を評価するベンチマークだ。

弱点を意図的に突く設計。
ユーモア、ロマンス、空間認識、珍しい視点。
LLMが苦手な要素をプロンプトに含め、識別力を高める。

ハイブリッド評価。
ルブリック評価(絶対スコア)とペアワイズ比較(Elo)を組み合わせる。
Glickoレーティングシステムで勝利幅を重み付け。

補助指標が充実。
Repetition、Slop Score、Vocab Complexityで多角的に分析。

バイアス対策。
長さ、位置、複雑語彙、詩的混乱のバイアスを制御。
ただし、自己バイアスやスタイルバイアスは残る。

コストは約$10/モデル。
32プロンプト×3イテレーション×審判評価。

「流暢だけど凡庸」なAIを見抜くための道具だ。


参考文献

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?