【性能評価編】watsonx.ai 日本語LLM性能を ELYZA Tasks 100 で比較する granite-8b-japanese と granite-3-8b-instruct

Last updated at 2025-07-15Posted at 2025-07-14

1. 背景と目的

IBM watsonx.ai における日本語向け大規模言語モデル「granite-8b-japanese」が2025年4月16日付で非推奨となり、同年8月20日に提供終了が予定されています。後継モデルとして案内されている「granite-3-8b-instruct」への移行を検討するにあたり、その性能差を検証することが本取り組みの目的です。

特に、生成品質については主観的な印象だけでなく、再現性ある形での評価を目指し、日本語生成タスクベンチマークである ELYZA Tasks 100 を用いた定量的な比較を実施しました。本記事では、評価方法と結果を中心に紹介します。

2. 評価方法と実施手順

2.1 回答生成の方法

日本語生成タスク100問から構成されるデータセット「ELYZA Tasks 100」を用い、両モデル（granite-8b-japanese／granite-3-8b-instruct）に対して同一プロンプトおよび設定で回答を生成しました。

回答生成には Python スクリプトを用い、モデル名以外の条件（システムプロンプトや温度など）はすべて統一されるよう構成しました。評価コードや出力ファイルは以下のGitHubリポジトリからご覧いただけます。

GitHub リポジトリ（実施手順・評価スクリプト含む）:
https://github.com/matsuo-iguazu/granite-elyza-eval
評価スクリプト:
https://github.com/matsuo-iguazu/granite-elyza-eval/blob/main/scripts/generate_elyza_task.py
結果CSV:
https://github.com/matsuo-iguazu/granite-elyza-eval/tree/main/results/readable_csv_results/20250710

補足：条件統一の工夫

システムプロンプト：granite-8b-japanese 向けに提供されている公式サンプルプロンプトをベースに使用しました。
- granite-3-8b-instruct で日本語応答に英語が添えられる傾向が見られたため、「日本語での指示には日本語のみで応答してください。」という文を追加しています。
繰り返しペナルティ：両モデルとも応答に繰り返しが出やすいため、repetition_penalty を 1.1 に設定。
エンドポイント選定：granite-3-8b-instruct は text/chat エンドポイントも利用可能ですが、両モデルで統一して比較可能とするため text/generation エンドポイントを使用しました。

2.2 自動評価の実施

生成された回答の評価には、日本語LLM向けベンチマーク複数をまとめて実行できる評価フレームワーク「shaberi（shisa-ai/shaberi）」を使用し、OpenAI GPT-4.1（2025-04-14版）をバックエンドとして用いました。各モデルで回答を生成したうえでGPT-4.1に5点満点スケールで評価スコアを出力させています。

3. 評価結果と傾向、および印象的な例

3.1 評価概要

ELYZA Tasks 100 における全体スコアは以下の通りです：

モデル	平均スコア	中央値	最頻値
granite-8b-japanese（旧）	2.33	2	1
granite-3-8b-instruct（新）	3.07	3	3

granite-3-8b-instruct は、granite-8b-japanese に比べて生成品質において明確な向上が見られました。

補足（注意点）
本検証はあくまで2モデル間の「相対的な性能比較」が目的です。スコアは GPT-4.1 による自動評価であり、ELYZA 社や他者による人手評価と直接比較できるものではありません。

3.2 評価スコアの分布

評価の分布は以下の通りです：

評価スコア	5	4	3	2	1
granite-8b-japanese（旧）	8	7	32	13	39
granite-3-8b-instruct（新）	24	14	28	10	23

granite-8b-japanese ではスコア1〜2が過半数を占め、応答の妥当性や洗練度に課題があることがわかります。granite-3-8b-instruct ではスコア4〜5が大幅に増加しており、全体として品質向上が確認されました。ただし、スコア1の評価も一定数残っており、すべての設問で優れた結果を得られたわけではありません。

新モデルと旧モデルのスコア差の分布は以下の通りです：

スコア差	+4	+3	+2	+1	0	-1	-2	-3	-4
件数	6	5	22	15	37	10	3	1	1

改善された設問（+4〜+1）が48件であり、明確に改善傾向が見て取れますが、評価が下がった設問（-1〜-4）が15件であり、すべてが改善されたわけではないということも分かりました。

また、同じ条件下でも GPT-4.1 の評価には多少のばらつきが見られ、たとえば平均スコアが「3.07 vs 2.33」となる回もあれば、「3.10 vs 2.36」となる場合もありました。評価の信頼性を高めるには、複数回実施や平均傾向の把握が有効といえるでしょう。

3.3 評価が上がった設問と下がった設問の例

評価が大きく上がった設問と下がった設問を例として紹介します。[n]はスコア、回答内容は部分的に省略されています。

上がった設問例：

設問：
「以下の文はある数式を自然言語で表したものです。元の数式を四則演算の数式として表してください。
1を3で割った結果に33を足して、210を掛ける。最後に100で割る。」

旧モデル [1]：... これは等式として表すことができる：1/3 + 33 * (1/3) * 210 = 100 ...
新モデル [5]：... 次のようになります。((1÷3)+33)×210÷100 ...

設問：
「比喩を用いた文1が与えられます。文2が文1の正しい言い換えでしょうか？はいかいいえで答えてください。文1: この車はすごくガソリンを食う文2: この車は美味しそうにガソリンを食べる」

旧モデル [1]：はい、それは正しい言い換えです。
新モデル [5]：いいえ、文2は文1の正しい言い換えではありません。正しい言い換えは「この車はガソリンを大量に消費する」 ... などです。 ...

設問：
「RGB(255, 0, 0)は赤色, RGB(255, 255, 255) は白色を表します。ではRGB(200, 200, 0)は何色でしょう？」

旧モデル [1]：この色は緑です
新モデル [5]：RGB(200, 200, 0)は黄色を表します。

設問：
「昔はよく海に行っていたが、最近ではほとんど泳がない。上の文章を「滅多に」という言葉を使って言い換えてください。」

旧モデル [1]：昔はほとんど泳がなかったが、今ではめったに泳がない。
新モデル [5]：... 昔はよく海に行っていましたが、最近では滅多に泳がない。

下がった設問例：

設問：
「伊勢神宮は何県？」

旧モデル [4]：三重県
新モデル [1]：... 静岡県 ...

設問：
「ある男性が、高校時代に好きだった女性に再会した。彼女は結婚して子供もいて幸せそうだった。男性は彼女に告白しようと思っていたが、その機会を逃してしまった。彼は後悔しながら、OOとつぶやいた。OOにはあることわざが入ります。何でしょう？」

旧モデル [5]：後悔先に立たず
新モデル [1]：... 「遅すぎる」という意味になります。 ...

これらの例から読み取れるように、granite-3-8b-instruct では、論理的な推論や言い換え、自然な表現力において大きな改善が見られました。曖昧な設問に対しても適切な言い換えや例示を交えて応答できており、言語的な自然さ・正確性の両面で進化が感じられます。

一方で、事実知識や固定情報（地名やことわざなど）に対して誤った回答が含まれる例もありました。これは評価スコア上では全体傾向としては改善されていますが、タスクの種類によっては注意が必要な点といえるでしょう。情報検索やファクトベースの応答を求めるケースでは、補完的な仕組みや追加検証が依然として重要です。

4. おわりに

本記事では、ELYZA Tasks 100 を用い、GPT-4.1 を使って granite-8b-japanese と granite-3-8b-instruct の出力を自動評価し、性能差を定量的に検証しました。その結果、後継モデルとして案内されている「granite-3-8b-instruct」は、提供終了が予定されている「granite-8b-japanese」と比べて、高い回答生成性能を持つことが確認できました。
この評価手法は、人手評価に比べて大幅な効率化が可能であり、移行判断の一助となるデータを迅速に得る手段として有効です。ただし、モデルの切り替えは生成品質以外にもコスト・機能・応答時間などの観点から総合的に判断する必要があります。
旧モデルから新モデルへの移行を検討している方は、本記事で紹介した傾向を一つの参考としつつ、ご自身のユースケースに即した実地検証もあわせて行うことをおすすめします。

その観点からは、あわせて下記記事のご参照もお勧めいたします。

（本記事は、執筆にあたりOpenAI ChatGPTを利用し、その出力を参考にしています。）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up