【総合評価編】watsonx.ai 日本語LLMはどう変わった？性能・コスト・機能から読み解く granite モデルの進化

Last updated at 2025-07-15Posted at 2025-07-14

1. はじめに：granite-8b-japanese 廃止と後継モデルの検証の背景

IBM watsonx.ai における日本語向け大規模言語モデル「granite-8b-japanese」が、2025年4月16日に非推奨（Deprecated）となり、同年8月20日には提供終了（withdrawn）予定であることが発表されました（参考：「IBM Granite ファミリーのいくつかのモデルは非推奨である」）。

後継として案内されているのが、「granite-3-8b-instruct」です。本記事では、性能とコストの両面からこの新モデルを検証し、移行の判断材料を提供します。

比較と調査の結果、granite-3-8b-instruct への移行には多くのメリットがあることを確認しました。

2. モデル移行にあたっての検討ポイント

モデルの廃止と後継案内を受け、以下のような観点で granite-8b-japanese（旧）と granite-3-8b-instruct（新）を比較しました。

生成品質の比較：
ELYZA Tasks 100 を用いて、タスクごとに両モデルの出力を比較し、GPT-4.1 によってスコアリングした平均スコアや傾向を分析しました（3章）。
コスト面での比較：
トークン単価、日本語トークナイザの有無、そして実際のプロンプトによる費用試算を行い、コスト面での実用性を評価しました（4.1節）。
機能面での違い：
コンテキストウィンドウの長さやAPI形式の柔軟性など、ユースケースの幅に影響を与える要素を比較しました（4.2節）。

以上の観点を踏まえ、次章以降ではそれぞれの検証結果を詳しく紹介します。

3. 生成品質比較の概要

生成内容の比較を行いました。ここではその概要を紹介します。

検証実施内容と結果詳細はこちらをご参照ください。

3.1 ELYZA Tasks 100

性能比較には、日本語100問の多様な生成タスクを網羅した評価データセット「ELYZA‑Tasks‑100」を使用しました（Hugging Face：elyza/ELYZA‑tasks‑100）。

データセット概要
- 100件の複雑な日本語指示・生成タスクを含むテキスト生成ベンチマークで、日本語特有の多様な自然言語理解・生成力を評価できます。
設問内容の傾向
- 要約修正／教訓抽出／算数問題／創作物語／未知言語のパターン解釈／多指示応答など、多面的な推論・生成能力が求められます。
評価方法
- 元来は人手評価（複数人によるブラインド形式、5段階絶対評価）ですが、本記事では OpenAI GPT‑4.1 を評価者として採用し、5点満点方式でスコア化した結果を参照しています。

補足（注意点）
本検証はあくまで2モデル間の「相対的な性能比較」が目的です。スコアは GPT-4.1 による自動評価であり、ELYZA 社や他者による人手評価と直接比較できるものではありません。

3.2 評価傾向の全体像

ELYZA Tasks 100 におけるスコア（5点満点方式の平均）は以下の通りとなりました。

granite-8b-japanese（旧モデル）: 2.33
granite-3-8b-instruct（新モデル）: 3.07

同じ8bモデルながら、大幅な生成品質改善が実現していることが分かりました。

granite-8b-japanese（旧）から granite-3-8b-instruct（新）でのスコアの変化量毎の件数を以下の通りまとめました。

スコア差（新 − 旧）	+4	+3	+2	+1	0	-1	-2	-3	-4
問題数	6	5	22	15	37	10	3	1	1

この結果から、回答が改善された設問（+4～+1）が 48件 あり、大幅に性能が改善されていることがわかりました。一方で、評価が下がった設問（-1〜-4）が 15件 あり、すべての設問が改善されたわけではないこともわかりました。

3.3 評価が上がった設問と下がった設問の例

評価が大きく上がった設問と下がった設問を例として紹介します。[n]はスコア、回答内容は部分的に省略されています。

上がった設問例：

設問：
「以下の文はある数式を自然言語で表したものです。元の数式を四則演算の数式として表してください。
1を3で割った結果に33を足して、210を掛ける。最後に100で割る。」

旧モデル [1]：... これは等式として表すことができる：1/3 + 33 * (1/3) * 210 = 100 ...
新モデル [5]：... 次のようになります。((1÷3)+33)×210÷100 ...

設問：
「比喩を用いた文1が与えられます。文2が文1の正しい言い換えでしょうか？はいかいいえで答えてください。
文1: この車はすごくガソリンを食う
文2: この車は美味しそうにガソリンを食べる」

旧モデル [1]：はい、それは正しい言い換えです。
新モデル [5]：いいえ、文2は文1の正しい言い換えではありません。正しい言い換えは「この車はガソリンを大量に消費する」 ... などです。 ...

下がった設問例：

設問：
「伊勢神宮は何県？」

旧モデル [4]：三重県
新モデル [1]：... 静岡県 ...

設問：
「ある男性が、高校時代に好きだった女性に再会した。彼女は結婚して子供もいて幸せそうだった。男性は彼女に告白しようと思っていたが、その機会を逃してしまった。彼は後悔しながら、OOとつぶやいた。OOにはあることわざが入ります。何でしょう？」

旧モデル [5]：後悔先に立たず
新モデル [1]：... 「遅すぎる」という意味になります。 ...

これらの結果から、granite-3-8b-instruct は、多段階の論理的推論や複雑な文脈把握を必要とするタスクにおいて高い性能を発揮していることがわかりました。

一方で、日本や日本語にまつわる知識ベースの設問では、誤答を出すケースが見られ、日本語固有のファクト確認タスクには弱点があるようです。こういった事実性が求められるタスクについては、RAGなどによりドキュメントなどから情報を引くことで誤答リスクを低減する対応が考えられます。モデルの得意・不得意を理解し、タスクごとにプロンプト設計や補完方式実装の検討をお勧めします。

4. コストと機能の観点からの比較

4.1 コスト比較

granite-8b-japanese は、日本語トークナイザが組み込まれており、日本語の入力や出力に対してトークン数を比較的少なく抑えることができました。これにより、従来は日本語利用においてコストを低減できるというメリットがありました。

一方で、後継の granite-3-8b-instruct にはその機能がないため、同じ日本語入力でもトークン数が増加します。ただし、トークン単価自体が大幅に低くなっているため、全体としてのコストには好影響がある可能性があります。

トークン単価の比較

モデル	入力/出力 1,000トークンあたりの単価
granite-8b-japanese	$0.0006
granite-3-8b-instruct	$0.0002

単価ベースでは granite-3-8b-instruct の方が1/3 であり、日本語処理時のトークン増加を打ち消すコストメリットが見込めます。
参考：IBM 基盤モデル

実プロンプトに基づくコスト試算

そこで、実際に両モデルに同じプロンプトを与えた際の入力トークン数を測定し、試算を行いました。

ケース	文字数	granite-8b-japanese (トークン数)	granite-3-8b-instruct (トークン数)	費用 (g8j)	費用 (g3i)	費用比 (g3i/g8j)
1	454	222	410	$0.0001332	$0.000082	0.62
2	352	236	424	$0.0001416	$0.0000848	0.60
3	498	279	560	$0.0001674	$0.000112	0.67

この結果から、granite-3-8b-instruct の方がトークン数は増えるものの、総コストは約60〜67%程度に収まることが確認できました。コスト面においても、新モデルの優位性が明確に見て取れます。

4.2 機能比較

コンテキストウィンドウの比較

granite-3-8b-instruct は、コンテキストウィンドウの長さにおいても大きな利点があります。

モデル	コンテキストウィンドウ（トークン）
granite-8b-japanese	4,096
granite-3-8b-instruct	131,072

これにより、より長いプロンプトや出力が可能となり、特に大規模文書の要約や複数文書をまたぐタスクにおいて強みを発揮します。

API形式の柔軟性

granite-3-8b-instruct は従来の text/generation に加えて、text/chat（チャット補完）形式にも対応しており、より柔軟なユースケース設計が可能です（参考：Supported API functionality by model）。

5. まとめ

本記事では、granite-8b-japanese の廃止に伴い、後継として案内されている granite-3-8b-instruct の性能と実用性を検証しました。

主な検証ポイントは以下の通りです。

ELYZA Tasks 100 による性能評価では、平均スコアが 2.33 → 3.07 に向上。
特に論理的推論や複雑な言い換えタスクで大きな性能向上が見られた。
日本語知識ベースの設問には誤答もあり、注意が必要。
トークン単価は旧モデルの 1/3 に下がっており、全体的なコストメリットも確認。
コンテキスト長や API形式対応など、機能面でも新モデルが優位。

以上の結果から、granite-3-8b-instruct は性能・コスト・機能の各面で優れており、移行を前向きに検討できる有力な選択肢であると判断できます。

（本記事は、執筆にあたりOpenAI ChatGPTを利用し、その出力を参考にしています。）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up