Groq vs watsonx: watsonx Orchestrate - gpt-oss-120b 日本語応答性能比較

Last updated at 2025-11-19Posted at 2025-11-17

1. はじめに

watsonx OrchestrateでGroqプロバイダーが利用可能になりました。高速推論が特徴のGroqが、watsonx Orchestrateでどのくらいその力を発揮するのかを知りたく、両方で利用可能な gpt-oss-120b モデルで性能を比較検証しました。
本検証を通じて、Groq の高い応答性能を確認できました。

なお、Groqの設定はADK1.14で使用可能になった provider_config を用いた Virtual モデル定義で簡単に行えました。その様子は以下記事で紹介します。

2. 比較方法の概要

以下の比較は、watsonx Orchestrate 上で gpt-oss-120b を実行した際の応答性能を、Groq・Watsonx のそれぞれで 同一プロンプトを用いて測定した結果です。取得した結果の応答速度（Duration）とトークン生成効率（tokens/sec） を中心に評価しています。

テストケースは 3 種類
（１）短文リクエスト／短文応答
（２）短文リクエスト／長文応答
（３）長文リクエスト／長文応答
各ケースにつき 2 回（計 6 回）実行して計測
watsonx Orchestrate のエージェント分析機能から以下を取得
- Duration（処理時間）
- prompt_tokens
- completion_tokens
両モデルとも同じ system prompt を使用（watsonx 側は自動付与、Groq 側には同じプロンプトをエージェントの動作（behavior）に明示的に登録

3. 主な観察

3.1 速度に関する観察

応答時間（Duration）
短文リクエスト→短文応答（ケース1）では、わずかに watsonx の方が速い傾向がみられた。
一方、扱うデータ量が増えるケース（ケース2・3）では Groq の方が速く処理を完了する傾向 が読み取れた。
トークン生成速度（total_tokens/sec）
いずれのケースでも Groq が明確に高速。
watsonx が 約 270〜780 tokens/sec の範囲であるのに対し、
Groq は 約 570〜920 tokens/sec と、より高いトークン生成量を示した。

3.2 Completion トークンに関する観察

「富士山の標高は、3,776 メートル（約12,389 フィート）です。」といった
短い応答のケースのトークンが、watsonx が 100 未満である一方、Groq は 300 規模の completion_tokens を返す事例が確認された。
- この傾向は 長文応答のケースでも同様 で、回答文の内容が同等であってもGroq 側の completion_tokens が一貫して多くなる ことが観察された。
- これは「Groq の返答文が長い」という意味ではなく、同じ内容の返答であっても Groq によるトークン数が多くなる** 傾向があることを確認している。
Groq 側の completion_tokens が多くなる原因について
なぜ Groq 側の completion_tokens が大きく出るのか、調査や検証を試みたが原因は明確にならなかった。

4. 計測結果表（全ケース）

ケース	回	プラットフォーム	Duration (s)	prompt_tokens	completion_tokens	total_tokens	tokens/sec
1	1	watsonx	0.60334	388	96	484	802.20
	1	groq	0.69059		247	635	919.50
	2	watsonx	0.62282		97	485	778.72
	2	groq	0.86305		314	702	813.39
2	1	watsonx	3.99	395	704	1099	275.44
	1	groq	3.31		1476	1871	565.26
	2	watsonx	4.04		710	1105	273.51
	2	groq	2.46		1011	1406	571.54
3	1	watsonx	2.36	536	415	951	402.97
	1	groq	1.50		628	1164	776.00
	2	watsonx	2.15		380	916	426.05
	2	groq	1.52		631	1167	767.76

5. 測定条件詳細

5.1 使用モデル・環境

watsonx Orchestrate 内の以下モデルを使用したエージェント
- watsonx : openai/gpt-oss-120b
- groq : virtual-model/groq/openai/gpt-oss-120b

5.2 プロンプト内容

ケース１

富士山の高さを教えてください。

ケース２

富士山について、日本語で600文字程度で解説してください

ケース３

富士山について、日本語で600文字程度で解説してください。
次を含めること：
 1.標高3,776メートル、日本最高峰の成層火山
 2.山梨県と静岡県の境に位置
 3.最終噴火1707年、現在は休止中
 4.山岳信仰、富士信仰、葛飾北斎や歌川広重の作品
 5.登山シーズン、富士五湖、登山者の安全対策
 6.四季の景色、ユネスコ世界文化遺産登録
 7.日本人の精神性や文化的価値の象徴

Groq とのトークン整合性のための工夫

watsonx では内部的にシステムプロンプトが付与される
Groq では付与されないため、同じシステムプロンプトを明示的に付与して送出
これにより prompt_tokens を揃え、比較可能な条件を実現

5.3 計測方法

watsonx エージェントログの活用

watsonxChatModel.chat 内の各種タグ・Usage情報を抽出
prompt_tokens、completion_tokens、total_tokens、Duration を取得

実施手順

各ケースごとに複数回実行し、Duration・トークン数をログ記録
時間あたりトークン生成量を算出し、watsonx と Groq の差を可視化

6. まとめ

本検証では、watsonx Orchestrate 上で同一プロンプトを gpt-oss-120b で Groq と watsonx それぞれに送信し、応答時間（Duration）とトークン生成量を中心に性能比較を行いました。

主な結果として、Groq は watsonx と比べておよそ 36%程度速く応答し、時間あたりのトークン生成量も 約93%多い ことが確認できました（長文リクエスト-長文応答のケース例：Duration watsonx 2.36s、Groq 1.5s / トークン生成量 watsonx 402.96、Groq 776.00）。

複数ケース（短文リクエスト・短文応答、短文リクエスト・長文応答、長文リクエスト・長文応答）での傾向から、Groq は特に長文応答で効率が向上することが観察されました。精度や出力内容は両者で大きな差はなく、処理速度・トークン生成効率の面で Groq の利点が確認できました。

本検証では、いわゆる”数倍速い”という結果までは得られませんでしたが、watsonx Orchestrateでの一度のリクエストで複数のツールを実行するようにLLMが処理を行うエージェント処理においては、速度差の積み重ねで体感速度は上がるものと期待しています。

（本記事は、執筆にあたりOpenAI ChatGPT, Google Geminiを利用し、その出力を参考にしています。）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up