1. はじめに
watsonx OrchestrateでGroqプロバイダーが利用可能になりました。高速推論が特徴のGroqが、watsonx Orchestrateでどのくらいその力を発揮するのかを知りたく、両方で利用可能な gpt-oss-120b モデルで性能を比較検証しました。
本検証を通じて、Groq の高い応答性能を確認できました。
なお、Groqの設定はADK1.14で使用可能になった provider_config を用いた Virtual モデル定義で簡単に行えました。その様子は以下記事で紹介します。
2. 比較方法の概要
以下の比較は、watsonx Orchestrate 上で gpt-oss-120b を実行した際の応答性能を、Groq・Watsonx のそれぞれで 同一プロンプトを用いて測定した結果です。取得した結果の応答速度(Duration)とトークン生成効率(tokens/sec) を中心に評価しています。
-
テストケースは 3 種類
(1)短文リクエスト/短文応答
(2)短文リクエスト/長文応答
(3)長文リクエスト/長文応答 -
各ケースにつき 2 回(計 6 回)実行して計測
-
watsonx Orchestrate のエージェント分析機能から以下を取得
- Duration(処理時間)
- prompt_tokens
- completion_tokens
-
両モデルとも同じ system prompt を使用(watsonx 側は自動付与、Groq 側には同じプロンプトをエージェントの動作(behavior)に明示的に登録
3. 主な観察
3.1 速度に関する観察
-
応答時間(Duration)
短文リクエスト→短文応答(ケース1)では、わずかに watsonx の方が速い傾向がみられた。
一方、扱うデータ量が増えるケース(ケース2・3)では Groq の方が速く処理を完了する傾向 が読み取れた。 -
トークン生成速度(total_tokens/sec)
いずれのケースでも Groq が明確に高速。
watsonx が 約 270〜780 tokens/sec の範囲であるのに対し、
Groq は 約 570〜920 tokens/sec と、より高いトークン生成量を示した。
3.2 Completion トークンに関する観察
-
「富士山の標高は、3,776 メートル(約12,389 フィート)です。」といった
短い応答のケースのトークンが、watsonx が 100 未満である一方、Groq は 300 規模のcompletion_tokensを返す事例が確認された。- この傾向は 長文応答のケースでも同様 で、回答文の内容が同等であってもGroq 側の
completion_tokensが一貫して多くなる ことが観察された。 - これは「Groq の返答文が長い」という意味ではなく、同じ内容の返答であっても Groq によるトークン数が多くなる** 傾向があることを確認している。
- この傾向は 長文応答のケースでも同様 で、回答文の内容が同等であってもGroq 側の
-
Groq 側の completion_tokens が多くなる原因について
なぜ Groq 側のcompletion_tokensが大きく出るのか、調査や検証を試みたが原因は明確にならなかった。
4. 計測結果表(全ケース)
| ケース | 回 | プラットフォーム | Duration (s) | prompt_tokens | completion_tokens | total_tokens | tokens/sec |
|---|---|---|---|---|---|---|---|
| 1 | 1 | watsonx | 0.60334 | 388 | 96 | 484 | 802.20 |
| groq | 0.69059 | 247 | 635 | 919.50 | |||
| 2 | watsonx | 0.62282 | 97 | 485 | 778.72 | ||
| groq | 0.86305 | 314 | 702 | 813.39 | |||
| 2 | 1 | watsonx | 3.99 | 395 | 704 | 1099 | 275.44 |
| groq | 3.31 | 1476 | 1871 | 565.26 | |||
| 2 | watsonx | 4.04 | 710 | 1105 | 273.51 | ||
| groq | 2.46 | 1011 | 1406 | 571.54 | |||
| 3 | 1 | watsonx | 2.36 | 536 | 415 | 951 | 402.97 |
| groq | 1.50 | 628 | 1164 | 776.00 | |||
| 2 | watsonx | 2.15 | 380 | 916 | 426.05 | ||
| groq | 1.52 | 631 | 1167 | 767.76 |
5. 測定条件詳細
5.1 使用モデル・環境
- watsonx Orchestrate 内の以下モデルを使用したエージェント
- watsonx : openai/gpt-oss-120b
- groq : virtual-model/groq/openai/gpt-oss-120b
5.2 プロンプト内容
- ケース1
富士山の高さを教えてください。 - ケース2
富士山について、日本語で600文字程度で解説してください - ケース3
富士山について、日本語で600文字程度で解説してください。 次を含めること: 1.標高3,776メートル、日本最高峰の成層火山 2.山梨県と静岡県の境に位置 3.最終噴火1707年、現在は休止中 4.山岳信仰、富士信仰、葛飾北斎や歌川広重の作品 5.登山シーズン、富士五湖、登山者の安全対策 6.四季の景色、ユネスコ世界文化遺産登録 7.日本人の精神性や文化的価値の象徴
Groq とのトークン整合性のための工夫
- watsonx では内部的にシステムプロンプトが付与される
- Groq では付与されないため、同じシステムプロンプトを明示的に付与して送出
- これにより prompt_tokens を揃え、比較可能な条件を実現
5.3 計測方法
watsonx エージェントログの活用
-
watsonxChatModel.chat内の各種タグ・Usage情報を抽出 -
prompt_tokens、completion_tokens、total_tokens、Durationを取得
実施手順
- 各ケースごとに複数回実行し、Duration・トークン数をログ記録
- 時間あたりトークン生成量を算出し、watsonx と Groq の差を可視化
6. まとめ
本検証では、watsonx Orchestrate 上で同一プロンプトを gpt-oss-120b で Groq と watsonx それぞれに送信し、応答時間(Duration)とトークン生成量を中心に性能比較を行いました。
主な結果として、Groq は watsonx と比べておよそ 36%程度速く応答し、時間あたりのトークン生成量も 約93%多い ことが確認できました(長文リクエスト-長文応答のケース例:Duration watsonx 2.36s、Groq 1.5s / トークン生成量 watsonx 402.96、Groq 776.00)。
複数ケース(短文リクエスト・短文応答、短文リクエスト・長文応答、長文リクエスト・長文応答)での傾向から、Groq は特に長文応答で効率が向上することが観察されました。精度や出力内容は両者で大きな差はなく、処理速度・トークン生成効率の面で Groq の利点が確認できました。
本検証では、いわゆる”数倍速い”という結果までは得られませんでしたが、watsonx Orchestrateでの一度のリクエストで複数のツールを実行するようにLLMが処理を行うエージェント処理においては、速度差の積み重ねで体感速度は上がるものと期待しています。
(本記事は、執筆にあたりOpenAI ChatGPT, Google Geminiを利用し、その出力を参考にしています。)