2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Groq vs watsonx: watsonx Orchestrate - gpt-oss-120b 日本語応答性能比較

2
Last updated at Posted at 2025-11-17

1. はじめに

watsonx OrchestrateでGroqプロバイダーが利用可能になりました。高速推論が特徴のGroqが、watsonx Orchestrateでどのくらいその力を発揮するのかを知りたく、両方で利用可能な gpt-oss-120b モデルで性能を比較検証しました。
本検証を通じて、Groq の高い応答性能を確認できました。

なお、Groqの設定はADK1.14で使用可能になった provider_config を用いた Virtual モデル定義で簡単に行えました。その様子は以下記事で紹介します。

2. 比較方法の概要

以下の比較は、watsonx Orchestrate 上で gpt-oss-120b を実行した際の応答性能を、Groq・Watsonx のそれぞれで 同一プロンプトを用いて測定した結果です。取得した結果の応答速度(Duration)とトークン生成効率(tokens/sec) を中心に評価しています。

  • テストケースは 3 種類
    (1)短文リクエスト/短文応答
    (2)短文リクエスト/長文応答
    (3)長文リクエスト/長文応答

  • 各ケースにつき 2 回(計 6 回)実行して計測

  • watsonx Orchestrate のエージェント分析機能から以下を取得

    • Duration(処理時間)
    • prompt_tokens
    • completion_tokens
  • 両モデルとも同じ system prompt を使用(watsonx 側は自動付与、Groq 側には同じプロンプトをエージェントの動作(behavior)に明示的に登録

3. 主な観察

3.1 速度に関する観察

  • 応答時間(Duration)
    短文リクエスト→短文応答(ケース1)では、わずかに watsonx の方が速い傾向がみられた。
    一方、扱うデータ量が増えるケース(ケース2・3)では Groq の方が速く処理を完了する傾向 が読み取れた。

  • トークン生成速度(total_tokens/sec)
    いずれのケースでも Groq が明確に高速
    watsonx が 約 270〜780 tokens/sec の範囲であるのに対し、
    Groq は 約 570〜920 tokens/sec と、より高いトークン生成量を示した。

3.2 Completion トークンに関する観察

  • 「富士山の標高は、3,776 メートル(約12,389 フィート)です。」といった
    短い応答のケースのトークンが、watsonx が 100 未満である一方、Groq は 300 規模の completion_tokens を返す事例が確認された。

    • この傾向は 長文応答のケースでも同様 で、回答文の内容が同等であってもGroq 側の completion_tokens が一貫して多くなる ことが観察された。
    • これは「Groq の返答文が長い」という意味ではなく、同じ内容の返答であっても Groq によるトークン数が多くなる** 傾向があることを確認している。
  • Groq 側の completion_tokens が多くなる原因について
    なぜ Groq 側の completion_tokens が大きく出るのか、調査や検証を試みたが原因は明確にならなかった

4. 計測結果表(全ケース)

ケース プラットフォーム Duration (s) prompt_tokens completion_tokens total_tokens tokens/sec
1 1 watsonx 0.60334 388 96 484 802.20
groq 0.69059 247 635 919.50
2 watsonx 0.62282 97 485 778.72
groq 0.86305 314 702 813.39
2 1 watsonx 3.99 395 704 1099 275.44
groq 3.31 1476 1871 565.26
2 watsonx 4.04 710 1105 273.51
groq 2.46 1011 1406 571.54
3 1 watsonx 2.36 536 415 951 402.97
groq 1.50 628 1164 776.00
2 watsonx 2.15 380 916 426.05
groq 1.52 631 1167 767.76

5. 測定条件詳細

5.1 使用モデル・環境

  • watsonx Orchestrate 内の以下モデルを使用したエージェント
    • watsonx : openai/gpt-oss-120b
    • groq : virtual-model/groq/openai/gpt-oss-120b

5.2 プロンプト内容

  • ケース1
    富士山の高さを教えてください。
    
  • ケース2
    富士山について、日本語で600文字程度で解説してください
    
  • ケース3
    富士山について、日本語で600文字程度で解説してください。
    次を含めること:
     1.標高3,776メートル、日本最高峰の成層火山
     2.山梨県と静岡県の境に位置
     3.最終噴火1707年、現在は休止中
     4.山岳信仰、富士信仰、葛飾北斎や歌川広重の作品
     5.登山シーズン、富士五湖、登山者の安全対策
     6.四季の景色、ユネスコ世界文化遺産登録
     7.日本人の精神性や文化的価値の象徴
    

Groq とのトークン整合性のための工夫

  • watsonx では内部的にシステムプロンプトが付与される
  • Groq では付与されないため、同じシステムプロンプトを明示的に付与して送出
  • これにより prompt_tokens を揃え、比較可能な条件を実現

5.3 計測方法

watsonx エージェントログの活用

  • watsonxChatModel.chat 内の各種タグ・Usage情報を抽出
  • prompt_tokenscompletion_tokenstotal_tokensDuration を取得

実施手順

  • 各ケースごとに複数回実行し、Duration・トークン数をログ記録
  • 時間あたりトークン生成量を算出し、watsonx と Groq の差を可視化

6. まとめ

本検証では、watsonx Orchestrate 上で同一プロンプトを gpt-oss-120b で Groq と watsonx それぞれに送信し、応答時間(Duration)とトークン生成量を中心に性能比較を行いました。

主な結果として、Groq は watsonx と比べておよそ 36%程度速く応答し、時間あたりのトークン生成量も 約93%多い ことが確認できました(長文リクエスト-長文応答のケース例:Duration watsonx 2.36s、Groq 1.5s / トークン生成量 watsonx 402.96、Groq 776.00)。

複数ケース(短文リクエスト・短文応答、短文リクエスト・長文応答、長文リクエスト・長文応答)での傾向から、Groq は特に長文応答で効率が向上することが観察されました。精度や出力内容は両者で大きな差はなく、処理速度・トークン生成効率の面で Groq の利点が確認できました。

本検証では、いわゆる”数倍速い”という結果までは得られませんでしたが、watsonx Orchestrateでの一度のリクエストで複数のツールを実行するようにLLMが処理を行うエージェント処理においては、速度差の積み重ねで体感速度は上がるものと期待しています。

(本記事は、執筆にあたりOpenAI ChatGPT, Google Geminiを利用し、その出力を参考にしています。)

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?