LoginSignup
0
1

コード生成LLM API通信速度比較

Last updated at Posted at 2024-02-20

はじめに

今更になって、Groqの速度が速いなどでプロ驚き屋さんが驚いていますね。

2024年1月に、研究の所用でコード生成LLM APIの速度比較を行っていたことを思い出したので、その記録を公開してみます。

汎用LLMについては、LLMPerf Leaderboard参照を推奨します。

実験条件

通信状況

東京大学工学部2号館から有線LANを使用。通信環境に詳しくないので、必要な情報があればコメントください。

送信内容

全て英語で書かれたPythonコード1487文字をプロンプトとして、その続きを書かせるリクエスト。
(プロンプト内容は研究内容なので伏せる)

実験結果

POST通信開始から150トークン受け取るまでの時間を記録
Notionに書いた生データを直接コピペするだけなので見づらくてごめんなさいね。整理めんどくさいの王、整理めんどくさいキングなので。

  • fireworks/models/llama-v2-13b-code
    3.850184202194214 seconds
    3.349665880203247 seconds
    3.364182233810425 seconds
    3.319537878036499 seconds
    3.3492021560668945 seconds

  • fireworks/models/llama-v2-34b-code
    2.754798650741577 seconds
    2.7192764282226562 seconds
    2.6906042098999023 seconds
    2.6803698539733887 seconds
    2.7187366485595703 seconds

  • fireworks/models/llama-v2-70b-code-instruct
    5.0174241065979 seconds
    4.864839792251587 seconds
    4.905721426010132 seconds
    4.87916111946106 seconds
    4.929026365280151 seconds

  • fireworks/models/llava-codellama-34b
    4.50421929359436 seconds
    4.338174343109131 seconds
    4.345544099807739 seconds
    4.336381435394287 seconds
    4.333642959594727 seconds

  • fireworks/models/llama-v2-13b-code-instruct
    3.4735095500946045 seconds
    3.3076882362365723 seconds
    3.343539237976074 seconds
    3.340088129043579 seconds
    3.341062068939209 seconds

  • fireworks/models/starcoder-7b-w8a16
    2.2936384677886963 seconds
    2.055241107940674 seconds
    2.1410560607910156 seconds
    2.0678515434265137 seconds
    2.4146535396575928 seconds

  • fireworks/models/starcoder-16b-w8a16
    2.6835122108459473 seconds
    2.554187774658203 seconds
    2.649622678756714 seconds
    2.6298327445983887 seconds
    3.272801399230957 seconds

  • fireworks: stability/models/stablecode
    1.398810863494873 seconds
    1.3697516918182373 seconds
    1.440429925918579 seconds
    1.3738863468170166 seconds
    1.3982489109039307 seconds

  • anyscale: codellama/CodeLlama-34b-Instruct-hf
    12.01201581954956 seconds
    3.40116024017334 seconds
    34.47137451171875 seconds
    3.40116024017334 seconds
    116.8876519203186 seconds
    6.551894903182983 seconds

  • replicate: konbraphat51/mycodellama7b (Nvidia A100 (80GB) GPU) (cold start)
    30.180686712265015 seconds
    40.408769369125366 seconds

  • replicate: meta/codellama-13b:511fc67df70ee2d584375b6f1463d8d7d9ca7e6131e0f0a879d32d99bce17351
    3.547264337539673 seconds
    3.513972759246826 seconds

  • together.ai: codellama/CodeLlama-13b-Python-hf
    2.2159769535064697 seconds
    2.4957988262176514 seconds
    2.4270265102386475 seconds
    2.522062301635742 seconds
    2.4423890113830566 seconds

  • together.ai: codellama/CodeLlama-7b-Python-hf
    2.50488543510437 seconds
    2.102806329727173 seconds
    2.200589656829834 seconds
    2.4698193073272705 seconds
    1.9355247020721436 seconds

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1