コード生成LLM API通信速度比較

Last updated at 2024-02-20Posted at 2024-02-20

はじめに

今更になって、Groqの速度が速いなどでプロ驚き屋さんが驚いていますね。

2024年1月に、研究の所用でコード生成LLM APIの速度比較を行っていたことを思い出したので、その記録を公開してみます。

汎用LLMについては、LLMPerf Leaderboard参照を推奨します。

実験条件

通信状況

東京大学工学部2号館から有線LANを使用。通信環境に詳しくないので、必要な情報があればコメントください。

送信内容

全て英語で書かれたPythonコード1487文字をプロンプトとして、その続きを書かせるリクエスト。
（プロンプト内容は研究内容なので伏せる）

実験結果

POST通信開始から150トークン受け取るまでの時間を記録
Notionに書いた生データを直接コピペするだけなので見づらくてごめんなさいね。整理めんどくさいの王、整理めんどくさいキングなので。

fireworks/models/llama-v2-13b-code
3.850184202194214 seconds
3.349665880203247 seconds
3.364182233810425 seconds
3.319537878036499 seconds
3.3492021560668945 seconds
fireworks/models/llama-v2-34b-code
2.754798650741577 seconds
2.7192764282226562 seconds
2.6906042098999023 seconds
2.6803698539733887 seconds
2.7187366485595703 seconds
fireworks/models/llama-v2-70b-code-instruct
5.0174241065979 seconds
4.864839792251587 seconds
4.905721426010132 seconds
4.87916111946106 seconds
4.929026365280151 seconds
fireworks/models/llava-codellama-34b
4.50421929359436 seconds
4.338174343109131 seconds
4.345544099807739 seconds
4.336381435394287 seconds
4.333642959594727 seconds
fireworks/models/llama-v2-13b-code-instruct
3.4735095500946045 seconds
3.3076882362365723 seconds
3.343539237976074 seconds
3.340088129043579 seconds
3.341062068939209 seconds
fireworks/models/starcoder-7b-w8a16
2.2936384677886963 seconds
2.055241107940674 seconds
2.1410560607910156 seconds
2.0678515434265137 seconds
2.4146535396575928 seconds
fireworks/models/starcoder-16b-w8a16
2.6835122108459473 seconds
2.554187774658203 seconds
2.649622678756714 seconds
2.6298327445983887 seconds
3.272801399230957 seconds
fireworks: stability/models/stablecode
1.398810863494873 seconds
1.3697516918182373 seconds
1.440429925918579 seconds
1.3738863468170166 seconds
1.3982489109039307 seconds
anyscale: codellama/CodeLlama-34b-Instruct-hf
12.01201581954956 seconds
3.40116024017334 seconds
34.47137451171875 seconds
3.40116024017334 seconds
116.8876519203186 seconds
6.551894903182983 seconds
replicate: konbraphat51/mycodellama7b (Nvidia A100 (80GB) GPU) (cold start)
30.180686712265015 seconds
40.408769369125366 seconds
replicate: meta/codellama-13b:511fc67df70ee2d584375b6f1463d8d7d9ca7e6131e0f0a879d32d99bce17351
3.547264337539673 seconds
3.513972759246826 seconds
together.ai: codellama/CodeLlama-13b-Python-hf
2.2159769535064697 seconds
2.4957988262176514 seconds
2.4270265102386475 seconds
2.522062301635742 seconds
2.4423890113830566 seconds
together.ai: codellama/CodeLlama-7b-Python-hf
2.50488543510437 seconds
2.102806329727173 seconds
2.200589656829834 seconds
2.4698193073272705 seconds
1.9355247020721436 seconds

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up