はじめに
今更になって、Groq
の速度が速いなどでプロ驚き屋さんが驚いていますね。
2024年1月に、研究の所用でコード生成LLM APIの速度比較を行っていたことを思い出したので、その記録を公開してみます。
汎用LLMについては、LLMPerf Leaderboard参照を推奨します。
実験条件
通信状況
東京大学工学部2号館から有線LANを使用。通信環境に詳しくないので、必要な情報があればコメントください。
送信内容
全て英語で書かれたPythonコード1487文字をプロンプトとして、その続きを書かせるリクエスト。
(プロンプト内容は研究内容なので伏せる)
実験結果
POST通信開始から150トークン受け取るまでの時間を記録
Notionに書いた生データを直接コピペするだけなので見づらくてごめんなさいね。整理めんどくさいの王、整理めんどくさいキングなので。
-
fireworks/models/llama-v2-13b-code
3.850184202194214 seconds
3.349665880203247 seconds
3.364182233810425 seconds
3.319537878036499 seconds
3.3492021560668945 seconds -
fireworks/models/llama-v2-34b-code
2.754798650741577 seconds
2.7192764282226562 seconds
2.6906042098999023 seconds
2.6803698539733887 seconds
2.7187366485595703 seconds -
fireworks/models/llama-v2-70b-code-instruct
5.0174241065979 seconds
4.864839792251587 seconds
4.905721426010132 seconds
4.87916111946106 seconds
4.929026365280151 seconds -
fireworks/models/llava-codellama-34b
4.50421929359436 seconds
4.338174343109131 seconds
4.345544099807739 seconds
4.336381435394287 seconds
4.333642959594727 seconds -
fireworks/models/llama-v2-13b-code-instruct
3.4735095500946045 seconds
3.3076882362365723 seconds
3.343539237976074 seconds
3.340088129043579 seconds
3.341062068939209 seconds -
fireworks/models/starcoder-7b-w8a16
2.2936384677886963 seconds
2.055241107940674 seconds
2.1410560607910156 seconds
2.0678515434265137 seconds
2.4146535396575928 seconds -
fireworks/models/starcoder-16b-w8a16
2.6835122108459473 seconds
2.554187774658203 seconds
2.649622678756714 seconds
2.6298327445983887 seconds
3.272801399230957 seconds -
fireworks: stability/models/stablecode
1.398810863494873 seconds
1.3697516918182373 seconds
1.440429925918579 seconds
1.3738863468170166 seconds
1.3982489109039307 seconds -
anyscale: codellama/CodeLlama-34b-Instruct-hf
12.01201581954956 seconds
3.40116024017334 seconds
34.47137451171875 seconds
3.40116024017334 seconds
116.8876519203186 seconds
6.551894903182983 seconds -
replicate: konbraphat51/mycodellama7b (Nvidia A100 (80GB) GPU) (cold start)
30.180686712265015 seconds
40.408769369125366 seconds -
replicate: meta/codellama-13b:511fc67df70ee2d584375b6f1463d8d7d9ca7e6131e0f0a879d32d99bce17351
3.547264337539673 seconds
3.513972759246826 seconds -
together.ai: codellama/CodeLlama-13b-Python-hf
2.2159769535064697 seconds
2.4957988262176514 seconds
2.4270265102386475 seconds
2.522062301635742 seconds
2.4423890113830566 seconds -
together.ai: codellama/CodeLlama-7b-Python-hf
2.50488543510437 seconds
2.102806329727173 seconds
2.200589656829834 seconds
2.4698193073272705 seconds
1.9355247020721436 seconds