0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

セルフホストLLMとオンラインLLM APIの価格差とスピード

0
Posted at

背景

LLMを使う時に、いくつか方法がありますが、

  1. オンプレでモデルをホスト
  2. クラウドVMを立ててホスト
  3. オンラインのLLM APIを使う

1に関しては、個人ならGPUを買えばできるけど、今のGPUもそこまで安くないので、使えるまでの投資コストが割と高いかもしれません。企業なら冗長化やメンテナンスコストを考えると、特別な理由がない限りオンプレを選択しないでしょう。

となると、残りの2と3は、LLMを導入する時に良く比較する選択肢ですが、実際にその差がどれぐらいあるのか、特に生成のスピードと価格について、適当に調べながら共有してみます。

比較対象

比較対象ですが、オープンソースのSOTAモデルは決してOpus 4.7などと比べるほどではないので、今回の対象は

LLM API
 Gemini 3 Flash Preview(思考あり)
 Claude 4.5 Sonnet(思考あり)

オープンソース:
 Gemma 4 31B(思考あり)
 Qwen3.6 27B(思考あり)

この4つを選ぶ理由は賢さがそれほど大きな差がないからです。

Artificial Analysis Intelligence Index.png

比較結果

実行環境やインプット内容によってスピードが大きく変動する可能性もあるけど、その可能性も考慮して、各モデルのスピードと価格を見ていきます。

LLM API

Gemini 3 Flash Preview

トークン生成スピード:170.2 / s
1Mトークン生成までかかる時間:1.63 時間

価格:
 インプット:USD 0.5 / 1M トークン
 アウトプット:USD 3 / 1M トークン

Claude 4.5 Sonnet

トークン生成スピード:48.3 / s
1Mトークン生成までかかる時間:5.75 時間

価格:
 インプット:USD 3.75 / 1M トークン
 アウトプット:USD 15 / 1M トークン

オープンソース

オープンソースにはAPI価格がないけど、価格を計算するために、量子化なしの場合、最低でもAWSのg5.12xlargeでないと実行できないので、それをベースに価格を計算します。(オンデマンドUSD8.22/時間、RIは最低USD4.03/時間)

Gemma 4 31B

トークン生成スピード:35.2 / s
1Mトークン生成までかかる時間:7.89 時間

1Mトークン生成までかかるコスト:
 オンデマンド:USD 64.91
 RI:USD 31.81

Qwen3.6 27B

トークン生成スピード:61.4 / s
1Mトークン生成までかかる時間:4.52 時間

1Mトークン生成までかかるコスト:
 オンデマンド:USD 37.22
 RI:USD 18.24

サマリー

この結果を見ると、オープンソースは早くないし・価格も優位性がないことが確認できました。もちろんAWSのEC2が高いけど、Runpodとかは安くてもAWSの3年間RIぐらいの価格なので、頑張ってもClaude 4.5 Sonnetと同額だけになります。

となると、セルフホストLLMのメリットは何でしょうか。おそらくセキュリティや領域特化モデルが使えるぐらいだけでしょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?