背景
LLMを使う時に、いくつか方法がありますが、
- オンプレでモデルをホスト
- クラウドVMを立ててホスト
- オンラインのLLM APIを使う
1に関しては、個人ならGPUを買えばできるけど、今のGPUもそこまで安くないので、使えるまでの投資コストが割と高いかもしれません。企業なら冗長化やメンテナンスコストを考えると、特別な理由がない限りオンプレを選択しないでしょう。
となると、残りの2と3は、LLMを導入する時に良く比較する選択肢ですが、実際にその差がどれぐらいあるのか、特に生成のスピードと価格について、適当に調べながら共有してみます。
比較対象
比較対象ですが、オープンソースのSOTAモデルは決してOpus 4.7などと比べるほどではないので、今回の対象は
LLM API
Gemini 3 Flash Preview(思考あり)
Claude 4.5 Sonnet(思考あり)
オープンソース:
Gemma 4 31B(思考あり)
Qwen3.6 27B(思考あり)
この4つを選ぶ理由は賢さがそれほど大きな差がないからです。
比較結果
実行環境やインプット内容によってスピードが大きく変動する可能性もあるけど、その可能性も考慮して、各モデルのスピードと価格を見ていきます。
LLM API
Gemini 3 Flash Preview
トークン生成スピード:170.2 / s
1Mトークン生成までかかる時間:1.63 時間
価格:
インプット:USD 0.5 / 1M トークン
アウトプット:USD 3 / 1M トークン
Claude 4.5 Sonnet
トークン生成スピード:48.3 / s
1Mトークン生成までかかる時間:5.75 時間
価格:
インプット:USD 3.75 / 1M トークン
アウトプット:USD 15 / 1M トークン
オープンソース
オープンソースにはAPI価格がないけど、価格を計算するために、量子化なしの場合、最低でもAWSのg5.12xlargeでないと実行できないので、それをベースに価格を計算します。(オンデマンドUSD8.22/時間、RIは最低USD4.03/時間)
Gemma 4 31B
トークン生成スピード:35.2 / s
1Mトークン生成までかかる時間:7.89 時間
1Mトークン生成までかかるコスト:
オンデマンド:USD 64.91
RI:USD 31.81
Qwen3.6 27B
トークン生成スピード:61.4 / s
1Mトークン生成までかかる時間:4.52 時間
1Mトークン生成までかかるコスト:
オンデマンド:USD 37.22
RI:USD 18.24
サマリー
この結果を見ると、オープンソースは早くないし・価格も優位性がないことが確認できました。もちろんAWSのEC2が高いけど、Runpodとかは安くてもAWSの3年間RIぐらいの価格なので、頑張ってもClaude 4.5 Sonnetと同額だけになります。
となると、セルフホストLLMのメリットは何でしょうか。おそらくセキュリティや領域特化モデルが使えるぐらいだけでしょう。
