OpenAIは2024/08/06にgpt4の値段を値下げした。特に前回の値下げ(24年5月)から3か月しか経ってないのに半額になっている。
最新のgpt4oモデルもモデルサイズの大きさはgpt4と(多分)変わらないのに何故値段を下げれているのか理由を考察してみる。考察の根拠は特にない。
推論精度をFP16から下げる
Llama2(2023/07)あたりでオープンソースの70BのLLMモデルが公開された影響でFP8(単精度)とかFP4(半精度)の推論精度を下げた低精度のLLMの推論の研究が進んだ。FP4推論だとFP16推論よりも一般にはLLM推論性能が低下するが、GPUの使用メモリが下げられるのでコストを抑えられる。
ただし、これらが議論されたのはいずれも2023年であり、2024年において新しい情報はない。
つまり直近の24年5月と24年8月の値下げの理由はない。
BitNet b1.58
2024年03月付近で発表された技術。
実質的にはFP1推論(bit1)、FP2推論(bit1.58)に近いものであるが、現在は絵にかいた餅である。
理論的には加減算のみで行列掛け算を計算できるため、将来のLLMの大幅なコストダウンになりうるがそのためには大量の加算器のみのチップが必要で実用化には遠い。
GPU性能の向上
gpt4発表以前のGPUはA100(2021年6月)、H100(2023年3月)が挙げられる。
ここ1年ほどではH200の発表が2023年11月(出荷2024年3月?)、B100の発表が2024年3月(出荷多分まだ)が挙げられる。
B100はおそらくまだ量産化されたものは出荷されておらず、gpt4の値下げ理由にはならないと思われる。また、仮にこれが出荷されたとしてもこのH200やらB100はLLMの学習用に回され推論用に用いられるGPUはおそらくもっと安価なものだろう。
GPU価格低下
昨今のインフレを鑑みてもGPU価格が低下しているという事実はないと思われる。
むしろ様々な企業が生成AIに手を出し、GPU需要は確実に高まっている。
無論、2025年以降にAIバブルが弾けGPU需要が下がらない保証はしないが。
Google ColaboratoryのA100コスト
幾つかのサイトからGoogle Colabの当時のA100コストを拾ってみた。
Colab Proの価格が(500コンピューティング ユニットあたり)¥5,243(22年09月時点)から¥5,767(24年08月現在)になっているのでGoogle Colab上だとのA100コストはほぼ変わってない。
このためA100コストがここ2年ほどで劇的に下がっているという事実はない。
2022年09月…A100: 13.08, V100: 5.36, T4: 1.96
2023年10月…A100: 13.06
2024年04月…A100: 11.77, V100: 4.82, T4: 1.84
2024年06月…A100: 11.77
GPU購入費の償却
gpt4の価格がGPU原価+ランニングコストでgpt4でのGPU購入費を償却出来たから、ランニングコストだけになって価格を削減できた説。
下記記事によればOpenAIはA100搭載サーバーをMicrosoftから借りており、これによれば自前でGPUを購入していない。
GPU買い替えによるコストダウン
H100の買い替えによって余ったA100をgpt4の運用に使えるようになり消費電力当たりの性能が改善したという説。
直近の値下げは2024年3月のH200によってH100が余ったという理屈。
同様に近い将来B100への買い替えによって余ったH100がgpt4の運用コストを更に下げるかもしれない。
しかし、前述記事のようにGPUを自前で購入してないのならGPU買い替えのコストダウンは否定的になる。
Better technology. They have been rapidly deploying newer, more efficient GPUs as quickly as they can get them. These newer GPUs result in much greater throughput, particularly for inference tasks. The effect of this is that newer models can pump out more tokens in less time using less electricity. So the models can be cheaper.
(より優れたテクノロジー。彼らは、より新しく、より効率的なGPUを、入手できる限り迅速に導入してきた。これらの新しいGPUは、特に推論タスクのスループットを大幅に向上させる。その結果、より少ない電力で、より多くのトークンをより短時間で生成できるようになった。つまり、このモデルはより安くなるのだ。)
参考にGPT4の学習に1億ドル掛かったとある。
これだけ開発費があるならGPU自前でもある程度、購入できそうだが。
OpenAI has delivered a series of impressive advances in AI that works with language in recent years by taking existing machine-learning algorithms and scaling them up to previously unimagined size. GPT-4, the latest of those projects, was likely trained using trillions of words of text and many thousands of powerful computer chips. The process cost over $100 million.
電気代高騰の安定化
高騰した電気代が安定したからという理由を考えてみたが、下記の資料によれば電気代は2022年6月~2023年1月までは高騰しているが以降は安定しているように見える。gpt4の発表が2023年3月とすると電気代の安定化によってランニングコストが下がったという推理は合ってない。
ただし、高騰リスクを見て初期gpt4を高い目に設定していた可能性は僅かにある。
安価な推論専用チップ
googleのTPUやAnthropicのInferentiaのようにOpenAIも何らかの推論専用チップを開発しているのではないか?という説。しかし、以下記事によればOpenAIがNVIDIA GPUを脱却した事実はない。
一方で、OpenAIの動きはNVIDIAに影響を与える可能性がある。現在、OpenAIはMicrosoftのAIデータセンターに設置されたNVIDIAのGPUを使用しているが、独自のAIチップを開発することで、この依存関係が変わる可能性がある。
…
ただし、The Informationの報道によると、OpenAIのチップ設計はまだ開始されておらず、早くても2026年の生産開始が見込まれているという。半導体開発の複雑さと、開発にかかる時間を鑑みれば無理のないスケジュールだ。
以下より引用。
AnthropicはClaude3.5を作っているところで初期gpt4よりコストは安価である。
Anthropicは安価な推論専用チップを使用しているのかもしれない。
米Amazon.com(アマゾン・ドット・コム)は2023年9月、アンソロピックに最大40億ドル(約5800億円)を投資すると発表。戦略的提携を結び、アンソロピックはAWSを主要クラウドとして利用する。
AWSが提供するAIの機械学習処理向けアクセラレーターチップ「Trainium」と推論処理向けアクセラレーターチップ「Inferentia」を使用して、アンソロピックがAIモデルの構築やトレーニング、デプロイを行う。AIチップの開発でも協業するという内容だ。
以下より引用。
競合他社に対するダンピング
前述したgoogleのGeminiやAnthropicのClaudeに打ち勝つために赤字覚悟でダンピング(不当に安い価格で商品やサービスを提供すること)してるのではないかという説。
OpenAIの赤字のニュースから思いつくが、競争が値下げ圧力にはなるだろうが、ランニングコスト以下であるのは流石に穿ちすぎではと思う。
まあ、確かにGemini 1.5 Pro(24年5月)やClaude 3.5 Sonnet(24年6月)の価格をちょうど下回るように値下げされているのは事実なのだが。
model | 1M input tokens | 1M output tokens |
---|---|---|
Gemini 1.5 Pro | $3.50(128k以下) | $10.50(128k以下) |
Claude 3.5 Sonnet | $3.00 | $15.00 |
gpt-4o-2024-05-13 | $5.00 | $15.00 |
gpt-4o-2024-08-06 | $2.50 | $10.00 |
OpenAI企業価値
OpenAIの企業価値は860億ドル(13兆円)と言われている。2023/04は企業価値は270億ドル相当で一部株の売却した。
またMicrosoftがOpenAIに投資した額130億ドルと言われている。
一方でOpenAIの収益は2024年に50億ドル(約7700億円)の赤字と見積もられる。
これは年間収益は35億ドル~45億ドル、支出は約85億ドルと見積もった場合の結果であるが、chatgptの運用費に限れば40億ドルであり、年間収益とトントンである。
また、開発費が指数関数的に上昇するなら直近の開発費の赤字は将来の開発費のおおきさに比べたら大したことは無い。
OpenAIの収益は赤字だが企業価値が指数的に向上していくなら収益が赤字でもペイできるのかと思った。また、サーバ代としてMicrosoftにお金が流れるならMicrosoftは投資額を回収するためにOpenAIの赤字をむしろ許容するのではないかと思った。
Batch API
即応性が不要で大量のデータを処理したい場合はBatch APIを使うと、回答にかかる時間は遅いものの更に安いコストで使用できるらしい。
とはいえBatch APIの価格も2024/08/06にて下がっているのでコスト減少はこれが理由ではない。
context_width(context_window)の増大
gpt4-turbo(2023年11月)でgpt4初期で元々8kだったcontext_widthは128kまで大きくなった。
これはClaude 3(2024年3月)ではcontext windowが200kまで広げたのと同様であると思われる。このcontext_widthによって長い文章を入力する事が出来るようになった。
しかし、当初のgpt4-turboはChatGPT Plusの有料会員のみであった。無料会員が使えるようになったのは2024年3月以降かと思われる。なお、直後にgpt4o(2024年5月)が出てgpt4-turboって結局何だったの?という思いがある。
この導入によりコストが下がっているかはよく分からないが、batch_sizeを増やした推論のように推論速度が効率化しているのかもしれない。
懐疑的に見るならgpt4-turbo(2023年11月)と23年11月の値下げは関連するかもしれないが、直近の24年5月と24年8月の値下げとは間隔が空きすぎている。
tokenizerの改良
一方でCommand R+やLlama3に見られるLLMのvocab_sizeを増やした改良が見られるのがgpt4oだと自分は理解している。(vocabは100kから200kに増えている)
このtokenizerの改良によって同じ文章量当たりのtoken長の削減は見られるものの、この場合token当たりのコストは全く変化しないため、gpt4oによってコストが削減出来ている理由は不可解に思える。
2024年04月04日…CohereForAI Command R+(255k)
2024年04月19日…Meta Llama3(32k→128k)
2024年05月13日…OpenAI GPT-4o(100k→200k)
Gemini 1.5 Proのcontext_window
Gemini 1.5 Proはcontext_windowが1Mある。
gpt4の128kやClaude3の200kよりさらに大きい。
一方でcontext_windowが128k以下は安いがそれ以上になると2倍料金が高くなる。
context_windowを128kより延ばす場合、batch_sizeを下げざるを得ず推論効率が悪化するのだろうか?
それとも後述する投機的デコーディングの影響で安くなっているだけなのだろうか。
投機的デコーディング
恐らく小型モデルであるgpt4o-miniとgpt4oを両方使用すれば投機的デコーディングは実行できるのではないか?
直近(24/08/06)の値下げを聞いて思い浮かんだ理由はこれだった。
例えば「Llama-3-ELYZA-JP-70B」ではこの投機的デコーディングにより1.63倍に高速化している。
蒸留モデル(distillation)
MicrosoftのPhi3(2024年4月)とかGoogleのGemma 2(2024年6月)とかは別のもっと大きな言語モデルの出力を教師データとして使って小型LLMを学習する。
このようにGPT4も蒸留モデル故に推論コストが下がったのではないかという予想。
とはいえGPT4oなどが蒸留モデルという証拠はないのだが、「GPT4o自体がGPT5(未公開)の蒸留モデルなのではないか」という予想を述べてる人もいた。
gpt4o mini コスト比較
gpt4o miniのコストは値下げ後のgpt4oのコストの1/16倍のコストである。
model | 1M input tokens | 1M output tokens |
---|---|---|
gpt-4o-2024-05-13 | $5.00 | $15.00 |
gpt-4o-2024-08-06 | $2.50 | $10.00 |
gpt-4o-mini-2024-07-18 | $0.150 | $0.600 |
このコスト差のあるモデルを探すとかつてのCurieが上位モデルのdavinciと比べコスト1/10である。(なお表は1K tokenあたりであるのに注意)
また、CurieとBabbageが4倍差あって、BabbageとAdaは1.25倍差でほぼ差がない。
model | 1K input tokens | 1K output tokens |
---|---|---|
text-davinci-003 | $0.02 | $12 |
Curie | $0.002 | $1.28 |
Babbage | $0.0005 | $0.32 |
Ada | $0.0004 | $0.25 |
text-embedding-ada-002モデルの出力が1536次元でCurieとのコスト比率を勘案するとCurieはGPT3の6.7Bのモデルなのかと思った。
またLlama2の運用コストを検索すると7Bモデルのコストは70Bモデルの1/10だった。
gpt4o miniの1M tokenあたりのコストはLlama2の13Bモデルに近い。
これらを勘案するとgpt4o miniは13B~20B前後の小型LLMなのではと思った。
たった2年で99%コスト削減
2022年のtext-davinci-003(GPT3:175B)から2024年GPT-4o miniで推論コストは99%削減されたとある。
GPT-4o miniが小型モデルだからという理由もあるのだろうが、それ以外にも様々なコストの削減要因があるのだろう。
Over the past few years, we’ve witnessed remarkable advancements in AI intelligence paired with substantial reductions in cost. For example, the cost per token of GPT-4o mini has dropped by 99% since text-davinci-003, a less capable model introduced in 2022. We’re committed to continuing this trajectory of driving down costs while enhancing model capabilities.
まとめ
gpt4のコストが下がっている理由をいろいろ考えた。
個人的には推論精度を下げる、GPU買い替えによるコストダウン、context_widthの増大、投機的デコーディングあたりが理由なのではないかと思った。