0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLM推論チップ市場の競争状況(2024年以降)

Last updated at Posted at 2025-02-04

この記事は、OpenAIのDeepResearchを使って作成されました。
もともと興味のあった推論チップの市場調査をしてもらいました。
以下は全てAIが生成した文章です。

はじめに

2024年以降、生成AIブームに伴い大規模言語モデル(LLM)向け推論チップの市場競争が激化しています。従来はNVIDIAのGPUが市場を支配してきましたが、近年は専用設計のASIC新興企業のアクセラレータが台頭し、LLM推論の性能・効率向上を競っています 1 2 本レポートでは主要プレイヤー(NVIDIA、Cerebras、Groq、Etched、AMD、その他)の技術的差異市場戦略コスト戦略将来ロードマップを比較し、最新の市場トレンドを整理します。


NVIDIA

NVIDIAは依然としてAIハードウェア市場の主導的地位にありますが、LLM推論需要の拡大に合わせて製品を強化しています。

  • 技術的な差異(アーキテクチャ・性能): 最新GPU「H100 (Hopper)」はTransformerエンジンや高帯域メモリを搭載し、従来世代比で数倍のLLM推論性能を発揮します 3 さらに2024年末に発表された次世代Blackwellアーキテクチャでは、2080億トランジスタを集積した2ダイ統合GPUを採用し、LLM推論を大幅強化しました 4 Blackwell搭載のクラスタ「GB200 NVL72」は、同数のH100クラスタと比べLLM推論性能30倍、コスト・消費電力25分の1を実現するとされています 5 6 各Blackwell GPUは最大1.4エクサFLOPSのAI性能・30TBの高速メモリを備え、10兆パラメータ級モデルのリアルタイム推論も視野に入れています 7 8 これらの尖端技術により、NVIDIAは柔軟性と高性能を両立し汎用GPUで広範なAIモデルに対応します。

  • 市場戦略(ターゲット・競争優位・顧客): NVIDIAはクラウドからエッジまで幅広い市場をターゲットとし、圧倒的なソフトウェアエコシステム(CUDAやTensorRTなど)と実績により競争優位を維持しています。主要クラウド事業者(AWS, Azure, Google等)は最新GPUの採用を表明しており 9 10 OpenAIやMetaといった先端AI企業も引き続きNVIDIAと協業しています 11 12 自社DGXシステムやスーパーコンピュータ向けソリューションを通じ、データセンター向け統合プラットフォーム(Grace CPUとのスーパーチップなど)も提供しています。豊富なソフトウェア資産と各業界リーダーとの連携が、市場戦略上の大きな強みです。

  • コスト・価格戦略: NVIDIAのハイエンドGPUは性能に見合った高価格帯で提供されます。H100は1基あたり数万ドル規模とされますが、その性能とエコシステムにより依然高い需要があります。Blackwell世代では性能あたりの効率改善(同規模H100比で推論コスト最大25分の1 5 を打ち出し、TCO(総保有コスト)の削減を強調しています。さらに「DGX Cloud」などサービス型の提供も進めており、大規模モデル開発企業向けに初期投資不要でNVIDIAインフラを利用できるようにしています 13 価格戦略は“絶対性能と包括的サポート”によるプレミアム路線ですが、スケール効果とサービス提供でコスト効率面も改善する方向です。

  • 将来のロードマップ: 2024年末にBlackwellアーキテクチャ(B100シリーズ)を発表し、次世代GPUの出荷を2025年前半から開始する計画です 14 BlackwellはTransformer性能のさらなる強化(新TensorコアやLLMコンパイラにより推論あたり消費エネルギー25倍効率化 15 が図られています。今後はBlackwell搭載システムの普及と、GPUとCPU・DPUを組み合わせた垂直統合プラットフォーム(Grace-Blackwellスーパーチップ等)の展開が市場をリードすると見られます 16 その先もNVIDIAは2年程度のサイクルでアーキテクチャ刷新を続ける見通しであり、ソフトウェア最適化(TensorRT-LLMコンパイラ等)やメモリ技術の進歩と合わせてLLM向け性能向上を継続する計画です 15


Cerebras Systems

CerebrasはウエハスケールAIプロセッサで知られるスタートアップで、近年はLLM推論分野にも本格参入しています。

  • 技術的な差異: Cerebrasのチップは直径30cmのシリコンウエハ全体を1つのプロセッサとした「WSE(Wafer-Scale Engine)」シリーズです。最新のWSE-32.6兆トランジスタ・900,000コアを1チップに集積し、オンチップに44GBのSRAMを備えます圧倒的コア数と21PB/秒もの内部帯域幅により、GPUクラスタを凌駕するスループットを発揮しますLLM推論においても、複数のWSE-3を相互接続することでNVIDIAのH100クラスタを上回る性能を実証しています 17 例えばMetaの70億パラメータモデル(Llama 3.2 70B)を用いた比較では、Cerebrasシステムは8枚のH100搭載ノードを凌駕し平均13.2倍高速で、モデルの密度(パラメータ数)も23倍超の大規模モデルまで実行可能と報告されています推論性能全体ではGPU比で308倍の優位性になるとの分析もありますこうした性能は大容量オンチップメモリ専用ハードウェアによる並列処理によるものです。ただし巨大モデル(例: 4,050億パラメータ級)の実行には多数のWSEを並列動作させる必要があり、メモリ容量がボトルネックになる場面も指摘されています

  • 市場戦略: Cerebrasは当初、研究機関や政府など超大規模モデルのトレーニングニーズに訴求してきましたが、現在は推論クラウドサービスにも注力していますUAEのG42社との提携で「Condor Galaxy」と呼ばれる大規模AIスーパーコンピュータ網(合計36エクサFLOPS規模)を構築中でその一部をクラウド経由で商用提供しています。Cerebrasは**「最高性能かつ低コストのAI推論基盤」として自社システムを位置づけ、モデルを訓練する資源を持たない多数の企業に対し、高性能な推論インフラをサービス提供する戦略です主要顧客には先述のG42(中東諸国の大型プロジェクト)や、米国エネルギー省傘下の研究所等が含まれます。競争優位性としては、GPUでは扱いにくい超大規模モデルを簡易にデプロイできる点や、スケールアウト時の効率(データ並列の容易さ)をアピールしています 18 また他社新興企業(GroqやSambaNova)のようにファブレス半導体+クラウドサービス**の垂直統合モデルも採用しつつあり、自社の専用ハードによるクラウドAPI提供を拡大しています

  • コスト・価格戦略: Cerebrasシステムは1ノード(CS-3サーバ)あたり約156万ドルといった超高額なハードウェアですが性能あたりのコスト優位性を強調しています。自社クラウドでの推論トークン単価は、同等性能のNVIDIA H100クラウドより約5.2倍低廉と試算されていますハードウェア購入ベースでも2.75倍の価格性能比の優位があるとされますもっとも、この優位は現在Cerebras側が積極的に価格を抑えて提供している面もあり、持続可能性は今後の量産効果にかかっています「大量のユーザに短期的な損失覚悟で使ってもらい、出荷量増加でコストを下げる」戦略で市場開拓を目指しており他の新興AIチップ各社と同様に初期の赤字覚悟のクラウド提供を行っている状況ですCerebrasのコスト戦略は、自社の製造コスト低減(大量生産と成熟ノード活用)とサービス提供によるスケールメリットで、長期的に利益性を確保する構想です。

  • 将来のロードマップ: Cerebrasは今後もウエハスケールのアプローチを継続すると見られます。現在のWSE-3は16nmプロセスですが、将来的なWSE-4ではメモリ技術の強化(例えばSRAMの3D積層など)による性能向上が検討されています創業者らは「4050億パラメータ級モデル(Llama 3.2 405B)の推論も恐れていない」と発言しており、現行システムでこれに挑戦しつつ、新世代での改善も視野に入れているようです事業面では、提携先G42と全9システムのCondor Galaxy構想を進めており、2025年までに大規模クラウドAIインフラを完成させる計画ですまた2023年に米国IPOを申請しており調達資金でR&Dと事業拡大を図る見通しです。こうしたロードマップから、Cerebrasは**「最大規模モデルへの対応力」**を武器に、市場での存在感を高めていくと予想されます。


Groq

Groqは元Google TPU開発者が創業したスタートアップで、LLM推論の低レイテンシ高速化に特化したユニークなチップアーキテクチャを提供しています。

  • 技術的な差異: Groqのチップは**「Language Processing Unit (LPU)」と呼ばれ、決定論的でシンプルなデザインが特徴です。1クロック毎に逐次命令を実行するストリーミング型アーキテクチャで、分岐予測やキャッシュを排し、コンパイル時に実行を定めることで大規模並列を実現していますこのため、LLMのようなシーケンシャル処理(単語列を線形に処理するタスク)で抜群の効率を発揮します実際、Groqは2024年2月に当時インターネット最速のチャットボットを披露し、ユーザ入力に対し瞬時に応答(ほぼリアルタイム生成)する性能を示しましたこれはGroq LPUの超低レイテンシ性能の一例です。ただし第1世代チップは2016年の設計開始後、2020年に14nmプロセスでテープアウトされたもので 19 単体のメモリ容量が限られ大規模モデル対応には多数チップを要します(推定では4050億パラメータモデルに約3,300基のLPUが必要) 20 とはいえ、線形処理に極振りした設計でスループットあたりのエネルギー効率はGPUの10倍**とされ特定条件下ではNVIDIAを凌駕するパフォーマンスを発揮します。

  • 市場戦略: Groqは当初ハードウェア販売を試みましたが、市場参入のハードルを下げるため推論APIサービスモデルへ転換しました 21 自社開発チップを用いたクラウドAPI「GroqWare」を提供し、開発者はAPIキーで超高速推論を利用できますこの垂直統合(シリコンからデータセンターまで自社所有)のモデルにより、中間マージンを排除しコスト競争力も確保できているといいます 22 23 特に「他社はGPUを買うため待ち行列や流通マージンが発生するが、当社は全スタックを所有し電力以外の中間コストがない」ため収益性も確保できると述べています 24 25 ターゲット市場はリアルタイム性が求められるLLM推論(例: 対話AI、エージェント)で、低遅延を武器に大規模サービスのバックエンド需要を狙っています 26 実際、Groq APIはMetaのLlamaなど公開大規模モデルを高速実行する用途で注目され 27 2024年にはLlama 70Bのチャットで高スループットを示すデモも行われました。Groq自身も大規模データセンターを運営し、信頼性を高める戦略です。

  • コスト・価格戦略: Groqのビジネスモデルはサブスクリプション型の推論トークン課金に近い形をとっています。具体的な料金は公表されていませんが、前述の垂直統合により「GPUのような80%ものハードウェアマージンも不要」だと強調しています 28 また自社サービス開始の背景には、初期顧客獲得に苦戦した事情もあり「Teslaが直販に切り替えたように、自前でやる」決断をしたと述べており 25 利益率よりもまず市場シェア獲得を優先している様子が伺えます。その結果、顧客は初期投資なしに高速推論を利用でき、Groq側は安定収入を得るモデルとなっています 29 電力コストが主要経費であるとも言及しており 30 エネルギー効率の高さがそのまま利益に直結する構造です。こうしたモデルは他のAIチップ新興企業(SambaNovaやCerebras)も追随しており、専用チップをクラウド経由で提供する流れの一翼を担っています 21

  • 将来のロードマップ: Groqは第2世代チップを開発中で、2024年末~2025年初頭に4nmプロセスでテープアウト予定と報じられています 31 新チップではプロセス世代飛躍により性能・容量が大幅に向上する見込みです。創業者のJonathan Ross氏はSamsungテキサス工場での製造に合意済みであることを明かしており、今後数年内にVersion 2を投入予定ですこれにより、現在は小規模モデルで威力を発揮するGroq LPUの適用範囲が拡大し、より大きなLLMやマルチモーダル処理にも対応していくと見られますまた既存のコンパイラ資産を活用し、将来的なモデルアーキテクチャ変化(例: 生成AI以外の線形処理タスク)にも対応可能としています事業面では、引き続き自社クラウド拡充と並行しつつ、将来的にはハードウェア直接販売にも復帰する可能性があります(現行APIは将来のハード提供へのリード獲得も目的と示唆 32 。8年越しで開発した技術が2024年に花開いたとされ**「まだ始まりに過ぎない」**という姿勢で今後も差別化を図る方針です。


Etched

Etchedは2022年創業のスタートアップで、特定用途(LLM変換器向け)に特化したASICでNVIDIAへの挑戦を掲げています。

  • 技術的な差異: Etchedの開発中チップ「Sohu」は変換器(Transformer)モデル専用に設計された世界初のASICです 33 汎用性を犠牲にし、Transformer以外のモデル(CNNやRNN等)は一切動作不可という極端な割り切りを行うことで、GPUを遥かに上回る性能を目指しています 34 35 同社によればSohuチップは**「1つのこと(Transformer推論)しかできないが、その分20倍速い」とされ、MetaのLlama 70Bモデルで500,000トークン/秒という驚異的スループットを達成すると主張しています 1 36 これは8基のSohuサーバで160基のH100 GPUクラスタに相当する性能であり 36 現行最高峰GPUをオーダー1桁凌駕するインパクトがあります 37 この高速化の鍵は、Transformer計算のパイプラインをハードウェアに焼き付け極大の並列バッチ処理を可能にする点です。Sohuは6スタックのHBM3(計144GB, 帯域4TB/s級)を搭載予定で、GPU(H100後継のH200やAMD MI300Xなど)の帯域より見劣りするものの極端な大規模バッチ処理でも性能低下しない設計により1チップで数千スレッドの同時推論をこなせます 38 これはChatGPTや生成AIAPIのように並行リクエストが多いサービス向きの特性です 38 一方で柔軟性はゼロのため、もし将来Transformer以外の新機軸AIモデル(例: SSMや新アーキテクチャ)が主流になれば「我々のチップは無用の長物になる」と自社も認めています 39 いわばTransformer継続を賭けた大胆な一本勝負**の技術戦略です。

  • 市場戦略: Etchedは大型言語モデルの推論需要が爆発的に伸びると見ており、そこで使われる基盤インフラを置き換えることを狙っています。同社は**「ハードウェアによる超知能実現」を掲げまずはクラウドデータセンターのGPU需要に食い込む戦略です。Sohuは「LLM推論におけるNVIDIA Blackwell (B200)すら凌駕する性能/コスト」をうたい 37 大手クラウドプロバイダやAIサービス提供企業を主要ターゲットとしています。現時点で製品が存在しないため顧客事例はありませんが、2024年に1.2億ドルのシリーズA資金を調達し 40 VC(Primary Venture Partners等)の支援を受けています。これは、チャットボットや生成AIのインフラコストが産業界で大きな課題となっている中、「推論コストを劇的に下げられるチップ」への期待を反映するものです 40 Etched自体はファブレス設計企業であり、おそらく製造は外部ファウンドリに委託し、完成チップまたはサーバ装置を販売するモデルになると見られます。特定用途ASICのためクラウド事業者との深い協業が鍵となりそうです。また競合他社(NVIDIA等)が対応困難なほどの大規模需要(大規模推論サービス)**に照準を合わせることで、ニッチではなく主流市場への浸透を目指しています。

  • コスト・価格戦略: 「1桁安価に」を標榜しており 37 性能だけでなく費用効率でも10倍以上の優位を目指しています 41 Sohuが160基のGPU置換という主張は、単に性能だけでなくその分の設備投資・運用コスト削減(例えばGPU160基分→8基のSohuサーバに圧縮)を意味します 36 具体的な価格帯は未定ですが、HBM3を多数搭載するなど部品コストは高いものの、用途特化によるシリコン面積削減量産効果でコストを抑える計画でしょう。Etched幹部は「AI推論コストを劇的に下げられる可能性が大きな資金調達の理由」と述べており 40 クラウド提供者にとっては電力効率・設備コスト面での大幅な節約が魅力となります。実際、「もしAIモデルの推論が20倍高速・安価になれば何が起きるか?」と問題提起し 42 現在数十秒かかる応答や高額な推論費用が劇的に改善される未来を示唆しています。そのため価格戦略としては既存GPU比での圧倒的な費用対効果を前面に押し出し、多少高価な初期価格設定であっても長期運用コストで優位という訴求になると考えられます。

  • 将来のロードマップ: Sohuチップは2024年中にテープアウト予定と推測され、2025年に初出荷を目指す段階です同社ブログでも「過去2年間Sohuの開発に注力し、今後それが世界を変える」と述べており 43 44 まずは初代製品の成功が最重要です。将来的にはモデルサイズの拡大や新技術への対応も課題となります。現状で1サーバあたりHBM3が約1.1TB搭載可能ですが、さらなる巨大モデルではメモリ不足となるため、より多くのHBMや外部メモリ拡張が求められるでしょう 45 また供給面ではHBMの確保もボトルネックになり得ると指摘されています 46 Etched自身も「賭けが当たれば世界が変わる」と述べており 47 まずはTransformerが今後も主流アーキテクチャであり続ける間に市場を席巻する狙いです。その後は製品ラインナップを増やす可能性もありますが、当面はSohu一本に資源を集中している状況です。


AMD

AMDはGPU市場でNVIDIAに次ぐ大手であり、近年はLLM向けにメモリ容量を強化した製品で差別化を図っています。

  • 技術的な差異: AMDの最新データセンターGPU**「MI300X」(CDNA3アーキテクチャ)は、LLM推論に焦点を当て大容量メモリと高帯域幅を備えたアクセラレータです。1基のMI300Xに192GBのHBM3**(8スタック)を搭載し、メモリ帯域は5.3TB/sに達します 48 48 これはNVIDIA H100の80~94GB・3.3~3.9TB/sを上回り、単一GPUでより大きなモデルを格納・実行できる点が特徴です 48 実際ベンチマークでは、MI300XはH100に比べ推論スループットが約2倍、レイテンシ大幅減と報告されており、特にモデル全体が1枚に収まる場合に強みを示します 48 49 例えば70億パラメータ級のLlama 3モデル(fp16精度)はMI300X 1枚で完結しますが、H100だと2枚に分散が必要になるケースがあり 50 このマルチGPU分割の手間とオーバーヘッドを省けるのがAMDの訴求点です 51 またMI300シリーズはGPUとCPUを統合したAPU版(MI300A)も展開しており、HPC用途とのシナジーがあります。AMDはXilinx買収によりFPGA系AIエンジンも保有しており、将来的にFPGAベース推論AI専用エンジン(XDNAアーキテクチャ)との融合も技術的オプションです。ただ現時点ではHBM大容量路線で大規模LLMに余裕を持って対応する戦略が際立っています 52

  • 市場戦略: AMDは長年CPU/GPUのセカンドソースとして存在感を示してきましたが、AI時代に向けてトップ企業との協業を強めています。特にMicrosoftはAMDと協力してGPU調達の多様化を図るとの報道があり、クラウド大手による採用が進みつつあります。AWSもMIシリーズGPUを搭載したインスタンス提供を予告するなど、ハイパースケーラーの採用が増加傾向です。AMDの競争優位は「より大きなモデルを扱える」「オープンなソフトウェア環境(ROCmなど)」といった点で、NVIDIA依存からの脱却を目指す顧客層にアピールしています。主要顧客はHPC分野(El Capitanスパコンなど)や一部クラウド事業者ですが、生成AI需要の高まりでAIスタートアップ各社への供給も模索しています。例えばメタ社は独自AI計算にAMD GPUを試験的に活用とも報じられました。AMD自身は「最も要求の厳しいAI/HPCワークロードに最適」 53 位置付け、NVIDIA一強状態の緩和を狙うマーケット戦略です。またソフトウェア面では主要フレームワーク(PyTorch等)との連携を強化し、移行の容易さを訴求しています。総じて、AMDは高性能GPUの代替品提供から出発しつつ、独自の強み(大メモリ等)でシェア拡大を図る方針です。

  • コスト・価格戦略: AMDは価格面で競争力ある提案を行う傾向があります。過去の製品では同等性能でNVIDIAより低価格に設定し市場浸透を図った例もあり、MI300Xでも性能あたりの価格優位を打ち出す可能性が高いです。特にH100が供給不足もありプレミアム価格化している中、AMDは比較的入手性と価格安定をアピールしています。さらに、前述のように1枚で済む=必要GPU枚数を削減できる点はユーザのコスト削減に直結します 51 例えば140億パラメータ級モデルを動かすのにH100二枚が必要なところをMI300X一枚で済ませれば、機材コスト・電力コストの節約になります。AMDはこの種のTCOメリットを前面に出し、潜在顧客に訴求しています 54 価格戦略として、絶対額での値下げ競争よりも**「少ないGPUで済む」「データ並列不要で簡素」**といった間接的コスト優位を強調し、市場での選好を高める狙いです。

  • 将来のロードマップ: AMDは2023~2024年にかけMI300シリーズを投入しましたが、その次のアーキテクチャも開発中です。具体名は未発表なものの、業界では仮称MI400世代の2025年後半以降の登場が予想されています。AMDは3D積層やChiplet技術で先行しており、将来はGPUコアの微細化とHBMのさらなる高速化、Infinity Fabricの強化に注力するとみられます 55 実際、NVIDIAの次世代(Blackwell)に対抗すべく、リーク情報ではMI300Xの強化版(MI325X)が検討されているとの指摘もあります 55 またCPU側では汎用プロセッサへのAIエンジン統合(Xilinx由来技術)が予定されており、データセンター全体でのAI処理効率向上を目指す戦略です。AMDのロードマップはNVIDIAにやや追随する形ながら、メモリ容量や先端パッケージ技術で先んじることで差別化を図り、2025年以降も継続してAI計算向けGPUを強化していくでしょう。


その他の競合企業・動向

  • SambaNova Systems: Reconfigurable Dataflow Unit(RDU)アーキテクチャを持つスタートアップです。2024年5月、独自チップSN40Lを用いたクラウドサービスでLlama 3 (8B)モデルの推論速度1000トークン/秒を達成し、同条件下でGroq(800トークン/秒)やNVIDIAを上回る記録を打ち立てました 2 56 RDUはコンパイラで各ニューラルネット層を最適化できる柔軟性を持ち、ソフト・ハード一体で性能を引き出す戦略です 57 58 SambaNovaもハードウェア+大規模言語モデル(Samba-1 1兆パラメータのMixture-of-Expertsモデル)を統合提供し、企業向けに「自社専用の高速LLMシステム」を売り込んでいます 59 コスト面でも「各企業に低コストでカスタムAIを届ける」がモットーとされ 60 高速化がそのままコスト削減(少ないハードでより多くのトークン生成)につながると強調します 61 SambaNovaは推論サービス「SambaNova Cloud」を展開し、ソフト資産を含めた包括ソリューションで差別化しています。今後もソフトウェア更新で既存ハードの性能を引き上げつつ、新世代チップ開発も進めると見られます。

  • Graphcore: 英国発のGraphcoreもIPUという独自アーキテクチャのAIチップを開発しましたが、近年はNVIDIAや新興ASIC勢との競争で苦戦しています 62 IPUは大量の小演算ユニットと内部メモリで高い並列性能を持ちますが、LLMの大規模化に伴うメモリ容量課題に直面しました。2021年~2022年に発表したBow IPUシステムでは訓練用途での実績はあるものの、推論専用市場では目立った存在感を示せていません。Graphcoreは研究者コミュニティで量子化やスパース化による効率化手法の情報発信を行うなど 63 64 ソフト面での巻き返しを図っていますが、商業面では資金難もうわさされ 62 現状ではトップ層の競合から一歩後退しています。

  • 大手クラウド事業者の自社チップ: 競争環境には、AWSやGoogleといったクラウド巨頭の自社開発AIチップも含まれます。AWS InferentiaはAmazonが設計した推論向けASICで、最新世代Inferentia2は少ない電力で高スループット推論を実現し、自社サービス(Bedrockなど)でLLM推論コストを削減しています。またGoogle TPU v4/v5は訓練のみならず推論でも利用され、Googleのサービス(例えばBard)を支える他、一部クラウド顧客にも提供されています。これら縦統合型企業は、自社用途に特化したチップでNVIDIA依存度を下げつつ、将来的には市場にも影響を与える可能性があります。ただし現時点では自社クラウド内限定の利用が中心で、本報告の主対象である汎用市場には直接は供給されていません。


競合比較サマリーテーブル(2024年以降)

各社のLLM推論向けチップについて、技術特徴・市場戦略・コスト戦略・ロードマップをまとめた比較表を以下に示します。

企業 技術的特徴・アーキテクチャ 市場戦略(ターゲット & 強み) コスト・価格戦略 将来ロードマップ
NVIDIA GPU (H100/Blackwell) – 汎用性の高いTensorコアGPU。最新Blackwellは2080億トランジスタ・TSMC 4Nプロセス。 4 ransformer Engine強化でリアルタイム推論10兆パラメータ級に対応 7 NVLinkやGrace CPU統合でスケーラビリティ追求。 幅広い市場を網羅 – クラウド大手(AWS, Azure等)やAI研究企業に採用 9 12 豊富なソフト資産(CUDA, TensorRT)と実績で依然トップ。DGXシステムやクラウドサービス提供でエコシステム支配 高価格プレミアム路線 – 性能リーダーゆえGPU単価は非常に高価。ただBlackwell世代で推論コスト25分の1改善を訴求 5 DGX Cloudなどサブスクリプション提供も拡充 13 高性能ゆえTCOでの価値をアピール。 次世代Blackwell開始 – 2024年末にBlackwell GPU発表、’25より展開。性能4倍・メモリ統合など大幅進化 65 その後も2年毎にアーキ刷新予想。CPUやDPUとの統合深化、ソフト最適化でAI計算を全面強化
Cerebras Wafer-Scale Engine (CS-3)ウエハ1枚=1チップの巨大ASIC。900kコア・44GBオンチップSRAMSwarmXで多チップ接続。LLM推論でGPUクラスタを凌駕する並列性能(70BモデルでGPU比8~22倍速。 大規模モデル特化超大規模LLM向けインフラを提供。G42と提携し数十エクサFLOPS級AIスーパーコンピュータ構築クラウド経由で高性能をサービス提供し、訓練リソース不足の企業を開拓 性能あたり低コスト – ハードは高額だがトークンあたり費用がGPU比5倍安とアピール初期は自社クラウドで低価格提供し市場浸透図る量産でコスト低減目指し、中長期で利益化へ。 WSE次世代とIPO – 次世代WSE-4でメモリ強化模索。05Bモデル対応も視野に入れるG42とCondor Galaxy全9基展開~’25IPOで資金調達し事業拡大・製造増強へ
Groq LPU (GroqChip)決定論型ストリーミングアーキテクチャ。14nm・キャッシュなし設計で超低レイテンシ実現線形計算に特化しLLM推論のリアルタイム応答を可能に第二世代で4nmへ飛躍予定 66 垂直統合サービス – ハード販売から転換しクラウドAPI提供。社データセンターでホスティングし、中間業者排除で効率化 67 リアルタイム対話など低遅延需要にフォーカス。 トークン課金型・直販 – 顧客はAPI利用で初期投資ゼロ。自社スタックで運営しGPU調達待ちやマージン無し 67 28 電力以外コスト圧縮し収益確保 30 価格は非公開だがGPUクラウドより低価格と主張。 4nmチップ開発中第2世代LPUを2024~25年にテープアウト予定 66 Samsungと提携し米国生産計画容量・性能拡大でより大規模モデル対応へ。サービス継続しつつ将来ハード販売再開の可能性。
Etched Transformer ASIC (Sohu)Transformer専用に論理回路を最適化したASIC。 34 *CNN等非対応**だがLLM推論でGPU比20倍速を謳う 1 6×HBM3搭載で500k token/s (Llama70B)達成目標 36 大規模バッチで性能劣化なし 38 クラウドAIインフラ狙い – GPUの汎用性に対し特定用途で凌駕する性能を武器にデータセンター市場を攻略。大型LLMサービス運営企業がターゲット。Transformer主流の限り幅広い生成AIサービスで置換を狙う。 劇的な費用削減「GPUより桁違いに安い」をアピール 37 160×H100相当を8×Sohuで置換=設備・電力費を大幅減 36 部品コストは高いが性能/コスト比で>10倍改善 37 資金力ある顧客にTCOメリットで売り込み。 初代テープアウトへ – 2024年に$1.2億調達し量産準備 40 2025年の製品化目標。将来は需要次第で派生製品もあり得るが、当面はTransformer一本に集中 39 新AIアーキ出現には対応課題。
AMD MI300X GPU192GB HBM3搭載GPUで大規模LLMに強み 48 5.3TB/s帯域 48 高メモリ性能で単一GPUでのモデル実行性向上。Chiplet設計・Infinity Fabricで拡張性確保。FP8対応等AI最適化も搭載。 セカンドソース&差別化 – クラウドやHPCでNVIDIA代替として採用拡大。特にメモリ容量重視顧客に訴求 50 Microsoftなど大手と協業強化。ソフト互換性整備し移行を促進。 コスト柔軟性 – 過去に競合比で価格優位設定の実績。1枚で済む→必要GPU減で顧客コスト減を強調 51 H100供給難の中、安定供給と適正価格をPR。TCOメリット訴求し市場シェア拡大狙う。 次世代開発中 – MI300シリーズ後継(仮称MI400)を準備中。プロセス微細化とHBM強化でNVIDIA新世代に対抗。CPUへのAIエンジン統合も計画中。2025年以降もメモリ最重視路線でLLM性能追求。

4 5 どを見ると、NVIDIAのBlackwell世代が大規模言語モデル推論向けに大きく性能向上し競争をリードしていることが分かります。一方、 1 37 示されるように、新興企業EtchedはTransformer専用ASICで桁違いの性能・効率を目指しています。またようにCerebrasはウエハスケールでGPUクラスタを凌駕する推論性能をアピールし、 2 ようにSambaNovaやGroqも独自アーキテクチャで高速化を競っています。表から、市場各社がそれぞれ異なるアプローチでLLM推論の性能と効率を追求している状況が読み取れます。


おわりに(最新トレンドの考察)

2024年以降のLLM推論チップ市場は、GPU一強体制から多様な競合がしのぎを削る局面へ移行しています。NVIDIAは新アーキテクチャBlackwellで性能飛躍とシステム統合を進め、ソフトウェアとエコシステムの強みで依然有力です。他方、CerebrasやGroq、SambaNovaといったスタートアップ勢は用途特化型の革新的アーキテクチャで差別化し、クラウドサービス提供などビジネスモデルの工夫も凝らしています 21 23 特にTransformer専用ASICのEtched登場は、「汎用 vs 特化」の構図を象徴するトレンドです 34 1 またメモリ容量・帯域がLLM性能の鍵と再認識されており、各社がオンチップSRAMの大容量化(Cerebras)やHBMスタック増加(AMD、Etched)で対応しています 48 さらに、ほぼ全ての新規プレイヤーが初期にはクラウド経由でのサービス提供を行い、市場参入障壁を下げつつ利用実績を積もうとする傾向があります 21 総じて、「より高速に、より安価に」LLMを動かすという共通目標に向けて多角的なアプローチが取られており、競争の結果として推論コストの低減と性能の飛躍が急速に進んでいます。今後も新世代GPUや専用ASICが次々登場し、LLM推論のための専用ハードウェア市場はさらなる進化を遂げるでしょう。

参考文献

  1. Etched scores $120M for an ASIC built for transformer models • The Register 2 3 4 5

  2. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat 2 3

  3. NVIDIA Blackwell vs NVIDIA Hopper: A Detailed Comparison

  4. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2 3

  5. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2 3 4

  6. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  7. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2

  8. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  9. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2

  10. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  11. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  12. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2

  13. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2

  14. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  15. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom 2

  16. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing | NVIDIA Newsroom

  17. Cerebras Trains Llama Models To Leap Over GPUs

  18. [PDF] Cerebras Wafer-Scale AI - Hot Chips 2024 -

  19. The Rise of Groq: Slow, then Fast - Chipstrat

  20. Groq’s Business Model, Part 1: Inference API

  21. Groq’s Business Model, Part 1: Inference API 2 3 4

  22. Groq’s Business Model, Part 1: Inference API

  23. Groq’s Business Model, Part 1: Inference API 2

  24. Groq’s Business Model, Part 1: Inference API

  25. Groq’s Business Model, Part 1: Inference API 2

  26. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat

  27. Groq’s Business Model, Part 1: Inference API

  28. Groq’s Business Model, Part 1: Inference API 2

  29. Groq’s Business Model, Part 1: Inference API

  30. Groq’s Business Model, Part 1: Inference API 2

  31. Groq’s Business Model, Part 1: Inference API

  32. Groq’s Business Model, Part 1: Inference API

  33. Etched scores $120M for an ASIC built for transformer models • The Register

  34. Etched scores $120M for an ASIC built for transformer models • The Register 2 3

  35. Etched scores $120M for an ASIC built for transformer models • The Register

  36. Etched scores $120M for an ASIC built for transformer models • The Register 2 3 4 5

  37. Etched is Making the Biggest Bet in AI 2 3 4 5 6

  38. Etched scores $120M for an ASIC built for transformer models • The Register 2 3

  39. Etched is Making the Biggest Bet in AI 2

  40. Etched scores $120M for an ASIC built for transformer models • The Register 2 3 4

  41. Meet Sohu, the fastest AI chip of all time. : r/LocalLLaMA - Reddit

  42. Etched is Making the Biggest Bet in AI

  43. Etched is Making the Biggest Bet in AI

  44. Etched is Making the Biggest Bet in AI

  45. Etched scores $120M for an ASIC built for transformer models • The Register

  46. Etched scores $120M for an ASIC built for transformer models • The Register

  47. Etched is Making the Biggest Bet in AI

  48. AMD GPU Performance for LLM Inference: A Deep Dive 2 3 4 5 6 7

  49. AMD GPU Performance for LLM Inference: A Deep Dive

  50. AMD GPU Performance for LLM Inference: A Deep Dive 2

  51. AMD GPU Performance for LLM Inference: A Deep Dive 2 3

  52. AMD GPU Performance for LLM Inference: A Deep Dive

  53. AMD Instinct™ MI300 Series Accelerators

  54. AMD GPU Performance for LLM Inference: A Deep Dive

  55. Etched scores $120M for an ASIC built for transformer models • The Register 2

  56. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat

  57. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat

  58. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat

  59. SambaNova breaks Llama 3 speed record with 1,000 tokens per second | VentureBeat

  60. SambaNova Scorches NVIDIA In New Speed Test

  61. SambaNova Scorches NVIDIA In New Speed Test

  62. Graphcore is struggling — what's gone wrong for the once 'NVIDIA ... 2

  63. TriForce, QuaRot, Mixture-of-Depths: Papers of the Month (Apr 2024)

  64. Sparser llamas run faster — speed up LLM inference with SparQ ...

  65. NVIDIA Blackwell Platform Sets New LLM Inference Records in ...

  66. Groq’s Business Model, Part 1: Inference API 2

  67. Groq’s Business Model, Part 1: Inference API 2

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?