OpenAI×Broadcomの推論専用チップ「Jalapeño」とGemini 3.5 Flash GA：推論コストとロックインの設計を見直すチェックリスト

Last updated at 2026-06-24Posted at 2026-06-24

2026年6月24日、OpenAIとBroadcomがLLM推論専用に設計した初の自社アクセラレータ「Jalapeño（ハラペーニョ）」を発表した。同じ週、Googleの「Gemini 3.5 Flash」は一般提供（GA）となり、公式の料金ページに input $1.50 / output $9.00（百万トークンあたり）という具体的な価格で並んだ。

別々のニュースに見えるが、どちらも「推論をどこで・いくらで動かすか」というレイヤーの話だ。モデルの賢さではなく、推論の単価とハードウェアが競争軸になりつつある。この記事では、アプリ側のエンジニア／意思決定者が今週確認しておくべきことを、一次情報の事実と実務解釈に分けて整理する。

結論

確認項目	ニュースの含意	直すこと
推論ハードの分岐	プロバイダが推論専用シリコンを自前で持ち始めた	ハードを前提にせず、推論コストを「単価×トークン量」で測る計装を入れる
Flash級の単価	準フラッグシップ級の性能がFlash価格帯で買える	「品質で全部上位モデル」をやめ、用途ごとにモデルを割り当てる
ロックイン	価格も性能特性もプロバイダ依存が強まる	プロバイダをルーター層の裏に隠し、差し替え可能にしておく

OpenAI×Broadcom「Jalapeño」：推論専用に作り直されたチップ

確認できる事実

OpenAIとBroadcomは2026年6月24日、LLM推論向けに設計した初の「Intelligence Processor（インテリジェンス・プロセッサ）」Jalapeñoを発表した。既存のAIアクセラレータを転用したものではなく、推論向けにゼロから設計したと位置づけられている。
設計から製造のテープアウトまで約9か月。OpenAI自身のモデルも設計の一部を加速させたとされ、高性能半導体としては極めて速い開発サイクルだと説明されている。
大規模展開にはBroadcomのTomahawk（Ethernet系）ネットワーキングシリコンを使い、Celesticaがボード／ラック／システムの量産化を担う。
初期展開は2026年末を目標としている。現時点では「テスト中で、初期結果として現行の最先端品より大幅に優れたperformance-per-watt（電力あたり性能）を示している」という段階。

Richard Ho（OpenAI ハードウェアプログラム責任者）:
原文: "Jalapeño was designed from the ground up for LLM inference using detailed insights from our close collaboration with OpenAI researchers."
日本語訳: 「Jalapeñoは、OpenAIの研究者との緊密な協働から得た詳細な知見を使い、LLM推論のためにゼロから設計された」

Greg Brockman（OpenAI 社長・共同創業者）:
原文: "Jalapeño is part of our long-term full-stack infrastructure strategy to make compute more abundant..."
日本語訳: 「Jalapeñoは、計算資源をより潤沢にするための長期的なフルスタック・インフラ戦略の一部だ」

実務解釈

アプリ側のエンジニアがこのチップを直接触ることは当面ない。重要なのは「推論レイヤーがプロバイダ固有の最適化に向かっている」という方向性だ。性能・電力効率・価格が、汎用GPUの世界から各社の専用ハードに分かれていく。

含意は2つ。第一に、推論の単価は今後プロバイダ／世代ごとに非連続に動く可能性がある。価格は下がる方向に動くことが多いが、前提にはできない。第二に、自分のコストを「どのモデルを使ったか」ではなく「入力／出力トークン×単価」で常時測れるようにしておくと、価格改定やモデル切り替えの判断が速くなる。チップの良し悪しではなく、自分の計装の有無がボトルネックになる。

Gemini 3.5 Flash の GA と「準Pro級をFlash価格で」

確認できる事実

Gemini 3.5 Flash は一般提供（GA）。Googleの公式料金ページ（ai.google.dev）に、有料ティアで input $1.50 / output $9.00（百万トークンあたり、出力は思考トークンを含む）と明記されている。
マルチモーダル対応で、Googleはコーディングやエージェント的な並列実行に最適化したFlash級モデルとして位置づけている（「準Pro級の性能をFlashのコストと速度で」という打ち出し）。ベンチマーク上の優劣はGoogle側の主張として扱うべき。
同じ「3.5」世代でも、Gemini 3.5 Pro は本記事執筆時点で公式の料金ページに掲載されていない（GAは保留中とみられる）。

実務解釈

ここで効いてくるのが「モデルの割り当て」だ。要約・分類・抽出・定型整形といったタスクの多くは、最上位モデルである必要がない。Flash価格帯で準フラッグシップ級の品質が手に入るなら、上位モデルは「本当に推論深度が要る経路」だけに残し、残りをFlash級に寄せると、品質をほぼ落とさずにコストが大きく下がるケースが多い。

ただし出力の $9.00/百万トークンには思考トークンが含まれる点に注意。エージェントのように出力（=思考）が膨らむ用途では、入力単価より出力単価が効く。コスト試算は「入力だけ」で見積もらないこと。

実装チェックリスト

コストを測る

全LLM呼び出しで model / input_tokens / output_tokens / 概算コストをログに残す
コストを「入力」と「出力（思考含む）」に分けて集計する（エージェント用途は特に）
月次でモデル別・機能別のトークン量と単価を棚卸しし、改定があれば即反映できるようにする

モデルを割り当てる

要約・分類・抽出・整形など「深い推論が要らない」経路を洗い出し、Flash級に寄せる
上位モデルは「精度が要件で実証済みの経路」だけに限定する
切り替え前後でゴールデンセットを流し、品質が許容範囲か数値で確認する

ロックインに備える

プロバイダ／モデル名をアプリ本体に直書きせず、ルーター層（薄い抽象）の裏に置く
プロバイダ固有の機能（特定の出力形式・ツール仕様）への依存箇所を洗い出しておく
1社の価格改定・モデル廃止が来ても、設定変更だけで代替に振れる状態を保つ

失敗パターン

パターン1：入力単価だけでコストを見積もる → エージェントや長い思考を使う経路は出力（思考トークン）が支配的になりがち。試算は入力・出力を分け、出力側を厚めに見る。

パターン2：ハードやチップの話に気を取られる → アプリ側が今日できるのはチップ選定ではなく、自分の推論コストを測る計装とモデル割り当て。手元の計装がないまま「次のチップで安くなる」と待つのが一番もったいない。

パターン3：最新・最上位モデルを全経路に適用 → 品質は頭打ちでもコストだけ膨らむ。タスク別に必要な推論深度を見極め、Flash級と上位を使い分ける。

パターン4：プロバイダ名をコードに直書き → 価格改定やモデル廃止のたびに改修が必要になる。ルーター層に逃がし、差し替えを設定で済むようにする。

参考リンク

この記事を書いた人✏️@YushiYamamoto
ITPRODX.com代表 / AIアーキテクト
Next.js / TypeScript / n8nを活用した自律型アーキテクチャ設計を専門としています。
日々の自動化の検証結果や、ビジネス側の視点（ROI等）に関するより深い考察は、以下の公式サイトおよびnoteで発信しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up