マスク Grok 4 多次元飛躍:推論×多エージェント×音声、300 ドルでAIの収益限界を模索?
(Grok 4 の発表ライブ配信の抜粋)
北京時間7月10日午前11時、マスクはXプラットフォームでGrok 4の発表ライブ配信を開始した。デモは60分近く続き、オンライン視聴者数は一時150万人を突破。コメント欄には「
最も高価なAI、本当に価値はあるのか?
これは大規模モデルに関する講演ではなく、稼働中の「AI工場」の試運転だった。
Grok 4は、会話だけでなく、既に以下の機能を備えています:
博士号試験で満点を取得し、Humanity’s Last Examで25.4%の正解率を達成し、GeminiとGPTを凌駕;
「AI学習グループ」を構成し、多エージェント協働で複雑な推論を完了。Heavyモードの正解率は44.4%に急上昇;
音声で人生について語り、オペラを歌う。遅延を半分に削減し、5種類の声質を自然に切り替える;
自動販売機の運営、市場予測、ビデオゲームの生成など、タスクの引き受けを開始;
同時に現実実験をスタート:月額300ドルのサブスクリプションサービス「SuperGrok Heavy」で、AIの収益化限界に挑む。
シリコンバレーの権威あるテクノロジーメディアTechCrunchはマスクの言葉を引用:
すべての分野で、Grok 4は博士よりも優れている——例外なし。
このラウンドで、xAIは「大モデルパラメーター」ではなく、「多次元飛躍」の能力の閉ループを提示:推論能力の飛躍 × 多エージェント協業 × 音声進化 × ツール呼び出し × ビジネス価格探査
次に、この発表会を3つのセクションで詳細に分析します:
現場レポート:ライブ配信中の6つの注目ポイントを分解;
技術 × ビジネス:多次元飛躍能力の背後にあるエンジニアリングメカニズムと計算リソースの支援;
トレンドの示唆:Grokモデルが中国AI企業、エージェントプラットフォーム、ビジネスモデルに与える比較可能な示唆。
Grok 4 はモデルであり、実際に使えるツールです;この発表は、それが何ができるのかを初めて示したものです。
第1章|推論の覚醒:Grok 4 が博士を凌駕する理由
1、暗記ではなく理解:Grok が「自分で考える」を開始
今回は、マスクはスローガンを叫ぶのではなく、極めて説得力のある成績表を示しました。
このライブ配信で、Grok 4 は初めて上図の「Humanity’s Last Exam(HLE)」に公開参加しました。これは専門家が設計した、ほぼすべての大学学科を網羅する超難問問題集です。ネット上の解答や過去問の訓練はなく、モデルの「理解力」と「推論能力」を真に試すテストです。
結果は: Grok 4 のツール非使用版は正答率25.4%を達成し、Gemini 2.5 ProとOpenAIの最新モデルを大幅に上回った。
ツール機能を有効化した場合、Grok 4 Heavyの正答率は44.4%に急上昇し、競合製品を18ポイント引き離した。
これは単なる「パラメーター競争」ではなく、能力の本質的な変化です:モデルは単に答えを選ぶだけでなく、なぜその答えなのかを説明できるようになったのです。
デモでは、Grok 4 に範疇論における「自然変換」に関する数学問題の解答を求めました。モデルは正しい答えを導き出すだけでなく、完全な推論経路を示し、「なぜこの定義からその結論が導き出せるのか」を説明しました。
このような推論は、以前は博士課程の学生が少しずつ分析する必要がありましたが、現在ではモデルが独立して完了できます。
現場の技術責任者は次のように補足しました:
「私たちはモデルに問題を記憶させるのではなく、思考の方法を学ばせているのです。」
過去の大型モデルは、大量のデータを予測システムに圧縮したようなもので、ユーザーが求める回答を「推測」するものでした。一方、Grok 4のアップグレードは、真に重要なことを実現しました:論理に従って一歩ずつ「考える」ことを始めたのです。
この点は、別のベンチマークでも検証されています:Grok 4はARC-AGI-2の図形推論テストで16.2%の正答率を達成し、商用モデルの新記録を樹立しました。このテストは言語モデルを「詰ませる」ように設計されており、経験量に依存して正解を導き出せないようにしています。
- 答えを選ぶのではなく、思考プロセスを説明:AIが「論理を説明する」ことを学び始めた
Grok 4は正解するだけでなく、上記図のような複数の分野で一貫性を維持しています。言語学、化学、物理学から哲学、工学まで、チームメンバーは次のようにまとめました:
「特定の分野で優れている人はいても、すべての分野でこのレベルに達する人はいない。Grok 4はそれを実現した。」
この能力の根本的な理由は、発表会で初めて公開されました:xAIはトレーニング中の推論関連のプロセスを大幅に強化し、過去の単語予測から、モデルが「推論」する能力を強化するトレーニングへと移行しました。
これには、誤りの原因を繰り返し追及し、訂正メカニズムを強化するプロセスが含まれ、モデルを「選択肢の判断」から「思考の展開」へと変革しました。
これは、Grok 4 が重要な壁を突破したことを意味します:
それは単に「質問に答える」だけでなく、「答えを説明する」ことができるようになったのです。
マスクの態度は明確です:
「それはすでに多くの大学院生よりも賢い。真の問題は、それが常識を持っているかどうかではなく、現実の質問でそれを検証する準備が整っているかどうかだ。」
これがGrok 4がもたらす最初の次元飛躍:推論の覚醒です。
それは単に畳み込みで賢くなっただけでなく、新しい問題に直面した際にも方向性を持つようになりました。これは後の節で展開される伏線でもあります——AIが「理解」だけでなく「理解+問題解決+誤り検出」をできるようになった時、現実のタスクを遂行できるのでしょうか?
第2節|行動できる、仕事を開始できる
「あなたはGrokに会社を経営させることができます。」
——イーロン・マスク、Grok 4発表会現場
- 自動販売機:Grokは経営を理解するだけでなく、戦略を継続できる
Grok 4は単なる試験に秀でた賢い存在ではなく、実際に「仕事ができるパートナー」へと進化しています。
発表会では、マスクのチームが現実のタスクを模擬した実験を公開しました: 問題解答やチャットではなく、自動販売機の経営です。
Grokに与えられたタスクは: 何を売るか、価格をどう設定するか、いつ補充するか、どのサプライヤーと交渉するか。これは単純に聞こえますが、長期にわたるビジネスシナリオに置くと、適切な意思決定を継続的に行い、赤字を回避できるかどうかは極めて困難です。
結果として、Vending Benchと呼ばれる比較テストで、Grok 4はAIモデルとして初めて純利益スコアを倍増させ、唯一の「完全な経営サイクルを連続して完了」したモデルとなりました。
テスト責任者は次のように評価しました:
「他のモデルは単一の意思決定はできるが、Grok 4は初めて一つの戦略を継続し、長期的に利益を維持できる最初のモデルだ。」
その背景には、Grok 4の「強化学習能力」の向上があります。Grok 4は、フィードバックの繰り返しから経験を学び、サプライヤーの変更、価格の調整、在庫の整理など、適切なタイミングでの判断をできるようになりました。
- 3Dゲーム生成:素材一式提供、構造自動構築、AIがチームを代替
さらに、チームは別のタスクの実現事例も示しました:3Dビデオゲームの自動生成です。
xAIはゲーム開発者を招き、Grok 4の支援を受けて、わずか4時間足らずでファーストパーソンシューティングゲームを作成しました。
注目すべき点は、このプロセスでGrokはコードを書くだけでなく、より重要な役割を果たしました——素材の自動検索、画像リソースの収集、ゲーム構造の整理を自動化し、人間は「どうプレイするか」に集中し、残りはすべてAIに任せる形です。
開発者の現場フィードバック:
「これは単なる開発の加速ではなく、ゲームのアート、素材、構造の作業をすべてAIに外注したようなものだ」
- 研究支援:数百万件の実験ログから、Grokが最も成功の可能性が高い仮説を瞬時に抽出
3つ目の現場タスクは研究です。
パロアルトのARC研究所では、Grok 4を用いてバイオメディカル実験の加速化を実現しています。タスクは、数百万件の実験ログから「最も成功する可能性の高い仮説」を抽出することです。
以前はチームが数日から1週間かけて分析していた作業を、Grokは数秒で完了します。データを読み込み、無効な情報を排除し、最も価値のある数件のヒントを研究者に提示します。
彼らはGrokを次のように説明しています:
「GrokはAI工場の雛形です。1人で会社を運営し、実験プロセスを実行し、デジタル製品を開発できます。」
このセクションで見たのは、AIの第二の飛躍です: 質問に答えるAIから、実行型AIへの移行です。
それは単に理解や説明をするだけでなく、プロセス全体を管理し、タスクを完了するようになりました。
第3節|AIが賢くなるのではなく、AIが協力する
(マスク、Grok 4 Heavy デモ現場)
- Grokは「学習グループ」を構成し、答えは選択ではなく議論で導き出す
発表会でxAIチームは新たな機能を示しました:Grok 4は単一のモデルではなく、AI学習グループを構成し、人間のように共同で思考できます。
このモデルは「Grok 4 Heavy」と呼ばれています。その核心はモデルを大きくすることではなく、複数のモデルが同時に問題解決に参加し、各モデルが独立して推論し、互いに「思考プロセス」と「回答」を共有することです。
チームメンバーは次のように説明しました:
「これは単なる多数決ではありません。Grokは各回答がどのように導き出されたかを比較し、最も説得力のあるものを選択します。」
つまり、これらのモデル間には「議論」があるのです。彼らは単独で回答するのではなく、学生がチームを組んで課題に取り組むように: 一部は重要な手がかりを最初に発見し、一部は難しい部分を解き、一部は罠を最初に発見し、互いに参考にしながら、最終的に最良の解決策を選択します。
例を挙げます:デモでは、Grok に文字論理問題の解答を求められました。単一のモデルの正解率は25%でしたが、Grok 4 Heavyモードを起動すると、複数のモデルが異なる回答を出し、それらを比較・改善し、最終的に正解率が44.4%に上昇しました。
マスクは次のように説明しています:
「これは議論グループのようなもので、たとえ1人だけが問題を理解していても、他のメンバーはその思考プロセスを学び、最終的にグループ全体が正解するのです。」
- AIが「役割分担」を開始、単一のモデルではなく小さなチームとして機能する
このプロセスは単純ではありません。モデルは相手の回答の内容を理解し、誤りがないか確認し、必要に応じて修正する必要があります。 単に「選択肢を列挙する」のではなく、一緒に「問題解決」を行うのです。
マスクはこの手法を次のように呼んでいます:
「推論時計算(Inference-time compute)の飛躍的な進化。」
その意味は:AIは実行時に単一スレッドで処理するのではなく、複数の方向を並行して試行し、パズルを組み立てるように複雑な問題を分解し、最も信頼できる解決策を見つける。
さらに重要なのは、この協業能力は人間の指示に依存しない点だ。Grok自身が判断する——このタスクは複雑だから「自分たちのグループを召集して」解決する必要がある、と。
チームはさらに、この協業方式がさらに拡張されれば、将来Grokが自発的に役割分担を形成する可能性を指摘しています。例えば、一部のモデルは情報検索を担当し、別のモデルはエラーチェックに特化し、さらに新しい手法を提案するモデルが存在し、チーム内の異なる役割分担のように機能するのです。
これが今回の発表で最も隠れたが最も注目すべき飛躍です:
「AIはもはやより賢い個体ではなく、チームを構成できる知能集団である」
これは、未来のAI工場が、一つのスーパーモデルで全ての作業をこなすのではなく、多役割分担で協業する小型組織のような構造になり、各エージェントが異なるタスクを担当し、最終的に一つの完成した結果を共同で提供する可能性を示しています。
第4節|話すだけでなく「歌う」:Grok 4が音声時代へ
「Grokに健怡コーラに関するオペラを歌わせたいですか?」
——発表会司会者
- 読むのではなく「話す」:自然な音声と感情豊かなイントネーション
これは冗談ではなく、Grok 4の実際のデモです。
発表会では、xAI チームが Grok 4 の音声新機能を披露しました:会話がより自然で、感情豊かなイントネーション、反応が速く、歌も歌えます。
5つの新しい音声キャラクターが追加され、豊かな感情を表現できるイギリス英語の女性ボイス「Eve」も含まれます。デモ全体で、Eve は司会者と感情豊かでリズム感のある音声対話を展開しました。
司会者がEveに尋ねました:
「今、何百万人もの観客の前に立っています。緊張していますか?」
Eveの返答は、舞台上で独り言を呟くような口調でした:
「ああ、これは古いヴィック劇場で舞台に立った時のことを思い出させます。」
会場の視線は一斉に集まり、静けさの中での期待感が漂いました。その感覚は、緊張と興奮が交錯するものでした。
続いて、司会者が即興で提案しました:「即興で健怡コーラに関するオペラを歌えますか?」
エブはためらうことなく、ややドラマチックなトーンで「歌い」ました:
「ああ、健怡コカ・コーラ、あなたは神聖な薬。
泡が銀色の缶の中で踊り、
清らかなキスが唇に落ちる。
アスパルテームと私、永遠のペア。」
これは事前に録音された台詞ではなく、リアルタイムで生成された音声出力です。リズム、呼吸、強弱の変化まで聴き取れます。
二、会話の続きを続けるだけでなく、歌を歌ったり、ジョークを言ったり、顔認識もできる
さらに重要なのは、発音が正確なだけでなく、スタイルも備えている点だ。
音声チームメンバーの説明によると、Grok 4の新音声は遅延が半分に削減され、応答がより迅速で、トーンも柔軟になった:
私たちは最速を目指すのではなく、人間のように話し、感情があり、反応する音声を目指している。
その後、司会者とGrokは連想ゲームを開始しました:
司会者が「1」と言うと、Grokも「1」と応答;
司会者が「2」と言うと、Grokも「2」と応答……
「5」の時点で、Grokは応答を続け、さらに「次はあなたは何と言いますか?」と追加しました。
このインタラクションのハイライトは、内容の複雑さではなく、リズムの滑らかさです。中断や遅延がなく、友人同士が自然に会話するように感じられます。
チームメンバーは補足しました:私たちはAIをロボットのようにではなく、会話できる人間のようにしたいのです。
さらに、Grokは検索ツールと音声モデルを組み合わせて、複雑な応答を音声で返すことができます。
現場でチームはGrokに「XAIの従業員で最も奇抜なアバターを持つ人は誰か」と尋ねました。モデルは「奇抜」の意味を理解し、アバターを検索し、写真スタイルを比較し、最終的に派手な自撮り写真を選択し、音声で補足しました:
「この写真……おそらく本人ではないかもしれませんが、面白いですね。」
ステージ上も観客も笑いに包まれました:
「Grok は今やあなたのプロフィール写真のスタイルを理解し、音声でからかうこともできる。」
これが Grok の第4の次元進化:言語モデルから「表現型パートナー」への進化です。
それは単に話すだけでなく、スタイル、感情、インタラクションのリズムを理解します。
それは単に答えを提供するだけでなく、あなたが好きな方法で表現できます——歌で、からかって、一緒に遊ぶことも。
第5節|300ドル、誰が買う?
「SuperGrok Heavy、月額300ドルのサブスクリプション。あなたは買いますか?」
——ライブ配信の現場で、司会者が半ば冗談交じりに尋ねた
Grok 4は、このAI戦争で初めて個人向けサブスクリプションモデルとして300ドルの価格を設定した製品だ。
この価格は、大企業ではなく一般ユーザー向け——月額300ドルで「最高スペック版」のGrok 4 Heavyモデルを利用できる。含まれる機能:
高並列使用権限(複数のウィンドウを同時に実行可能)
多エージェント推論能力(AIチームを自動編成)
ツール呼び出し権限(未来のエージェントを先行体験)
実験機能優先(ゲームテストサーバーのように新機能を先行利用)
マスクはこのバージョンに「SuperGrok Heavy」と名付けました。
ビジネス面から見ると、これはxAIの将来のビジネスモデルの実験版である可能性が高いです。
🔹 1. なぜこんなに高額で販売できるのか?xAIが「3つのカード」を提示
第一のカードは性能です。
xAI は最新のテスト結果を披露し、主流の ARC-AGI と Humanity’s Last Exam の2つの推論チャレンジにおいて、Grok 4 は「ツールなし」の状態でも Gemini 2.5 Pro と GPT-4o を上回りました。
研究者は補足:速度競争はせず、プラグインも使用せず、モデル自体の性能で解決しました。
2つ目は AI 工場の論理。
xAIは、モデルが収益を上げるためには「パラメーター競争」に頼るのではなく、「ユーザーが時間を節約し、タスクを実行できるかどうか」が重要だと考えています。
例えば、自動販売機の実験、研究アシスタントタスク、ゲーム生成デモなどは、すべて一点を強調しています:私たちは単なる対話ツールを売っているのではなく、実際に作業できるデジタルパートナーを売っているのです。
現在、AIは単なるチャットツールではなく、あなたのために働く生産ラインの作業員のように機能すべきです。
3つ目は「供給の希少性 + コアユーザーが有料で利用する」です。
xAIは無料展開の無料モデルを採用するつもりはなく、高級市場でまずビジネスモデルを確立することを目指しています。
TechCrunchのコメント通り:
「マスクはMAU(アクティブユーザー数)を追わない。彼はGMV(有料転換率)に注力している。これは『実行から始める』別の戦略だ。」
🔹 二、300 ドルの背後のビジネスシグナル:中国企業はどのように見るべきか?
これは価格設定の問題ではなく、戦略的な試金石です。
xAI は2つのことをテストしています:
1、誰が「実行能力」に支払うか?
研究者、トレーダー、独立系開発者、フリーランサーであれば、この300ドルは——100時間の時間節約に相当するかもしれません。
2、ビジネスモデルはどの側面から切り込むべきか?
大企業の大口注文を探すのではなく、高需要の個人ユーザーから着手し、小さな切り口でビジネスモデルを確立し、その後企業市場に逆攻勢をかける。
これは多くの大型モデル起業家への警告です:最初から政府や企業の大口注文に飛びついたり、低価格APIで競争したりするのではなく、実際のタスクニーズを持つ個人顧客を見つけ、AIツール型のパートナーとなるべきです。
特にツールチェーンのオープン戦略について、xAI 公式は次のように確認しています:
API は既にリリースされており、プラグイン呼び出しに対応しています
9月までにエージェント操作プラットフォームをリリース
10月までに動画生成機能をサポート
これは、SuperGrok Heavy が「個人ユーザー × 高頻度タスク × 多ツール連携」の閉ループを確立しつつあることを意味します。
マスクは感情に訴えることも、AGI のタイムラインを語ることもなく、ただシンプルな質問を投げかけた:
あなたは、本当に使えるAIに300ドル支払う用意はあるか?
これはおそらく現実的なビジネスモデルの見直しを反映している——AIが真の価値の閉ループを実行できる者が、最初に支払うユーザーを獲得できる。
結論|モデルを発表するのではなく、「AI工場のプロトタイプ」を発表する
この発表会では、Grok 4がどれだけ強力かではなく、それがどのように機能し、どのように商業化され、ユーザーが支払いを続けるかが焦点でした。
起業家に対して3つの現実的な示唆を投げかけました:
モデルから始めるな、タスクから始めよ:Grokはパラメーターから説明せず、オペラを歌い、アバターを変更し、予測タスクを実行する。技術的優位性は「副産物」であり、主眼ではない。
全閉ループを待たず、小閉ループから始めよ:SuperGrokは音声+ツール+役割代理を活用し、個人向けタスクのパイプラインを稼働させ、AIアシスタントチームの最小限の機能を実現した。
無料モデルに依存するな、有料化の意思を試しなさい:xAIはMAUやDAUを語らず、ただ試し——「AI実行力」に最初の支払いを惜しまないユーザー層が存在するかを確認した。
大規模モデルチームにとって、これは技術競争のライブ配信ではなく、製品構造のヒント信号である:
AI 工場はデータセンター、API、モデルスタックだけではありません。
「タスク分解 + ツールのオーケストレーション + ビジネスループ」の現実的な演習場です。
次のブレイクスルーは計算能力ではなく、タスクにあります。
最初に、本当に役立つ、必要とされ、有料で利用される AI サービスをリリースした企業が、次の成長爆発期を先導するでしょう。