AIモデルの選び方: ベンチマークだけでは分からないこと

Posted at 2026-04-20

ベンチマークの落とし穴

毎週のように新しいAIモデルがリリースされ、「最高性能」を主張するブログ記事が出ます。しかし、全てのベンチマークを横断的に見ると、全てで勝つモデルは存在しません。

MMLUで95%、HumanEvalで40%のモデルは、両方で85%のモデルよりも実用的とは限りません。推論、コーディング、数学、知識の各評価で一貫したスコアを出せるかが重要です。

同じモデルでもプロバイダーによって価格が10倍異なることがあります。OpenAI、Azure、Together AI、Fireworksで同じGPT-4oの価格が違います。プロバイダー間の価格比較は必須です。

1Mコンテキストを謳うモデルが、実際に1Mトークンで性能を発揮するとは限りません。GraphWalks BFSベンチマークは、256Kから1Mトークンの範囲でモデルの推論能力をテストします。多くのモデルは128Kを超えると性能が急落します。

どのモデルを開発者が実際に使っているか？Reddit、HackerNews、GitHub、arXiv、Xでの会話データを見ると、プレスリリースの主張と実際の採用状況が異なることがよくあります。

ベンチマークは一つの層に過ぎません。AI業界は今や時価総額21兆ドルのエコシステムです。数百の企業、数千のモデル、そしてファウンドリからチップ、メモリ、システム、エネルギーに至るコンピュート・インフラのサプライチェーンがあります。

全体像を把握するには、企業評価額、資金調達ラウンド、コンピュート需要指標、市場のマインドシェアを同時に追う必要があります。

BenchGeckoはこれら全てを一つのプラットフォームで追跡しています。

データソース: BenchGecko