「IQ 136のAI」はどう作られるのか：AIモデル選定で単一スコアを信じすぎてはいけない理由

Posted at 2026-05-26

はじめに

こんにちは、エンジニア5年目の嶋田です。
この記事を開いていただき、ありがとうございます！
最近、新しい案件で使うAIモデルを検討する機会がありました。
GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、Grok 4.3、DeepSeek-V3.2……
気がつけば選択肢が多すぎて、どれを基準に選べばいいのか分からなくなっていました。
モデルの選択肢は増え続けています。

しかも、それぞれのモデルが発表されるたびに、いろいろなベンチマークの結果が出てきます。

SWE-bench
FrontierMath
Humanity's Last Exam
GPQA
ARC-AGI
LiveCodeBench
Terminal-Bench

どれも重要そうです。
でも、見れば見るほど、

結局、どのモデルが一番賢いの？

という疑問に戻ってきます。

そんなときに見つけたのが、Ledge.aiで紹介されていた AI IQ というプロジェクトでした。

名前の通り、AIモデルの性能を「IQ」のようなスケールで見せてくれるものです。
たとえば「このモデルはIQ 135相当」のように見えると、かなり直感的です。

ただ、同時に少し引っかかりました。

それ、本当にIQって言っていいの？
その数字だけでモデルを選んでいいの？

気になったので、AI IQの公式サイトやMethodologyを読んでみました。

結論から言うと、AI IQはかなり便利です。
ただし、数字だけ見てモデルを選ぶのは危ない です。

この記事では、AI IQの仕組みと、実務でどう読めばよさそうかを整理します。

AI IQとは何か

AI IQは、Ryan Shea氏が公開したAIモデル評価プロジェクトです。

Ledge.aiの記事では、GPT-5.5、Claude Opus 4.7、Gemini 3.1、Grok 4.3、Kimi K2.6、Qwen3.6、DeepSeek V4などの主要AIモデルを、IQスケールで比較する試みとして紹介されています。

ここで最初に注意したいのは、AI IQは

AIに人間用のIQテストをそのまま受けさせるサイト

ではない、ということです。

AI IQは、複数の公開ベンチマークの結果を集約し、それを人間のIQスケールのように見える形へ変換しています。

つまり、ざっくり言うとこうです。

複数のAIベンチマーク
  ↓
各ベンチマークをIQ相当のスコアに変換
  ↓
能力カテゴリごとに集約
  ↓
Composite IQとして表示

「IQ」という言葉は使われていますが、人間の心理測定としてのIQと完全に同じものではありません。
あくまで、AIモデルの能力差を直感的に読むためのスケールです。

AI IQは何を測っているのか

AI IQの公式Methodologyでは、現在のIQスコアは次の5つの次元で構成されています。

次元	ざっくり見ている能力	代表的なベンチマーク例
Fluid Abstraction	初見パターンの抽象推論	ARC-AGI
Mathematical Reasoning	数学的推論	FrontierMath, AIME, ProofBench
Programmatic Reasoning	コーディング・実装能力	SWE-Bench Pro, SWE-bench Verified, LiveCodeBench
Critical Reasoning	高難度の専門的推論	Humanity's Last Exam, GPQA Diamond
Agentic Reasoning	ツール利用・環境操作・長手順タスク	Terminal-Bench, BrowseComp, OSWorld, Toolathlon

個人的に面白いと思ったのは、単に「知識問題が解けるか」だけではなく、コーディング、数学、ツール利用、エージェント的な実行能力まで含めている点です。

最近のAIモデルは、ただチャットするだけではなく、

コードを書く
バグを直す
ブラウザで調べる
ターミナルを操作する
複数ステップの作業を進める

といった使われ方が増えています。

その意味では、AI IQがAgentic Reasoningを含めているのは、かなり現代的な設計だと思いました。

スコアはどう作られているのか

AI IQのスコア生成は、単純な平均ではありません。

イメージとしては、次のような流れです。

ポイントは主に3つあります。

1. ベンチマークの生スコアをそのまま平均しない

たとえば、あるベンチマークで90点、別のベンチマークで60点だったとしても、それをそのまま平均するわけではありません。

ベンチマークごとに難易度やスコア分布が違うからです。

AI IQでは、各ベンチマークのスコアを「IQ相当」の値に変換します。
公式では、手動で校正されたアンカーポイントをもとに、区分線形補間で変換していると説明されています。

かなりざっくり言うと、

このベンチマークでこの点数なら、IQ換算ではこのくらい

という変換カーブを作っているわけです。

これは便利ですが、同時に注意も必要です。

なぜなら、この変換には設計者の判断が入るからです。
公式も、アンカー校正には主観的な要素があることを認めています。

つまり、「IQ 135」という数字は、自然に観測された絶対値ではありません。
ベンチマークスコアを読みやすくするために設計された値です。

2. ベンチマークによって天井が圧縮される

AI IQでは、すべてのベンチマークを同じ重み・同じ扱いにはしていません。

一部のベンチマークは、上位モデルが高得点で並びやすかったり、訓練データへの混入が疑われたりします。

そういうベンチマークは、スコアが高くても総合IQを押し上げすぎないように、天井が圧縮されます。

たとえば、次のような考え方です。

種類	意味	扱い
Hard benchmark	まだ識別力が高く、ゲーム化されにくい	高いIQ天井を維持
Compressed benchmark	飽和・汚染・ゲーム化の懸念がある	上限を圧縮して影響を抑える

これはかなり重要です。

「あるモデルが有名ベンチマークで高得点だった」としても、そのベンチマークがすでに飽和しているなら、AI IQ上では過度に評価されないよう調整される可能性があります。

個人的には、この設計はかなり現実的だと思いました。
一方で、どのベンチマークをどの程度圧縮するかにも判断が入ります。

ここも「完全に客観的なランキング」と見るより、「設計された評価指標」として読むべきです。

3. 欠損値は保守的に補完される

AIモデルによっては、すべてのベンチマーク結果が揃っているわけではありません。

その場合、単純に欠損値を無視して平均すると問題が起きます。

たとえば、苦手なベンチマークだけ未測定のモデルが、見かけ上高く見えてしまうかもしれません。

AI IQでは、欠損している値を保守的に補完します。
公式では、前モデルとの関係や、同じ次元内の他ベンチマーク、似た能力帯のモデルを使って推定すると説明されています。

ここで大事なのは、補完値は「真のスコア」ではないということです。

あくまで、

測っていない項目があることで、モデルが有利に見えすぎないようにするための補完

です。

そのため、AI IQではRank Statusも用意されています。

Rank Status	意味
Full	十分なデータがある
Partial	一部欠損がある
Provisional	暫定的な評価
Unranked	ランキング対象外

同じComposite IQでも、FullなのかPartialなのかで信頼度は変わります。

ここは実務でモデル選定をするときに、かなり見落としやすいポイントだと思います。

AI IQの便利なところ

ここまで注意点を書いてきましたが、AI IQ自体はかなり便利です。

特に良いと思ったのは、次の3点です。

1. 複数ベンチマークを一枚で見ることができる

AIモデルの比較でつらいのは、情報が散らばりすぎていることです。

あるモデルはSWE-benchで強い。
別のモデルは数学で強い。
また別のモデルは会話品質が高い。
でも、全体としてどう見ればいいのか分からない。

AI IQは、そこに「Composite IQ」という共通の見方を提供してくれます。

もちろん単一スコアには限界があります。
ただ、最初の候補絞り込みにはかなり便利です。

2. 用途別に強みを見ることができる

Composite IQだけでなく、用途別に強みを見ることができるも良い点です。

たとえば、用途によって見るべき軸は変わります。

用途	重視したい次元
コーディング支援	Programmatic Reasoning
数学・研究支援	Mathematical Reasoning, Critical Reasoning
調査・分析	Critical Reasoning, Agentic Reasoning
AIエージェント開発	Agentic Reasoning
一般的なチャット用途	IQだけでなくEQも見る

「総合1位のモデル」を選ぶより、用途に合う次元を見る方が実務的です。

ここは、AI IQをちゃんと使う上で一番大事だと思いました。

3. コストも一緒に見ることができる

AI IQでは、IQだけでなくEffective Costも見ることができます。

モデル選定では、性能だけでなくコストが重要です。

高性能でも、社内で大量に使うには高すぎるモデルもあります。
逆に、少し性能は落ちても、十分安くて速いモデルの方が実務では向いていることもあります。

AI IQがIQとコストを同時に見せているのは、かなり実務寄りです。

「一番賢いモデル」ではなく、

自分たちの用途に対して、十分賢く、十分安いモデルはどれか

を考えやすくなります。

どこが危ないのか

一方で、AI IQをそのまま信じるのは危険です。

理由は大きく3つあります。

1. IQはあくまでメタファー

公式も明記している通り、AI IQにおけるIQは比喩です。

人間の心理測定としてのIQと、AIベンチマークを変換したIQ風スコアは、同じものではありません。

なので、

このAIは人間のIQ135と同じ知能を持っている

と読むのは危ないです。

より正確には、

複数のAIベンチマークを統合すると、人間IQスケールに見立てた場合に135くらいの位置に置かれる

くらいの理解がよさそうです。

少し長いですが、この距離感が大事です。

2. 元ベンチマーク自体が揺れる

AI IQは、複数の公開ベンチマークをもとにした二次指標です。

つまり、元になるベンチマークの品質に大きく依存します。

ここが難しいところです。

近年のAIベンチマークには、いくつかの問題があります。

上位モデルが高得点で並び、差が見えにくくなる
問題や解答が訓練データに混入する
テスト設計上の穴を突くような最適化が起きる
問題自体に誤りや曖昧さが含まれる
ベンチマークの目的と実務タスクがずれる

つまり、AI IQがどれだけ丁寧に統合していても、上流のベンチマークが揺れれば、最終スコアも揺れます。

これはAI IQだけの問題ではなく、AI評価全体の問題です。

3. 単一スコアはAIの「ジャギーさ」を隠す

LLMは、人間の能力のようにきれいな一直線では並びません。

あるタスクではものすごく賢いのに、別のタスクでは驚くほど変なミスをする。
コードは強いのに、指示追従が微妙。
数学は強いのに、日本語の社内文書作成では扱いづらい。
会話は自然なのに、長手順の実行で破綻する。

こういう「能力のギザギザ感」があります。

Composite IQは便利な要約ですが、そのギザギザを隠してしまう可能性があります。

なので、AI IQを見るときは、

このモデルは総合で何点か

だけでなく、

どの次元が強くて、どの次元が弱いのか

まで見るべきです。

実務ではどう使うべきか

自分の結論はシンプルです。

AI IQは「採用判断の答え」ではなく、「候補を絞る入口」として使う

これが一番ちょうどいいと思います。

具体的には、次のような流れです。

ステップ1. Composite IQとコストで候補を絞る

まずはComposite IQとEffective Costを見て、候補を数モデルに絞ります。

この段階では、ざっくりでいいと思います。

明らかに性能が足りなさそうなモデルを外す
明らかに高すぎるモデルを外す
コスト性能が良さそうなモデルを残す

この入口として、AI IQはかなり便利です。

ステップ2. 用途に合う次元を見る

次に、用途ごとに次元別スコアを見ます。

たとえば、コーディング用途ならProgrammatic Reasoningを重視します。
調査・分析用途ならCritical ReasoningやAgentic Reasoningを見ます。
AIエージェント用途なら、Agentic Reasoningはかなり重要です。

ここでComposite IQだけを見ていると、用途に合わないモデルを選んでしまう可能性があります。

ステップ3. Rank Statusを見る

次にRank Statusを見ます。

同じスコアでも、FullとPartialでは意味が違います。

Partialの場合、欠損値が補完されている可能性があります。
補完は保守的に行われているとはいえ、実測値ではありません。

なので、重要な用途で使うなら、

そのスコアはどの程度実測に基づいているのか
どのベンチマークが欠けているのか
その欠損は自分たちの用途に関係するのか

まで見た方が安全です。

ステップ4. 最後は自社タスクで評価する

最終判断は、必ず自社タスクで行うべきです。

特に日本語環境では、公開ベンチマークだけでは分からないことが多いです。

たとえば、次のような観点です。

日本語の自然さ
敬体・常体の安定性
社内文書の文体に合うか
RAGで正しく根拠を拾えるか
社内用語に強いか
長い指示を守れるか
禁止事項を守れるか
ツール連携で壊れないか
出力フォーマットが安定するか
コストが運用に耐えるか

AI IQは、こうした社内固有の事情までは見てくれません。

だからこそ、AI IQで候補を絞り、最後は自分たちの評価セットで確認するのがよさそうです。

APIも用意されている

AI IQには公開APIもあります。

Qiita記事としては、ここが少し嬉しいポイントです。
画面で見るだけでなく、データとして取得できる余地があります。

たとえば、公式サイトでは次のようなAPIが案内されています。

# モデル一覧
curl https://www.aiiq.org/api/models

# ベンチマーク定義
curl https://www.aiiq.org/api/benchmarks

# ランキング
curl https://www.aiiq.org/api/rankings

# 方法論メタデータ
curl https://www.aiiq.org/api/methodology

実務で使うなら、定期的にAPIを見て、

ランキングがどう変わったか
どのモデルが追加されたか
Methodologyが変わっていないか
コスト性能がどう変わったか

を追う使い方もできそうです。

ただし、方法論自体が更新される可能性があるので、記事や社内資料で使う場合は「いつ時点の情報か」を書いておいた方が安全です。

個人的に一番大事だと思ったこと

AI IQを調べて一番大事だと思ったのは、

ランキングを見ることより、ランキングの作られ方を見ること

でした。

「GPT-5.5が1位」「Claudeが何位」「Geminiが何位」という話は分かりやすいです。
でも、それだけだとすぐ古くなります。

モデルは更新されます。
ベンチマークも更新されます。
方法論も変わります。

だから、特定の日の順位よりも、

どのベンチマークを使っているのか
どうIQに変換しているのか
どのベンチマークを圧縮しているのか
欠損値をどう補完しているのか
Rank Statusはどうなっているのか

を見る方が、長期的には役に立つと思いました。

まとめ

AI IQは、AIモデル比較をかなり分かりやすくしてくれるプロジェクトです。

複数のベンチマークをまとめて、IQという直感的なスケールで見せてくれる。
さらに、次元別スコアやコストも見られる。
モデル選定の入口としてはかなり便利です。

一方で、AI IQの数字をそのまま信じるのは危ないです。

理由は、

IQは人間の心理測定と同じものではなく、メタファーである
スコア変換には手動校正が入る
一部ベンチマークには圧縮処理が入る
欠損値は補完される
元ベンチマーク自体にも揺れがある
単一スコアはAIの能力のジャギーさを隠す

からです。

なので、自分はこう使うのがよさそうだと思いました。

AI IQは、ランキングの答えを見る場所ではなく、どこを掘るべきかを見つける入口として使う。

モデル選定では、まずAI IQで候補を絞る。
次に、用途に合う次元別スコアとRank Statusを見る。
最後に、自社タスクで評価する。

この距離感が、今のところ一番現実的だと思います。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up