AI IQで「用途別にモデルを選ぶ」：結論と、その根拠の読み方

Posted at 2026-06-25

はじめに

こんにちは、エンジニア5年目の嶋田です。
この記事を開いていただき、ありがとうございます！

前回、AIモデルを「IQ」というスケールで比較する AI IQ というプロジェクトについて書きました。

そのとき自分が伝えたかったのは、

AI IQは「採用判断の答え」ではなく、「候補を絞る入口」として使う

ということでした。

今回はその続きとして、用途別にどのモデルを選べばいいか を整理していこうと思います。

この記事は、

まず 結論（用途別の早見表） を出します
次に なぜそう選べるのか（指標の読み方） をまとめます
最後に 自分で選び直すための手順 をまとめます

という順で進めます。

結論だけ知りたい人は最初の表だけ、根拠まで知りたい人は最後まで読めばOKです。

※この記事のスコアは、AI IQ Rankings API（https://www.aiiq.org/api/rankings ）が返す methodologyVersion: 2026-06-14-abstract-reorder-software-split（updatedAt: 2026-06-23）時点のものです。Webページではなく、APIレスポンス内のメタデータに基づきます。

用途別おすすめモデル早見表

先に結論です。

AI IQのデータ（methodologyVersion 2026-06-14）をもとに、用途別に選ぶとこうなります。

用途	第一候補	コスパ候補	見る次元
本番コーディング	opus-4.8	glm-5.1	Production Engineering
アプリ試作・フロント	sonnet-4.6	gemini-3.5-flash	App Building
設計・アーキテクチャ	gpt-5.5	gemini-3.1-pro	Scientific + Abstract
文章作成	opus-4.8 / sonnet-4.6	gemini-3.1-pro	Reliability + EQ
資料作成（調査込み）	gemini-3.1-pro	—	Scientific + Computer Use
エージェント・自動化	gpt-5.5	kimi-k2.6	Computer Use

※最上位の fable-5（Composite IQ 130）は、輸出規制に伴いアクセスが一時停止中のため、実務候補からは除外しています。常用できるモデルから選んでいます。

ここまでが結論です。
以降は「なぜこう選べるのか」と「自分で選び直す方法」を説明します。

用途別の根拠

冒頭の早見表が、どのデータから出ているかを用途ごとに示します。

すべて AI IQ Rankings API（methodologyVersion 2026-06-14）の実データです。

1. 本番コーディング

見る次元：Production Engineering（リポジトリ修正・デバッグ・長期実装）

順位	モデル	Production Eng IQ
1位	opus-4.8	138
2位	gpt-5.5	133
3位	opus-4.7	130
4位	gpt-5.4	122
コスパ枠	glm-5.1	114（コスト $3.56）

SWE-Bench Verified/Pro、SWE Marathonなど「リポジトリを直す」課題で構成される次元です。
第一候補は opus-4.8。コスト重視なら glm-5.1（実効コスト $3.56）が候補になります。

2. アプリ試作・フロントエンド

見る次元：App Building（UI・試作・プロトタイプ生成）

順位	モデル	App Building IQ
1位	opus-4.7	142
2位	opus-4.8	141
3位	sonnet-4.6	131
4位	gemini-3.5-flash	130
5位	kimi-k2.6	127

DesignArena、Arena.ai WebDev、Vibe Code Benchなど「作って動かす」課題で構成されます。
Anthropic系（Opus / Sonnet）がこの次元に明確に強いです。
コストと性能のバランスで sonnet-4.6（IQ 131・コスト $29.3）が実務向きです。

3. 設計・アーキテクチャ

見る次元：Scientific Reasoning + Abstract Reasoning

用途	重視次元	上位モデル
技術判断・トレードオフ分析	Scientific	gpt-5.5(142), gemini-3.1-pro(141), opus-4.8(140)
未知の問題のモデル化	Abstract	gpt-5.5(108), gemini-3.1-pro(106), opus-4.7(102)

注意点があります。Abstract Reasoningは全モデルで天井が低い（最高108） です。

なので、

設計の壁打ちには使えても、新規性の高い設計判断を丸投げするのは危険

という前提で使います。
候補は、抽象推論で頭一つ抜けている gpt-5.5 か gemini-3.1-pro です。

4. 文章作成

見る次元：Reliability + EQ系

文章は、総合IQよりも「指示追従（Reliability）」と「自然さ（EQ系）」が効きます。

次元	上位モデル
Reliability IQ	gemini-3.1-pro(117), grok-4.3(113), gpt-5.5(111)
EQ-Bench 3	opus-4.8, sonnet-4.6
AttuneBench（対人配慮）	opus-4.8(54.6), gpt-5.5(53.7)

フォーマット厳守なら gemini-3.1-pro（Reliability 1位）。
自然さ・トーン重視なら opus-4.8 / sonnet-4.6。
ただし日本語の自然さはこのベンチマークでは測れないので、最後は自分の評価セットで確認が必要です。

5. 資料作成

見る次元：Scientific Reasoning + Computer Use

モデル	Scientific	Computer Use	実効コスト
gpt-5.5	142	135	$35.6
opus-4.8	140	134	$44.8
gemini-3.1-pro	141	131	$10.4

両次元とも性能はほぼ横並びです。
それなのにコストは3〜4倍違うので、コスト効率で gemini-3.1-pro が際立ちます。

6. エージェント・自動化

見る次元：Computer Use（ターミナル・ブラウザ操作）

順位	モデル	Computer Use IQ
1位	gpt-5.5	135
2位	opus-4.8	134
3位	gemini-3.1-pro	131
4位	gpt-5.4	131
コスパ枠	kimi-k2.6	123（コスト $5.08）

Terminal-Bench、OSWorld、BrowseCompで構成されます。
第一候補は gpt-5.5 / opus-4.8。社内ツールで大量に回すなら kimi-k2.6 も候補です。

前提：次元が7つに再編された

ここまで「次元」という言葉を使ってきました。
その前提を補足します。

前回記事の時点では、AI IQの次元は5つでした。
いま見ると 7つに再編 されています。

特にSEにとって大きいのは、コーディングが2つの次元に分割された ことです。

前回（5次元）	現在（7次元）
Fluid Abstraction	Abstract Reasoning
Mathematical Reasoning	Mathematical Reasoning
Programmatic Reasoning	App Building / Production Engineering に分割
Critical Reasoning	Scientific Reasoning
Agentic Reasoning	Computer Use
（なし）	Reliability

現在の7次元は以下の通りです。

次元	測っている能力	代表的なベンチマーク
Mathematical Reasoning	数学的推論	FrontierMath, AIME, ProofBench
Scientific Reasoning	専門的・科学的推論	Humanity's Last Exam, GPQA Diamond, SciCode
Abstract Reasoning	初見パターンの抽象推論	ARC-AGI-1/2/3
App Building	UI・試作・プロトタイプ生成	DesignArena, Arena.ai WebDev, Vibe Code Bench
Production Engineering	リポジトリ修正・デバッグ・長期実装	SWE-Bench Verified/Pro, SWE Marathon, LiveCodeBench
Computer Use	ターミナル・ブラウザ操作	Terminal-Bench, OSWorld, BrowseComp, MCP Atlas
Reliability	指示追従・知らないことを知る	IFBench, AA Omniscience

「コーディング能力」をひとつのスコアで見ていると、

UIプロトタイプは強いが、本番コードのデバッグは弱い

といった差が隠れてしまいます。

前回記事で書いた「単一スコアはAIのジャギーさを隠す」が、まさにコーディング次元の中で起きていたわけです。

自分で選び直すための4ステップ

冒頭の早見表は「答え」ではなく「一例」です。
データが変われば結論も変わります。

そこで、自分で選び直すための手順 を残しておきます。
この4ステップさえ持っていれば、データが更新されても同じやり方で選べます。

ステップ1：用途を「次元」に翻訳する

最初にやるのは、「やりたいこと」を7次元のどれに当たるかへ翻訳することです。

ここが一番大事で、かつ一番間違えやすいところです。

やりたいこと	対応する次元
既存コードのバグ修正・機能追加	Production Engineering
ゼロからの画面・試作品づくり	App Building
技術選定・トレードオフ判断	Scientific Reasoning
前例のない問題の構造化	Abstract Reasoning
フォーマット厳守の文章	Reliability
ターミナル・ブラウザ自動操作	Computer Use

ここで一番伝えたいのは、

「コーディング」を1語で考えないこと

です。
バグ修正なら Production Engineering、UI試作なら App Building と、見るべき次元が違います。

ステップ2：スコアを「分布の中の位置」で読む

次元が決まったら、スコアを 絶対値ではなく「分布の中の位置」 で読みます。

AI IQのスコアは、人間のIQと同じく、平均100・標準偏差15の正規分布に見立てて設計されています。

スコア帯	分布上の位置	実務での解釈
130以上	上位約2%	その次元で頭一つ抜けている
115〜130	上位16%以内	実用上は十分強い
100前後	平均	「できなくはない」レベル
100未満	平均以下	その用途には向かない

さらに、その次元の「天井」がどこにあるか も併せて見ます。

たとえばAbstract Reasoningは全モデルが115未満（最高108）。
一方Production Engineeringは138まで伸びています。

同じ「IQ 120」でも、Abstract Reasoningの120とProduction Engineeringの120では意味が違う。

天井が低い次元での120は「ほぼトップ」、天井が高い次元での120は「上位だが一番ではない」になります。

ステップ3：IQとコストを同時に見る

候補が絞れたら、Effective Cost（実効コスト）を見ます。

やることはシンプルで、

用途に必要なIQの最低ラインを満たす中で、一番安いものを選ぶ

です。

資料作成の例（前述）では、3モデルの性能がほぼ横並びなのにコストは3〜4倍違いました。
この場合、

性能差はほぼ誤差。だからコストが1/4の gemini-3.1-pro を選ぶ。

という判断になります。

性能が拮抗しているときは、コストが決定打になる。

ステップ4：Rank Statusと「測れないもの」を確認する

最後に、数字の 信頼度と射程 を確認します。

確認1は imputed（補完）フラグ です。
APIの各スコアには imputed: true / false が付いており、true は実測ではなく推定値です。重要用途では補完値に頼らない方が安全です。

確認2は そもそもAI IQでは測れないもの です。

日本語の自然さ
敬体・常体の安定性
社内用語への強さ
RAGで正しく根拠を拾えるか
長い指示を守れるか
出力フォーマットが安定するか

これらは公開ベンチマークでは分かりません。
なので前回記事と同じ結論になります。

AI IQで候補を絞り、最後は必ず自社タスクで実測する。

個人的に一番大事だと思ったこと

前回も書きましたが、今回さらに強く思いました。

ランキングを覚えることより、ランキングの読み方を持つこと。

実際、前回から今回までの間に、コーディング次元が2つに分割されました。

もし「総合1位はこれ」という結論だけを覚えていたら、この変更に対応できません。

でも、

用途を次元に翻訳して、分布の位置で読んで、コストと天秤にかけて、最後は自社で実測する

という手順を持っていれば、何が更新されても同じやり方で選べます。

結論は古くなります。
でも、判断プロセスは古くなりません。

だからこの記事は、結論を最初に出しつつ、その後ろに「なぜそう選べるのか」と「自分で選び直す手順」を置きました。

まとめ

用途別のモデル選定は、まず結論から。

用途	第一候補	コスパ候補
本番コーディング	opus-4.8	glm-5.1
アプリ試作・フロント	sonnet-4.6	gemini-3.5-flash
設計・アーキテクチャ	gpt-5.5	gemini-3.1-pro
文章作成	opus-4.8 / sonnet-4.6	gemini-3.1-pro
資料作成（調査込み）	gemini-3.1-pro	—
エージェント・自動化	gpt-5.5	kimi-k2.6

ただし、この表は「答え」ではなく「一例」です。
自分で選び直すための手順は、次の4ステップです。

用途を「次元」に翻訳する（コーディングを1語で考えない）
スコアを「分布の位置」と「天井」で読む（同じ120でも意味が違う）
IQとコストを同時に見る（拮抗時はコストが決定打）
imputedと「測れないもの」を確認する（最後は自社タスクで実測）

AI IQは、ランキングの答えを見る場所ではなく、どこを掘るべきかを見つける入口として使う。

この距離感が、今のところ一番現実的だと思います。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up