1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AI IQで「用途別にモデルを選ぶ」:結論と、その根拠の読み方

1
Posted at

はじめに

こんにちは、エンジニア5年目の嶋田です。
この記事を開いていただき、ありがとうございます!

前回、AIモデルを「IQ」というスケールで比較する AI IQ というプロジェクトについて書きました。

そのとき自分が伝えたかったのは、

AI IQは「採用判断の答え」ではなく、「候補を絞る入口」として使う

ということでした。

今回はその続きとして、用途別にどのモデルを選べばいいか を整理していこうと思います。

この記事は、

  1. まず 結論(用途別の早見表) を出します
  2. 次に なぜそう選べるのか(指標の読み方) をまとめます
  3. 最後に 自分で選び直すための手順 をまとめます

という順で進めます。

結論だけ知りたい人は最初の表だけ、根拠まで知りたい人は最後まで読めばOKです。

※この記事のスコアは、AI IQ Rankings API(https://www.aiiq.org/api/rankings ) が返す methodologyVersion: 2026-06-14-abstract-reorder-software-split(updatedAt: 2026-06-23)時点のものです。Webページではなく、APIレスポンス内のメタデータに基づきます。

目次

  1. 用途別おすすめモデル早見表 … 結論だけならここ
  2. 用途別の根拠
  3. 前提:次元が7つに再編された
  4. 自分で選び直すための4ステップ
  5. まとめ
細目を開く

用途別おすすめモデル早見表

先に結論です。

AI IQのデータ(methodologyVersion 2026-06-14)をもとに、用途別に選ぶとこうなります。

用途 第一候補 コスパ候補 見る次元
本番コーディング opus-4.8 glm-5.1 Production Engineering
アプリ試作・フロント sonnet-4.6 gemini-3.5-flash App Building
設計・アーキテクチャ gpt-5.5 gemini-3.1-pro Scientific + Abstract
文章作成 opus-4.8 / sonnet-4.6 gemini-3.1-pro Reliability + EQ
資料作成(調査込み) gemini-3.1-pro Scientific + Computer Use
エージェント・自動化 gpt-5.5 kimi-k2.6 Computer Use

※最上位の fable-5(Composite IQ 130)は、輸出規制に伴いアクセスが一時停止中のため、実務候補からは除外しています。常用できるモデルから選んでいます。

ここまでが結論です。
以降は「なぜこう選べるのか」と「自分で選び直す方法」を説明します。

用途別の根拠

冒頭の早見表が、どのデータから出ているかを用途ごとに示します。

すべて AI IQ Rankings API(methodologyVersion 2026-06-14)の実データです。

1. 本番コーディング

見る次元:Production Engineering(リポジトリ修正・デバッグ・長期実装)

順位 モデル Production Eng IQ
1位 opus-4.8 138
2位 gpt-5.5 133
3位 opus-4.7 130
4位 gpt-5.4 122
コスパ枠 glm-5.1 114(コスト $3.56)

SWE-Bench Verified/Pro、SWE Marathonなど「リポジトリを直す」課題で構成される次元です。
第一候補は opus-4.8。コスト重視なら glm-5.1(実効コスト $3.56)が候補になります。

2. アプリ試作・フロントエンド

見る次元:App Building(UI・試作・プロトタイプ生成)

順位 モデル App Building IQ
1位 opus-4.7 142
2位 opus-4.8 141
3位 sonnet-4.6 131
4位 gemini-3.5-flash 130
5位 kimi-k2.6 127

DesignArena、Arena.ai WebDev、Vibe Code Benchなど「作って動かす」課題で構成されます。
Anthropic系(Opus / Sonnet)がこの次元に明確に強いです。
コストと性能のバランスで sonnet-4.6(IQ 131・コスト $29.3)が実務向きです。

3. 設計・アーキテクチャ

見る次元:Scientific Reasoning + Abstract Reasoning

用途 重視次元 上位モデル
技術判断・トレードオフ分析 Scientific gpt-5.5(142), gemini-3.1-pro(141), opus-4.8(140)
未知の問題のモデル化 Abstract gpt-5.5(108), gemini-3.1-pro(106), opus-4.7(102)

注意点があります。Abstract Reasoningは全モデルで天井が低い(最高108) です。

なので、

設計の壁打ちには使えても、新規性の高い設計判断を丸投げするのは危険

という前提で使います。
候補は、抽象推論で頭一つ抜けている gpt-5.5gemini-3.1-pro です。

4. 文章作成

見る次元:Reliability + EQ系

文章は、総合IQよりも「指示追従(Reliability)」と「自然さ(EQ系)」が効きます。

次元 上位モデル
Reliability IQ gemini-3.1-pro(117), grok-4.3(113), gpt-5.5(111)
EQ-Bench 3 opus-4.8, sonnet-4.6
AttuneBench(対人配慮) opus-4.8(54.6), gpt-5.5(53.7)

フォーマット厳守なら gemini-3.1-pro(Reliability 1位)。
自然さ・トーン重視なら opus-4.8 / sonnet-4.6
ただし日本語の自然さはこのベンチマークでは測れないので、最後は自分の評価セットで確認が必要です。

5. 資料作成

見る次元:Scientific Reasoning + Computer Use

モデル Scientific Computer Use 実効コスト
gpt-5.5 142 135 $35.6
opus-4.8 140 134 $44.8
gemini-3.1-pro 141 131 $10.4

両次元とも性能はほぼ横並びです。
それなのにコストは3〜4倍違うので、コスト効率で gemini-3.1-pro が際立ちます。

6. エージェント・自動化

見る次元:Computer Use(ターミナル・ブラウザ操作)

順位 モデル Computer Use IQ
1位 gpt-5.5 135
2位 opus-4.8 134
3位 gemini-3.1-pro 131
4位 gpt-5.4 131
コスパ枠 kimi-k2.6 123(コスト $5.08)

Terminal-Bench、OSWorld、BrowseCompで構成されます。
第一候補は gpt-5.5 / opus-4.8。社内ツールで大量に回すなら kimi-k2.6 も候補です。

前提:次元が7つに再編された

ここまで「次元」という言葉を使ってきました。
その前提を補足します。

前回記事の時点では、AI IQの次元は5つでした。
いま見ると 7つに再編 されています。

特にSEにとって大きいのは、コーディングが2つの次元に分割された ことです。

前回(5次元) 現在(7次元)
Fluid Abstraction Abstract Reasoning
Mathematical Reasoning Mathematical Reasoning
Programmatic Reasoning App Building / Production Engineering に分割
Critical Reasoning Scientific Reasoning
Agentic Reasoning Computer Use
(なし) Reliability

現在の7次元は以下の通りです。

次元 測っている能力 代表的なベンチマーク
Mathematical Reasoning 数学的推論 FrontierMath, AIME, ProofBench
Scientific Reasoning 専門的・科学的推論 Humanity's Last Exam, GPQA Diamond, SciCode
Abstract Reasoning 初見パターンの抽象推論 ARC-AGI-1/2/3
App Building UI・試作・プロトタイプ生成 DesignArena, Arena.ai WebDev, Vibe Code Bench
Production Engineering リポジトリ修正・デバッグ・長期実装 SWE-Bench Verified/Pro, SWE Marathon, LiveCodeBench
Computer Use ターミナル・ブラウザ操作 Terminal-Bench, OSWorld, BrowseComp, MCP Atlas
Reliability 指示追従・知らないことを知る IFBench, AA Omniscience

「コーディング能力」をひとつのスコアで見ていると、

  • UIプロトタイプは強いが、本番コードのデバッグは弱い

といった差が隠れてしまいます。

前回記事で書いた「単一スコアはAIのジャギーさを隠す」が、まさにコーディング次元の中で起きていたわけです。

自分で選び直すための4ステップ

冒頭の早見表は「答え」ではなく「一例」です。
データが変われば結論も変わります。

そこで、自分で選び直すための手順 を残しておきます。
この4ステップさえ持っていれば、データが更新されても同じやり方で選べます。

ステップ1:用途を「次元」に翻訳する

最初にやるのは、「やりたいこと」を7次元のどれに当たるかへ翻訳することです。

ここが一番大事で、かつ一番間違えやすいところです。

やりたいこと 対応する次元
既存コードのバグ修正・機能追加 Production Engineering
ゼロからの画面・試作品づくり App Building
技術選定・トレードオフ判断 Scientific Reasoning
前例のない問題の構造化 Abstract Reasoning
フォーマット厳守の文章 Reliability
ターミナル・ブラウザ自動操作 Computer Use

ここで一番伝えたいのは、

「コーディング」を1語で考えないこと

です。
バグ修正なら Production Engineering、UI試作なら App Building と、見るべき次元が違います。

ステップ2:スコアを「分布の中の位置」で読む

次元が決まったら、スコアを 絶対値ではなく「分布の中の位置」 で読みます。

AI IQのスコアは、人間のIQと同じく、平均100・標準偏差15の正規分布に見立てて設計されています。

スコア帯 分布上の位置 実務での解釈
130以上 上位約2% その次元で頭一つ抜けている
115〜130 上位16%以内 実用上は十分強い
100前後 平均 「できなくはない」レベル
100未満 平均以下 その用途には向かない

さらに、その次元の「天井」がどこにあるか も併せて見ます。

たとえばAbstract Reasoningは全モデルが115未満(最高108)。
一方Production Engineeringは138まで伸びています。

同じ「IQ 120」でも、Abstract Reasoningの120とProduction Engineeringの120では意味が違う。

天井が低い次元での120は「ほぼトップ」、天井が高い次元での120は「上位だが一番ではない」になります。

ステップ3:IQとコストを同時に見る

候補が絞れたら、Effective Cost(実効コスト)を見ます。

やることはシンプルで、

用途に必要なIQの最低ラインを満たす中で、一番安いものを選ぶ

です。

資料作成の例(前述)では、3モデルの性能がほぼ横並びなのにコストは3〜4倍違いました。
この場合、

性能差はほぼ誤差。だからコストが1/4の gemini-3.1-pro を選ぶ。

という判断になります。

性能が拮抗しているときは、コストが決定打になる。

ステップ4:Rank Statusと「測れないもの」を確認する

最後に、数字の 信頼度と射程 を確認します。

確認1は imputed(補完)フラグ です。
APIの各スコアには imputed: true / false が付いており、true は実測ではなく推定値です。重要用途では補完値に頼らない方が安全です。

確認2は そもそもAI IQでは測れないもの です。

  • 日本語の自然さ
  • 敬体・常体の安定性
  • 社内用語への強さ
  • RAGで正しく根拠を拾えるか
  • 長い指示を守れるか
  • 出力フォーマットが安定するか

これらは公開ベンチマークでは分かりません。
なので前回記事と同じ結論になります。

AI IQで候補を絞り、最後は必ず自社タスクで実測する。

個人的に一番大事だと思ったこと

前回も書きましたが、今回さらに強く思いました。

ランキングを覚えることより、ランキングの読み方を持つこと。

実際、前回から今回までの間に、コーディング次元が2つに分割されました。

もし「総合1位はこれ」という結論だけを覚えていたら、この変更に対応できません。

でも、

用途を次元に翻訳して、分布の位置で読んで、コストと天秤にかけて、最後は自社で実測する

という 手順 を持っていれば、何が更新されても同じやり方で選べます。

結論は古くなります。
でも、判断プロセスは古くなりません。

だからこの記事は、結論を最初に出しつつ、その後ろに「なぜそう選べるのか」と「自分で選び直す手順」を置きました。

まとめ

用途別のモデル選定は、まず結論から。

用途 第一候補 コスパ候補
本番コーディング opus-4.8 glm-5.1
アプリ試作・フロント sonnet-4.6 gemini-3.5-flash
設計・アーキテクチャ gpt-5.5 gemini-3.1-pro
文章作成 opus-4.8 / sonnet-4.6 gemini-3.1-pro
資料作成(調査込み) gemini-3.1-pro
エージェント・自動化 gpt-5.5 kimi-k2.6

ただし、この表は「答え」ではなく「一例」です。
自分で選び直すための手順は、次の4ステップです。

  1. 用途を「次元」に翻訳する(コーディングを1語で考えない)
  2. スコアを「分布の位置」と「天井」で読む(同じ120でも意味が違う)
  3. IQとコストを同時に見る(拮抗時はコストが決定打)
  4. imputedと「測れないもの」を確認する(最後は自社タスクで実測)

AI IQは、ランキングの答えを見る場所ではなく、どこを掘るべきかを見つける入口として使う。

この距離感が、今のところ一番現実的だと思います。

参考リンク

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?