きっかけ
個人開発でIQテストを作っている。全30問、15分で5分野の認知能力を測定するWebサービスだ。
開発中に気になったことがある。ネットの無料IQテストって、本当に正確なのか?
自分のテストの精度を検証するために、他の無料IQテストを片っ端から受けてみることにした。10個受けた。結果は衝撃的だった。
10個のテスト結果一覧
| # | テスト名(仮) | 問題数 | 制限時間 | 出たスコア |
|---|---|---|---|---|
| 1 | サイトA | 20問 | なし | 132 |
| 2 | サイトB | 15問 | なし | 128 |
| 3 | サイトC | 25問 | 20分 | 118 |
| 4 | サイトD | 10問 | なし | 142 |
| 5 | サイトE | 30問 | 15分 | 108 |
| 6 | サイトF | 8問 | なし | 135 |
| 7 | サイトG | 40問 | 30分 | 112 |
| 8 | サイトH | 12問 | なし | 95 |
| 9 | サイトI | 20問 | 10分 | 103 |
| 10 | サイトJ | 35問 | 20分 | 110 |
最低95、最高142。 差が47もある。
IQ 95は「平均のやや下」、IQ 142は「全人口の上位0.3%」だ。同じ人間が同じ日に受けて、これだけバラつく。どちらかが(あるいは両方が)間違っている。
なぜこんなにバラつくのか
データを眺めて気づいたパターンがある。
制限時間がないテストほど、スコアが高く出る。
時間制限なしの5つ(A, B, D, F, H)のうち4つがIQ 120超え。唯一低かったサイトHは問題数が8問しかなく、ほぼ運ゲーだった。
逆に時間制限ありのテスト(C, E, G, I, J)は、95〜118の範囲に収まっている。
理由は単純で、時間をかければ誰でも正解にたどり着ける問題が多い。IQテストが本来測っているのは「制限時間内での処理速度」なのに、時間制限がないとそれが測れない。
信頼できるIQテストの5条件
10個を比較して、テストの信頼性を左右する要素が見えてきた。
1. 問題数が30問以上あるか
統計的に信頼できるスコアを出すには、最低でも30問は必要。問題数が少ないと、1問の正誤がスコアに与えるインパクトが大きすぎて、運の要素が強くなる。
サイトD(10問)やサイトF(8問)は論外だ。8問のテストで「あなたのIQは135です」と言われても、コイントスで表が3回続いたようなもの。
2. 制限時間があるか
先述の通り、制限時間なしのテストは処理速度を測れない。ウェクスラー式やレーヴンの累進行列など、確立されたIQテストには必ず時間制限がある。
制限時間の目安は15〜30分。これより短いと問題数が足りず、長いと集中力の測定になってしまう。
3. 難易度が段階的に変化するか
良いIQテストは、簡単な問題から始まって徐々に難しくなる。これは項目応答理論(IRT) に基づいた設計で、各難易度帯での正答パターンから能力値を推定する。
サイトAは全問同じくらいの難易度で、サイトDは逆に最初から難しかった。どちらもスコアの精度が低くなる。
4. パターン認識を中心に測定しているか
IQテストの核心は流動性知能(gf)の測定だ。流動性知能とは、新しい問題に直面したときの推論能力のこと。これを最もよく測れるのがパターン認識問題。
サイトBは語彙問題や一般常識問題が半分以上を占めていた。これは結晶性知能(gc)の測定であって、教育や文化背景に依存する。異なる言語・文化圏の人に同じ基準で使えない。
本来のIQテストは、言語や文化に依存しない図形パターン問題を軸にすべきだ。
5. 規範データ(ノーム)があるか
IQスコアは絶対値ではない。「同年代の集団の中で、あなたはどの位置にいるか」を示す相対的な数値だ。平均100、標準偏差15の正規分布に当てはめて算出する。
これには大量の受験データ(規範データ) が必要。受験者が数百人しかいないテストでは、その正規分布自体が歪んでいる可能性がある。
サイトF(8問・時間制限なし・規範データ不明)が「IQ 135」と出したのは、根拠がない数字だと言っていい。
10個のテストを5条件で評価してみた
| # | 問題数 | 制限時間 | 難易度変化 | パターン認識中心 | 規範データ | 総合 |
|---|---|---|---|---|---|---|
| A | △ 20問 | ✕ なし | △ | ○ | 不明 | D |
| B | △ 15問 | ✕ なし | ✕ | ✕ 語彙中心 | 不明 | E |
| C | △ 25問 | ○ 20分 | ○ | ○ | 不明 | B |
| D | ✕ 10問 | ✕ なし | ✕ | ○ | 不明 | E |
| E | ○ 30問 | ○ 15分 | ○ | ○ | ○ | A |
| F | ✕ 8問 | ✕ なし | ✕ | △ | ✕ | E |
| G | ○ 40問 | ○ 30分 | ○ | △ | 不明 | B |
| H | ✕ 12問 | ✕ なし | ✕ | ○ | ✕ | E |
| I | △ 20問 | ○ 10分 | △ | ○ | 不明 | C |
| J | ○ 35問 | ○ 20分 | ○ | ○ | 不明 | A |
5条件をすべて満たしていたのは10個中2つだけだった。
そしてこの2つ(E, J)のスコアはIQ 108とIQ 110。ほぼ同じ結果が出ている。信頼できるテストは、結果も一致する。
高すぎるスコアは疑ったほうがいい
無料IQテストのビジネスモデルを考えると、高いスコアを出すインセンティブがある。
ユーザーが高スコアを取る → 嬉しくてSNSでシェアする → サイトにトラフィックが来る → 広告収入が増える。
だから多くの無料テストは、意図的に甘い採点をしている。10問で「IQ 142」が出るサイトは、ほぼ確実に水増ししている。
逆に、スコアが「思ったより低い」テストのほうが正確な可能性が高い。統計的に正しく作ると、受験者の半分はIQ 100以下になる。それが正規分布というものだ。
認知プロファイルを出せるか
もう一つ、信頼性の指標として重要なのが認知プロファイルの有無だ。
「IQ 110」という数字だけでは、実はあまり意味がない。同じIQ 110でも、パターン認識が得意で言語処理が苦手な人と、その逆の人では認知特性がまったく違う。
10個のテストのうち、分野別のスコアを出してくれたのは3つだけだった。残りの7つは総合IQスコアしか表示しない。
認知プロファイルを出すには、各分野ごとに十分な問題数と統計処理が必要になる。手間がかかるから、ほとんどの無料テストはやっていない。
まとめ:信頼できるテストの見分け方チェックリスト
無料IQテストを受けるとき、最低限チェックしたい項目。
- 問題数が30問以上あるか(20問以下は統計的に不十分)
- 制限時間が設定されているか(なしは処理速度を測れない)
- 簡単→難しいの順で出題されるか(難易度が一定のテストは精度が低い)
- 図形パターン問題が中心か(語彙や常識問題ばかりだと文化依存)
- 分野別の認知プロファイルが出るか(総合スコアだけでは情報不足)
- スコアが現実的か(10問で「IQ 140」は疑ったほうがいい)
自分が開発しているIQテストは、この5条件すべてを満たすように設計した。全30問、制限時間15分、5分野の認知プロファイル付き。累計数万人の受験データから規範データを構築して、平均100・標準偏差15になるようキャリブレーションしている。
正直、スコアは甘くない。半分の人はIQ 100以下になる。でもそれが正確なIQテストだと思っている。
気になる人は試してみてほしい。所要時間は15分。


