ローカルLLMは「ラ・サール中」の難問を解けるのか?最新モデル比較で見えた驚きの知能差
- 導入:AIに「受験算数」を解かせる意味
「最新のAIならば、中学入試程度の問題は造作もなく解き明かすだろう」――。そんな楽観的な期待は、難関私立中学の算数という「知の迷宮」の前で脆くも崩れ去るかもしれません。中学入試の算数は、単なる計算の速さではなく、補助線をどこに引くかといった「ひらめき」や、図形の背後に隠された構造を見抜く高度な直感力が問われるからです。
本稿では、AI技術の最前線である「ローカルLLM(特定のサーバーに依存せず、手元の環境で動作する大規模言語モデル)」を用い、その思考の深淵を検証します。検証対象は以下の3モデル。
- Qwen 3.6-35b
- Gemma 4-31b
- Gemma 3-12b
九州の雄、ラ・サール中学校の図形問題や、東北大学の入試問題を舞台に、モデルサイズがもたらす「越えがたい知性の境界線」を浮き彫りにしていきます。
- 驚きの補助線:幾何学問題で見せた「数学的センス」
ラ・サール中学校の図形問題において、上位モデルである Qwen 3.6-35b と Gemma 4-31b は、まさに「数学的カタルシス」とも呼べる鮮やかな解法を提示しました。
問題は、底辺6cm、左辺1cm、底角が共に60°、頂角のひとつが150°の四角形から未知の辺を求めるというもの。これに対し、両モデルは図形を外側に拡張し、巨大な「正三角形」を構築するという驚くべき補助線を提案しました。底辺の両端が60°であることを足掛かりに、頂点に向かって辺を伸ばすことで、一辺6cmの正三角形が元の図形を優しく包み込むように出現するプロセスを、彼らは正確に予見したのです。
「この大きな三角形は正三角形になります。したがって、大きな三角形の3辺の長さはすべて 6 cm です。」(Gemma 4-31bの思考プロセスより)
さらに驚くべきは、150°の外角が30°であることを利用し、そこに「30°-60°-90°の直角三角形」を見出した点です。斜辺5cmに対し、30°の対辺がその半分(2.5cm)になるという性質を鮮やかに適用。最終的に 6 - 2.5 = 3.5\text{cm} という正解を導き出しました。この一連の推論は、AIが記号の羅列ではなく、空間の構造を人間のように把握し始めている証左と言えるでしょう。
- 「図形ではない」という誤解:モデルサイズが生む決定的な壁
光り輝く知性の影で、小規模モデルである Gemma 3-12b は決定的な限界を露呈しました。
このモデルは、提示された角度(60°、150°、60°)を合計し、「270度になるため、三角形の内角の和180度を超えている。ゆえにこの図形は成立しない」と断じたのです。これは単なる誤答ではありません。複数の情報を統合して「四角形」や「図形の一部」という文脈を構築できず、局所的な論理矛盾に囚われて思考を停止させる「情報の断片的な解釈」による早合点です。
中規模モデル(31b以上)が持つ「文脈を統合するアテンションの深さ」と、小規模モデルの間に横たわる、空間把握における知的なリミットが残酷なまでに可視化された瞬間でした。
- 数式の迷宮:東北大学の入試問題に挑む論理の力
続いて挑んだのは、東北大学の「2次方程式 2x^2 + 4xy + 3y^2 + 4x + 5y - 4 = 0 における x の最大値」を求める問題です。
ここでは上位モデルの精緻な論理展開が光りました。Gemma 4-31b や Qwen 3.6-35b は、この式を y についての2次方程式として再定義し、「y が実数として存在するための条件」として判別式 D \ge 0 を活用。x の動ける範囲を論理的な檻に閉じ込める手法を選択しました。
- 3y^2 + (4x + 5)y + (2x^2 + 4x - 4) = 0 と整理。
- 判別式 D = (4x + 5)^2 - 12(2x^2 + 4x - 4) \ge 0 を精密に展開。
- 8x^2 + 8x - 73 \le 0 という2次不等式を導出。
この計算過程において、複雑な多項式の展開も一切淀みなく進め、最終的に解の公式を用いて最大値 \displaystyle \frac{-2 + 5\sqrt{6}}{4} に到達しました。大学入試レベルの抽象的な数式処理において、上位モデルはもはや「疑いようのない論理の担い手」となっています。
- 不安定な計算と「整数の罠」:AIが陥る計算の癖
しかし、ここでも Gemma 3-12b は自ら掘った墓穴に落ちていきました。計算の過程で 25 - 12(-4) を計算すべき局面において、突如として -24(x^2 + 2x - 4/3) という強引な変形を試み、結果として定数項を「57」と見誤る致命的な計算ミスを犯したのです。
さらに興味深いのは、その後の「知的な体裁を繕うハルシネーションの罠」です。計算ミスにより x \approx 2.215 という不格好な数値を導き出したモデルは、何を血迷ったか「入試の答えは整数のはずだ」という根拠のないメタ推論に逃げ込みました。
「問題の答えは整数である可能性があるので、最も近い整数を検討します。…… x \approx 2.215 なので、最も近い整数は 2 または 3 です。」(Gemma 3-12bの回答より)
その後、モデルは x=2 と x=3 を代入して確認を行い、最終的に「x の最大値は 2 です」と堂々たる誤答を提示しました。計算能力が不足するモデルほど、論理が破綻した際に「もっともらしい推論」で強引に結論を誘導してしまう――。この脆弱性は、我々がAIの回答を鵜呑みにすることの危険性を雄弁に物語っています。
- 結論:ローカルLLMは「考える道具」としてどこまで来たか
今回の検証から得られた結論は明確です。31bクラス以上のモデルであれば、難関校の数学であっても人間と同等、あるいはそれ以上の解法プロセスを提示できるステージに達しています。特に図形問題における幾何学的な「ひらめき」のシミュレーション能力は、従来の計算機の枠を超えた、真に「考える道具」としての可能性を感じさせるものです。
一方で、小規模モデルに見られた「局所的な論理矛盾への固執」や「整数への逃避」といった挙動は、AIが依然として統計的なバイアスと論理の狭間で揺れ動いていることを示しています。
今後、ローカルLLMが教育や個人開発の現場で「思考のパートナー」となる未来は確実でしょう。AIが「ひらめき」を完全に再現し、完璧な論理を構築できるようになったとき、人間の学習はどう変わるべきか。私たちは、AIを単なる「正解出力機」として扱うのではなく、自らの思考の癖を映し出し、論理を磨き上げるための「知性の鏡」として活用する知恵を身につけるべきなのです。