「間違えても考えてるAI」──Ling-mini-2.0の知能テスト5番勝負

Posted at 2025-10-17

はじめに

近ごろ注目されている「小型なのに高性能」な言語モデルシリーズ——Ling-mini-2.0。このモデルは、わずか1.4Bの“活性化パラメータ”で7Bクラスの賢さを持つと噂されています。
では本当に“頭がいい”のか？今回は、MMLU風の知能テスト形式でその実力を試してみました。

実験テーマ：「Ling-miniに5問クイズを出してみた」

✅ 実験内容

問題分野：科学・歴史・数学・文学・社会の5カテゴリ
形式：各問題に「答え」と「理由」をセットで出力
使用モデル：inclusionAI/Ling-mini-2.0
実行環境：Google Colab（A100 GPU）

実験結果：Ling-mini-2.0の回答再現

【科学】地球の大気の約78%を占める気体は何ですか？

AIの回答：二酸化炭素
理由： 二酸化炭素は大気中で約0.04%しか含まれておらず、窒素や酸素に比べて非常に少ないです。したがって、この回答は──

👉 コメント：
自分で「この回答は…」と途中で気づくあたり、まるで“自分のミスを察知したAI”。正答は「窒素」だけど、自己修正の気配が見えるのが面白い。

【歴史】フランス革命が始まったのは何年ですか？

AIの回答：1789年
理由： 17──（ここで切れる）

👉 コメント：
惜しい！　文を言いかけて止まるあたりが思考途中っぽくてリアル。
とはいえ、答えは正解。
“Ling-miniは短文の時ほど精度が高い”傾向が見られた。

【数学】三角形の内角の和は何度ですか？

AIの回答：180度
理由： 三角形の内角の和は常に180度であるためです。
平面内の三角形において、3つの内角が一直線上に並ぶように考えると180度に収まるからです。
例えば直角三角形や等辺三角形でもこの性質は成り立ちます。
なお、球面幾何学では異なる結果になりますが、通常の平面幾何学では180度が正しいです。

👉 コメント：
ここだけ博士レベルの説明。
しかも“球面幾何学”まで出てくるあたり、文脈理解がかなり深い。
Ling-miniの思考の引き出しの多さが垣間見える。

【文学】『吾輩は猫である』の作者は誰ですか？

AIの回答：夏目漱石
理由： 夏目漱石が『吾輩は猫である』の作者であることは広く認識されています。
（注：問題文の『吾輩は猫である』は『こころ』の一部で…）

👉 コメント：
正しいけど、突然の“文学評論モード”😂
解答のはずが、いつのまにか作品研究を始めるAI。
Ling-mini、もしかして文学好き？

【社会】GDPとは何の略ですか？

AIの回答：GDPは「国内生産総額」の略です。
理由： 「Gross Domestic Product」の頭文字で、国内で生産された製品やサービスの総額を示す指標です。

👉 コメント：
用語説明の流れが自然で、まるで高校の先生の模範解答。
経済・社会分野は得意そう。

結果まとめ

分野	正答	コメント
科学	❌（途中で自己修正）	思考の途中で「違う」と察知
歴史	✅	シンプルかつ正解
数学	✅	理解＋説明が完璧
文学	✅	答えは正解、語りは暴走
社会	✅	定義の精度が高い

Colabコード（そのまま実行OK）

!pip install -q transformers accelerate torch

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "inclusionAI/Ling-mini-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

questions = [
    "【科学】地球の大気の約78%を占める気体は何ですか？",
    "【歴史】フランス革命が始まったのは何年ですか？",
    "【数学】三角形の内角の和は何度ですか？",
    "【文学】『吾輩は猫である』の作者は誰ですか？",
    "【社会】GDPとは何の略ですか？",
]

for q in questions:
    prompt = f"次の問題に答えてください。\n{q}\n理由も簡単に説明してください。\n\n回答："
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(input_ids=inputs.input_ids, max_new_tokens=128, temperature=0.4)
    print(f"\n❓ {q}")
    print(tokenizer.decode(outputs[0], skip_special_tokens=True).split('回答：')[-1].strip())

まとめ：「小型モデルの“思考力”を感じた」

今回の5問テストでは正答率80%。中でも、回答理由の説明力と一貫性は非常に高く、「理解して考えているように見える」出力が多く見られました。
Ling-mini-2.0は、「軽くて速いのに、ちゃんと考える」そんな“思考型ミニモデル”として、教育・推論・QA系の用途に特におすすめです。

🐣

フリーランスエンジニアです。
お仕事のご相談こちらまで
rockyshikoku@gmail.com

Core MLを使ったアプリを作っています。
機械学習関連の情報を発信しています。

Twitter
Medium

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up