前の記事で外部と通信せずにローカルで生成AIを動かせる「LM Studio」を入れてみた。
色々なモデルが利用できるので、どの程度の性能があるかモデル毎に比較してみた。
ただし、特定の条件に強いモデルもあるので、あくまで以下の結果や評価は私個人の意見です。
論理クイズ対決
モデル3つに、論理クイズを3つ出題して正解かどうかと、回答を始めるまでの秒数を比較してみた。
使った問題は以下のWebサイトから良さそうかなと独断で選んだ3つの問題。
・https://mayonez.jp/topic/1129804
・https://blog-knowledgequiz.com/ronriquiz/
ただし生成AIが正しい答えを出しやすいように、以下のWebサイトの言葉は多少変えてある。見たい方は↓をクリックしてください。
テストに使った論理クイズ3問
■ 消えた1ドル
3人がホテルに宿泊することになりました。ホテルの宿泊料は1人10ドルです。3人は受付で合計30ドルを渡しました。
キャンペーンのため、3人で25ドルだったことを思い出した受付スタッフは、5ドルを3人へ返すことにしました。
しかし、5ドルは3人で割り切れません。そこで、2ドルは自分の財布にしまい、残りの3ドルを3人へ返します。
1人9ドルで宿泊できる計算です。3人で27ドル支払ったことになり、受付スタッフが財布に入れた2ドルを合わせると29ドルです。残りの1ドルはどこに消えてしまったのでしょうか。
答えと理由を簡潔に日本語で答えてください。
【答え】はじめから1ドルは消えていない。3人が支払った27ドルの内訳は、「正規料金の25ドル+受付スタッフが財布に収めた2ドル」になるので、支払った27ドルと、その27ドルに含まれる2ドルを足すのは間違っている。27ドルに、3人に返した3ドルを足すのが正しい。
■ 黒い玉、白い玉
かばんの中に、20個の白い玉と13個の黒い玉があります。
また、かばんに入れていない白い玉と黒い玉がたくさんあります。
かばんから、2個ずつ玉を取り出していきます。
このとき、「白と白」「黒と黒」など、同じ色なら白い玉をかばんに1個入れます。違う色なら黒い玉をかばんに入れていきます。
一度取り出した玉は、かばんに戻すことができません。
最後に残る玉は何色でしょうか。
答えと理由を簡潔に日本語で答えてください。
【答え】黒。まず黒が13個(奇数)であることに着目する。白白、黒黒、白黒の3パターンとも黒は減らないか、2個同時に減るかの2パターンであるため、常にカバンの中の「黒」の玉は奇数である。よって、最後の1個残った時、その球は「黒」である。
■ 犯人探し
殺人事件が起きた。容疑者はA,B,C,Dの4人であり、この中の1人が犯人である。
この4人に事情聴取をした。
A:「BかCが犯人だ」
B:「私は犯人じゃない」
C:「AかDが犯人だ」
D:「Aは嘘をついている」
A,B,C,Dとも犯人が誰かを知っており、犯人だけが嘘の証言をしている。
では、犯人は誰か。
答えと理由を簡潔に日本語で答えてください。
【答え】A。Aが犯人、Bが犯人、と順に考えていくと唯一矛盾が無いのが「Aが犯人」
比較したモデルは以下。どれも12GB前後のモデルにした。
・openai/gpt-oss-20b
・google/gemma-3-12b
・qwen/qwen3-30b-a3b-2507
結果は以下
「openai/gpt-oss-20b」がすべて正解。時間がかかっているのは考えている過程も出力していることも要因かもしれない。

論理クイズ対決では、「openai/gpt-oss-20b」が気に入った
画像読み込み対決
画像入力対応のモデル3つに3つの質問をしてみる
質問1.この花は何という花ですか。

質問3.この図からクリティカルパスと、その日数を求めてください。

比較したモデルは以下。
・qwen/qwen3-vl-8b
・qwen/qwen2.5-vl-7b
・google/gemma-3-12b
・google/gemma-3-4b
結果は以下
ちなみに書いている秒数は回答を「始める」までの秒数をカウントしたので、回答が終わるまでにはさらに時間がかかっている。

質問が偏っているし、バラツキがあるのでどのモデルが良いとは言いにくい……。
また、何度か質問を繰り返していると回答が変わるので、常に間違う/正しいというわけでも、もちろんない。
結果だけを見ればQwen系の方が良さそうかな、くらいの印象だった。
