要約
ローカルLLM Gemma4に2026年各日の曜日を尋ねたら半分くらいしか正解しなかったが、2025年について同様に調べたら約96%の正答率だった。
動機
第2回の記事で、Gemma4に2026年の曜日を尋ねたら半分くらいしか正解しなかったこと、また月により正答率にばらつきがあったと報告したが、他の年でも同様の傾向がみられるのか疑問を持った。
未来の日付について検討を進めた第3回に対し、今回は過去方向に検討を進めていく。
環境
前回と同じ。
- Gemma4(モデルE4B)
- Ollama(Windows用 ver. 0.30.10)
- Python 3.14.6
- ollama 0.6.2(Pythonパッケージ)
方法
前回の記事のPythonのコードを year = 2026 を 2025 から 2018 までと 2010, 2000, 1960 に変えて実行した。
結果と考察
2025年
結果
正しく答えた日付の総数: 349
2曜日以上ずれた日付を出力:
2025/04/01: 3
2025/10/19: 4
総数: 2
曜日以外のものを出力:
2025/01/25: サ曜日
総数: 1
月別の正答率:
1月: 90.3%
2月: 96.4%
3月: 96.8%
4月: 96.7%
5月: 87.1%
6月: 90.0%
7月: 96.8%
8月: 96.8%
9月: 100.0%
10月: 96.8%
11月: 100.0%
12月: 100.0%
ずれの分布を集計:
-3: 1(0.3%)
-2: 0(0.0%)
-1: 6(1.6%)
0: 349(95.9%)
1: 7(1.9%)
2: 0(0.0%)
3: 1(0.3%)
考察
2026年の結果とは打って変わって正答率96%と好成績となった。曜日を正確に答えない原因として、Gemma4 + Ollamaは推論エンジンなので計算をしているわけではないという話を検索(時にトップに表示されるAIの回答だったかも)でみかけたが、推論の元データが2025年までのデータということかもしれない。
月別の正答率でみると年の後半の方が前半より成績が良い。前回記事の2026年の集計でも年の前半と後半に差があるが、前半の方が成績が良い。やはり学習データがその辺りに偏っているということだろうか。
ずれの分布は誤答数が少ないので統計とは言い難いが、±1日に計13日、±3日には1日ずつ計2日、±2日は0だった。今回は前にずれる場合と後ろにずれる場合に大きな偏りは出なかった。
1日分だけだったが、曜日以外の回答をした日付があった。その日付は 2025/01/25 で土曜日なのだが、サ曜日というのは「サタデー」と混じってしまったのだろうか。画像生成AIで背景に文字があると、複数の文字が合成されて存在しない文字になるのと似た現象かもしれない。
2024年
結果
正しく答えた日付の総数: 336
2曜日以上ずれた日付を出力:
2024/04/03: 5
2024/04/23: 4
総数: 2
曜日以外のものを出力:
2024/05/07: 二曜日
2024/05/28: 二日
2024/05/29: 三土曜日
2024/10/07: 一]
2024/10/22: 二曜日
2024/10/29: 二曜日
総数: 6
月別の正答率:
1月: 83.9%
2月: 93.1%
3月: 90.3%
4月: 93.3%
5月: 87.1%
6月: 93.3%
7月: 100.0%
8月: 96.8%
9月: 93.3%
10月: 87.1%
11月: 90.0%
12月: 93.5%
ずれの分布を集計:
-3: 1(0.3%)
-2: 1(0.3%)
-1: 7(1.9%)
0: 336(93.3%)
1: 15(4.2%)
2: 0(0.0%)
3: 0(0.0%)
これも日曜日でなく日曜と回答した場合を正答としている。
考察
2023年
正しく答えた日付の総数: 290
2曜日以上ずれた日付の総数: 17
曜日以外のものを出力:
2023/03/28: \[
\text{木}
\]
2023/05/05: フ요일
2023/05/12: 手曜日
2023/06/01: どようび
2023/06/15: ```json
{
"day_of_week": "四日曜日"
}
```
2023/08/01: 週三
総数: 6
月別の正答率:
1月: 90.3%
2月: 92.9%
3月: 83.9%
4月: 90.0%
5月: 38.7%
6月: 40.0%
7月: 87.1%
8月: 74.2%
9月: 73.3%
10月: 96.8%
11月: 96.7%
12月: 90.3%
ずれの分布を集計:
-3: 13(3.6%)
-2: 2(0.6%)
-1: 13(3.6%)
0: 290(80.8%)
1: 39(10.9%)
2: 2(0.6%)
3: 0(0.0%)
2022年
正しく答えた日付の総数: 194
2曜日以上ずれた日付の総数: 56
曜日以外のものを出力:
2022/04/21: という
2022/05/25: 三日月火曜日
2022/07/21: ★★★
2022/08/12: 指曜日
2022/12/27: 二日
総数: 5
月別の正答率:
1月: 48.4%
2月: 50.0%
3月: 45.2%
4月: 43.3%
5月: 54.8%
6月: 46.7%
7月: 51.6%
8月: 32.3%
9月: 76.7%
10月: 74.2%
11月: 46.7%
12月: 67.7%
ずれの分布を集計:
-3: 21(5.8%)
-2: 19(5.3%)
-1: 68(18.9%)
0: 194(53.9%)
1: 42(11.7%)
2: 7(1.9%)
3: 9(2.5%)
考察
過去になるほどデータの重み付けが軽くなるのかもしれないが、正答率は約54%にまで低下した。
2021年
正しく答えた日付の総数: 118
2曜日以上ずれた日付の総数: 93
曜日以外のものを出力:
2021/03/01: 一
日曜日
2021/04/01: 一
木曜日
2021/04/21: 休日の日
2021/05/01: ロー
2021/06/01: Wednesday
2021/12/01: ○
2021/12/10: #金曜日
総数: 7
月別の正答率:
1月: 45.2%
2月: 35.7%
3月: 32.3%
4月: 30.0%
5月: 29.0%
6月: 33.3%
7月: 32.3%
8月: 38.7%
9月: 26.7%
10月: 22.6%
11月: 33.3%
12月: 29.0%
ずれの分布を集計:
-3: 27(7.5%)
-2: 25(7.0%)
-1: 108(30.2%)
0: 118(33.0%)
1: 39(10.9%)
2: 17(4.7%)
3: 24(6.7%)
仕様により#金曜日という回答は形式違反で不正解にしているが、日曜は曜日があっていれば正解にしている。バグじゃないよ仕様という名のバグだよ。
考察
正答率が30%台に低下してきた。
月別の正答率は1月以外30%前後でほぼ一定している。
2020年
結果
正しく答えた日付の総数: 119
2曜日以上ずれた日付の総数: 119
曜日以外のものを出力:
2020/01/31: Saturday
2020/03/19: と
2020/03/20: 真
2020/04/01: [https://www.google.com/search?q=2020/04/01&hl=ja]土曜日
2020/10/04: サタデー
2020/10/19: 一か五
総数: 6
月別の正答率:
1月: 51.6%
2月: 24.1%
3月: 32.3%
4月: 40.0%
5月: 38.7%
6月: 0.0%
7月: 41.9%
8月: 32.3%
9月: 50.0%
10月: 29.0%
11月: 23.3%
12月: 25.8%
ずれの分布を集計:
-3: 25(6.9%)
-2: 38(10.6%)
-1: 56(15.6%)
0: 119(33.1%)
1: 66(18.3%)
2: 30(8.3%)
3: 26(7.2%)
考察
正答率は2021年と比べて横ばい。
月別の正答率は6月が0%とばらつきが目立つ。
ずれの分布は正規分布風といえるか。
2019年
正しく答えた日付の総数: 139
2曜日以上ずれた日付の総数: 97
曜日以外のものを出力:
2019/04/01: 直日
2019/04/11: 목요일
2019/05/01: 奉納日
2019/06/11: 화요일
2019/07/11: 목요일
2019/08/12: 목요일
2019/09/07: 금요일
2019/09/12: 목요일
2019/10/05: 토요일
2019/10/15: 장일요일
総数: 10
月別の正答率:
1月: 16.1%
2月: 17.9%
3月: 35.5%
4月: 26.7%
5月: 35.5%
6月: 43.3%
7月: 29.0%
8月: 38.7%
9月: 40.0%
10月: 45.2%
11月: 63.3%
12月: 64.5%
ずれの分布を集計:
-3: 18(5.1%)
-2: 20(5.6%)
-1: 59(16.6%)
0: 139(39.2%)
1: 60(16.9%)
2: 32(9.0%)
3: 27(7.6%)
考察
正答率は約40%で低下傾向が止まったようにも見える。
曜日以外の出力はほとんどが韓国語だった。
목요일: 木曜日
화요일: 火曜日
금요일: 金曜日
토요일: 土曜日
장일요일: 일요일は日曜日という意味で、googleに無理やり翻訳させると長日曜日という存在しない用語のようだ。
8/12 は月曜日 9/7は金曜日
10/15は火曜日
で間違っているが、ほかはあっている。
2019年4-10月に韓国語の回答が集中しているのはなにか理由があるのだろうか。
ずれの分布は2020年同様、正規分布風といえるか。
2018年
結果
正しく答えた日付の総数: 62
2曜日以上ずれた日付の総数: 148
曜日以外のものを出力:
2018/04/01: がきて
2018/05/01: [火曜日
2018/07/20: 指曜日
2018/12/01: フリデー
総数: 4
月別の正答率:
1月: 9.7%
2月: 28.6%
3月: 16.1%
4月: 23.3%
5月: 12.9%
6月: 6.7%
7月: 19.4%
8月: 22.6%
9月: 10.0%
10月: 9.7%
11月: 26.7%
12月: 19.4%
ずれの分布を集計:
-3: 33(9.1%)
-2: 24(6.6%)
-1: 34(9.4%)
0: 62(17.2%)
1: 117(32.4%)
2: 63(17.5%)
3: 28(7.8%)
考察
正答率は20%を切るところまで低下した。
2010年
結果
正しく答えた日付の総数: 62
2曜日以上ずれた日付の総数: 179
曜日以外のものを出力:
2010/02/01: フ요일
総数: 1
フはハングルではなくカタカナ
月別の正答率:
1月: 9.7%
2月: 14.3%
3月: 9.7%
4月: 16.7%
5月: 35.5%
6月: 3.3%
7月: 19.4%
8月: 35.5%
9月: 23.3%
10月: 9.7%
11月: 6.7%
12月: 25.8%
ずれの分布を集計:
-3: 35(9.6%)
-2: 53(14.6%)
-1: 49(13.5%)
0: 64(17.6%)
1: 72(19.8%)
2: 58(15.9%)
3: 33(9.1%)
考察
現在から離れすぎると、曜日以外のものを出力する件数が減るのは、未来編でもあった現象。
2000年
結果
正しく答えた日付の総数: 56
2曜日以上ずれた日付の総数: 202
曜日以外のものを出力:
総数: 0
月別の正答率:
1月: 12.9%
2月: 6.9%
3月: 38.7%
4月: 3.3%
5月: 3.2%
6月: 16.7%
7月: 0.0%
8月: 6.5%
9月: 16.7%
10月: 25.8%
11月: 30.0%
12月: 22.6%
ずれの分布を集計:
-3: 43(11.7%)
-2: 91(24.9%)
-1: 28(7.7%)
0: 56(15.3%)
1: 80(21.9%)
2: 43(11.7%)
3: 25(6.8%)
考察
正答率は約15%と1/7に近くなった。もっとも、ずれの分布は均一ではない。
曜日以外のものを出力する件数が0になった。
1990年
正しく答えた日付の総数: 55
2曜日以上ずれた日付の総数: 182
曜日以外のものを出力:
総数: 0
月別の正答率:
1月: 3.2%
2月: 14.3%
3月: 6.5%
4月: 23.3%
5月: 9.7%
6月: 6.7%
7月: 22.6%
8月: 22.6%
9月: 30.0%
10月: 0.0%
11月: 10.0%
12月: 32.3%
ずれの分布を集計:
-3: 43(11.8%)
-2: 61(16.7%)
-1: 57(15.6%)
0: 55(15.1%)
1: 71(19.5%)
2: 45(12.3%)
3: 33(9.0%)
考察
インターネット普及前の年代まで遡ってみたが、2000年と大差なかった。2000年あたりからは学習データの範囲外なのだろう。
1960年
結果
正しく答えた日付の総数: 55
2曜日以上ずれた日付の総数: 182
曜日以外のものを出力:
総数: 0
月別の正答率:
1月: 12.9%
2月: 0.0%
3月: 0.0%
4月: 16.7%
5月: 25.8%
6月: 20.0%
7月: 16.1%
8月: 6.5%
9月: 10.0%
10月: 25.8%
11月: 0.0%
12月: 6.5%
ずれの分布を集計:
-3: 48(13.1%)
-2: 56(15.3%)
-1: 77(21.0%)
0: 43(11.7%)
1: 39(10.7%)
2: 49(13.4%)
3: 54(14.8%)
考察
一気にepoch(1970/1/1)よりも前まで遡ってみたが、正答率が約12%と1/7を割り込んでいるが、目立った変化はなかった。
ずれの分布はランダムに近いくらい均一になったとは思う。
実行速度
おおむね順調に進行する。
2021年はGPU負荷が上がってひっかかることがやや多かった印象。
2018年もややひっかかることがあった。
1990年はひっかかりが多かった。
1960年はほとんどひっかからなかった。
結語
以上の結果をいくらか主観を交えながらまとめていくと:
- 正答率は2025年では約96%と2026年と比べて格段に高い成績を示した。
更新履歴
日付降順。表現の修正などは除く。
- 2026/7/1: とりあえず投稿。
- 2026/6/22: 作成開始するが、未来の部分が大きくなったので後回しにすることに。
次はプロンプトを変えて、問題を回避できるかを試す予定。