Ollama-MMLU-Proを動かすまで

Last updated at 2024-08-03Posted at 2024-08-03

Ollama-MMLU-Proとは

https://github.com/chigkim/Ollama-MMLU-Pro
LLMの新しいテストの一つのMMLU-Proをvllmやgeminiではなく、Ollamaでテストを実行するためのもの。ChatGPT互換なのでgroqでも動く（tokenが制限に引っかかります)

git clone https://github.com/chigkim/Ollama-MMLU-Pro
pip install -r requirements.txt

pip install --upgrade datasets

これをしないと以下エラーが出ることがある。phindに聞けば教えてくれるけど

1284, in generate_from_dict
    return Sequence(feature=generate_from_dict(obj["feature"]), length=obj["length"])
KeyError: 'length'

設定ファイルの config.tomlを好きなモデルに修正

model = "llama3.1:8b-instruct-q8_0"

モデルをダウンロードしておく。ちなみにダウンロード先は
Linux: /usr/share/ollama/.ollama/models
https://github.com/ollama/ollama/blob/main/docs/faq.md

ollama pull llama3.1:8b-instruct-q8_0

あとは実行するだけ

python run_openai.py

ただ、一つのカテゴリーでA4000でも数時間ぐらいかかる。
どうも、１問ごとに保存しているだけあって、途中で終わっても、再開できるみたいだ。（最後までテスト終わってない)

テスト結果で気をつけるべきは、無回答の場合、randomで答えを割り振るみたいです。結果を見るとき注意が必要