Raspberry Pi Zero WでGPT-2を動かした

Posted at 2026-04-06

メモリ的にできそうだったのでRaspberry Pi Zero WでGPT-2を動かしました。
多分もっといいやり方はありますが、少なくとも僕が踏んだ手順はこんな感じです：

0. 準備

ラズパイのOSを用意します。Raspberry Pi Imagerを使って以下の順に進めます：

起動したらパソコンから入ります：

#ここのホスト名・ユーザー名・パスワードはOS設定時に入れたもの
ssh username@ip

入れたら更新もささっと済ませます：

sudo apt update
sudo apt full-upgrade -y

メモリを食う作業をするので一応スワップを有効化します：

sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

今回必要なものを入れます：

sudo apt install -y git cmake ccache build-essential libpthread-stubs0-dev python3-pip

llama.cppはPi Zeroだと動かないので対応しているllama.zeroを入れます。

GitHubからllama.zeroを引っ張ってきてビルドします：

git clone https://github.com/pham-tuan-binh/llama.zero.git
cd llama.zero

cmake -B build
cmake --build build --config Release -j1

こちらは試してませんが、サーバーがいらないときはこれでいいらしいです：

cmake -B build -DLLAMA_BUILD_SERVER=OFF
cmake --build build --config Release -j1

どっちみちとんでもなく時間かかります。（数時間程度目安）

どこからでも呼び出せるようにします：

echo 'export PATH="$PATH:$HOME/llama.zero/build/bin"' >> ~/.bashrc
source ~/.bashrc

モデルをダウンロードするためにHuggingFace CLIをインストールします：

python3 -m pip install --user -U huggingface_hub --break-system-packages

今回のモデルダウンロードにログインは不要です。（モデルによっては必要になることもあります。）

本当はLFM-2.5-350Mを試したかったんですが、llama.zeroがlfm2アーキテクチャに対応していませんでした。なので代わりにGPT-2（の量子化済みGGUF）です：

hf download QuantFactory/gpt2-GGUF gpt2.Q4_K_M.gguf --local-dir ~/models/QuantFactory

ちゃんと使おうとすると大変なことになるのでかなり控えめな設定で呼び出します：

llama-cli -m ~/models/QuantFactory/gpt2.Q4_K_M.gguf -t 1 -c 128 -n 64 -p "Hello"

Raspberry Pi Zero Wなので仕方ないですがかなり制限があります：