前回は以下のような感じでPCのGPUで遊びました。
今回はたまたま秋月で在庫があったAI HAT+ 2で遊びました。先に結論: 現時点ではQwen3.5の利用方法は私にはわかってません。期待外れだ
調べた限りではHailo-10Hをllama.cppの公式実装から使う方法は現時点ではなく、ollamaに似せたhailo-ollamaという独自の実装から限られたモデルを呼べるだけ、のように見えています。苦労すればHFのモデル持ってきて動かすみたいなことは出来るかもしれませんが、この(2026-03-20時点の)記事ではスルッと出来る感じではありませんです。
じゃ、使えるのは何、というと次のように使えるモデルの一覧は出てきます。あんまりすごい感じではない
$ curl -sS http://localhost:8000/hailo/v1/list | jq .
{
"models": [
"deepseek_r1_distill_qwen:1.5b",
"llama3.2:3b",
"qwen2.5-coder:1.5b",
"qwen2.5-instruct:1.5b",
"qwen2:1.5b"
]
}
以下の2つの説明で十分動作させられる気がしたので詳細は置いときます。
サポートしているモデルをpullしてきて呼び出す、というのが基本的な使い方になります
$ curl --silent http://localhost:8000/api/pull \
-H 'Content-Type: application/json' \
-d '{ "model": "qwen2:1.5b", "stream" : true }'
$ curl --silent http://localhost:8000/api/generate \
-H 'Content-Type: application/json' \
-d '{"model": "qwen2:1.5b", "prompt": "Why is the sky blue?", "stream":false}'
tool callingは現状 (5.1.1で試しました) では出来ないようでした。サポートを入れようとしている人はいます。
思ったのより2周りほど期待に届かなかったのでした。ままならないね