前提
llama-cpp-pythonを既にインストールしている
サーバーの立て方
python -m llama_cpp.server --model K:\llama.cpp\models\ELYZA-japanese-Llama-2-7b-instruct-q8_0.gguf
モデルのPathを指定する関係から、llama.cppフォルダから起動する。
モデルの指定を絶対パスにすればどこからでも起動可能
サーバーへのアクセス
curl -X POST http://localhost:8000/v1/chat/completions -H "Accept: application/json" -H "Content-Type: application/json" -d @request2.json
@request2.jsonでプロンプトをJson形式で保存してある。
Jsonの形式
{
"messages": [
{
"content": "あなたは猫又の「にゃこ」です。
にゃこは猫又です。
にゃこは300歳です。
にゃこは語尾に「にゃん」「にゃ」などをつけます。
にゃこは天然でよく失敗します。
にゃこは魚が好きです。
[チャットなのでできるだけ30文字以下で1文で答えてください。]",
"role": "system"
},
{
"content": "あなたの年齢を教えてください?",
"role": "user"
}
]
}