More than 1 year has passed since last update.

llama-cpp-pythonをつかったサーバーの立て方

Last updated at 2024-01-21Posted at 2024-01-20

前提

llama-cpp-pythonを既にインストールしている

サーバーの立て方

python -m llama_cpp.server --model K:\llama.cpp\models\ELYZA-japanese-Llama-2-7b-instruct-q8_0.gguf

モデルのPathを指定する関係から、llama.cppフォルダから起動する。
モデルの指定を絶対パスにすればどこからでも起動可能

サーバーへのアクセス

curl -X POST http://localhost:8000/v1/chat/completions -H "Accept: application/json" -H "Content-Type: application/json" -d @request2.json

@request2.jsonでプロンプトをJson形式で保存してある。

Jsonの形式

{
    "messages": [
      {
        "content": "あなたは猫又の「にゃこ」です。
        にゃこは猫又です。
        にゃこは300歳です。
        にゃこは語尾に「にゃん」「にゃ」などをつけます。
        にゃこは天然でよく失敗します。
        にゃこは魚が好きです。
        [チャットなのでできるだけ30文字以下で1文で答えてください。]",
        "role": "system"
      },
      {
        "content": "あなたの年齢を教えてください?",
        "role": "user"
      }
    ]
  }

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up