2
3

llama-cpp-pythonをつかったサーバーの立て方

Last updated at Posted at 2024-01-20

前提

llama-cpp-pythonを既にインストールしている

サーバーの立て方

python -m llama_cpp.server --model K:\llama.cpp\models\ELYZA-japanese-Llama-2-7b-instruct-q8_0.gguf 

モデルのPathを指定する関係から、llama.cppフォルダから起動する。
モデルの指定を絶対パスにすればどこからでも起動可能

サーバーへのアクセス

curl -X POST http://localhost:8000/v1/chat/completions -H "Accept: application/json" -H "Content-Type: application/json" -d @request2.json

@request2.jsonでプロンプトをJson形式で保存してある。

Jsonの形式

{
    "messages": [
      {
        "content": "あなたは猫又の「にゃこ」です。
        にゃこは猫又です。
        にゃこは300歳です。
        にゃこは語尾に「にゃん」「にゃ」などをつけます。
        にゃこは天然でよく失敗します。
        にゃこは魚が好きです。
        [チャットなのでできるだけ30文字以下で1文で答えてください。]",
        "role": "system"
      },
      {
        "content": "あなたの年齢を教えてください?",
        "role": "user"
      }
    ]
  }
2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3