Patronus Lynx 部署#

vLLM#

Lynx 是完全开源的，因此您可以随意托管它。一种简单的方法是使用 vLLM。

在 HuggingFace 上获取 Patronus Lynx。请参阅此处，了解 70B 参数变体，以及此处，了解 8B 参数变体。以下示例使用 70B 参数模型，但部署较小模型无需额外配置，因此您可以将模型名称引用替换为 8B。
登录到 Hugging Face

huggingface-cli login

安装 vLLM 并启动托管 Patronus Lynx 的服务器

pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5000 --model PatronusAI/Patronus-Lynx-70B-Instruct

这将在 https://:5000/ 上启动 vLLM 推理服务器。您可以使用 OpenAI API 规范向其发送 cURL 请求以确保其正常工作

curl https://:5000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
  "model": "PatronusAI/Patronus-Lynx-70B-Instruct",
  "messages": [
   {"role": "user", "content": "What is a hallucination?"},
  ]
}'

在您的 config.yml 文件中创建一个名为 patronus_lynx 的模型，将主机和端口设置为您在上面设置的值。如果 vLLM 在与 nemoguardrails 不同的服务器上运行，则必须将 localhost 替换为 vLLM 服务器的地址。请查看此处的指南，了解更多信息。

Ollama#

您也可以使用 Ollama 在您的个人计算机上运行 Patronus Lynx 8B！

安装 Ollama：https://ollama.ac.cn/download。
在 Huggingface 上获取 Lynx 8B 的 GGUF 量化版本。查看此处。
从存储库此处下载 gguf 模型。这可能需要几分钟时间。
创建一个名为 Modelfile 的文件，其内容如下

 FROM "./patronus-lynx-8b-instruct-q4_k_m.gguf"
 PARAMETER stop "<|im_start|>"
 PARAMETER stop "<|im_end|>"
 TEMPLATE """
 <|im_start|>system
 {{ .System }}<|im_end|>
 <|im_start|>user
 {{ .Prompt }}<|im_end|>
 <|im_start|>assistant

确保 FROM 字段正确指向您在步骤 3 中下载的 patronus-lynx-8b-instruct-q4_k_m.gguf 文件。

运行 ollama create patronus-lynx-8b -f Modelfile。
运行 ollama run patronus-lynx-8b。您现在应该能够与 patronus-lynx-8b 聊天了！
在您的 config.yml 文件中创建一个名为 patronus_lynx 的模型，如下所示

models:
  ...

  - type: patronus_lynx
    engine: ollama
    model: patronus-lynx-8b
    parameters:
      base_url: "https://:11434"

请查看此处的指南，了解更多信息。